ОФФ: Оптимизация/ускорение перевода с помощью mashine learning

link 4.08.2017 8:58

Subject: ОФФ: Оптимизация/ускорение перевода с помощью mashine learning gen.

Здравствуйте. Меня зовут Юра. Занимаюсь техническим (медицинским) переводом более 9 лет. За это время выполнил свыше полутысячи заказов суммарным объемом более 38 млн. знаков с пробелами. Работаю дистанционно. Продолжительность моего рабочего дня последние пару лет - от где-то 3,5 до 10 ч (с учетом малолетних семейных обстоятельств), в среднем в пределах 5 ч. Перевожу 8-30 тыс. знаков с пробелами в день (в зависимости от сложности текста и времени работы), принимая заказы ориентируюсь (чтобы с некоторым запасом) на 14 тыс. знаков с пробелами/день. Поскольку среди друзей переводчиков нет, насколько низки/высоки темпы моей работы, по-правде, толком не знаю. Работаю в MemoQ (свои translation memories + весьма обширная база TM БП, в котором работаю). Продолжительность рабочего дня меня, конечно, устраивает, но, как ни странно, не совсем устраивает заработок ;)

Собственно, вопрос: как повысить эффективность своей работы? Позволю себе высказать ряд мыслей вслух, и буду рад конструктивной беседе. Видится 2 глобальных аспекта/направления:
1) "прокачка" собственных мозгов;
2) дальнейшая (помимо "базового" использования САТ) автоматизация.
(P.s. Да, конечно, есть еще более "глобальные" варианты типа поиска другого работодателя, работы напрямую с заказчиками или смены рода деятельности в целом, но предлагаю обсудить здесь именно вышеуказанные пункты).

По п. 1, в общем-то, понятно, что качество и скорость перевода растет в зависимости от знаний/опыта переводчика, и этот процесс идет сам собой по мере выполнения заказов, хотя, наверное, не слишком быстро. А если времени на самообразование особо не остается (плохо, да), то и динамика в этом плане не слишком бодрая. Поэтому интересно, можно ли/да и стоит ли при таких раскладах попытаться повысить скорость работы с помощью каких-либо современных компьютерных технологий.

Пробовал надиктовывать перевод голосом (speechpad.ru) - поначалу показалось перспективно (на первых пробных текстах, вроде как, был некоторый прирост производительности, до 20%), но в конечном счете оказалось многовато правки при вводе, мне как-то не пошло, и я отказался от этой затеи.

Теперь вот размышляю над:
- использованием самописных скриптов на Python для предварительной обработки текста (более "интеллектуальной" автозамены, перевода тех или иных типовых конструкций, с которыми не справляется инструментарий MemoQ)
- использованием технологий машинного обучения (mashine learning). Поскольку подключение плагинов для машинного перевода в САТ 1) противоречит требованиям БП относительно соблюдения конфиденциальности, и 2) дает не то чтобы сильно хороший результат (приблизительно равный результату перевода в google.translate), возник вопрос: а никто не пробовал установить/настроить на своем ПК локальную систему машинного обучения, обучить ее на имеющихся translation memories и использовать в переводе? По идее, такая нейросеть, обученная не на текстах широкой тематики, но именно на своих работах, должна бы выдавать более релевантный результат(?) Насколько в принципе целесообразно "копать" в этом направлении на текущем уровне технологий в этой области?

Какие еще могут быть мысли насчет повышения продуктивности работы?

Заранее спасибо.
С ув., Юрий.

Aiduza ✉

link 4.08.2017 9:04

Machine.

Petrelnik ✉

link 4.08.2017 9:13

более "глобальные" варианты типа поиска другого работодателя, работы напрямую с заказчиками.

Ronny ✉

link 4.08.2017 9:26

Да, все похоже, похоже… и нормы дневной выработки, и мысли… Только инструмент другой (DeJa Vu).

А мысли грустные. Занимаюсь переводом с 05 года, «плотно» - с 2008. Если в «золотые годы» (20010-2013) подбирался к объемам 1 млн. знаков в месяц (и иногда переваливал их), то в последние годы падение раза в 3…

Изменился входной материал. Тексты были написаны проще, грамотнее, соответствовали стилю (перевожу описания изобретений). Сейчас нередки автоматически сгенерированные (или автоматически переведенные на английский с др. европейских языков) тексты. Там грамматики практически нет (не говоря уже о смысле), порядок слов произвольный, куча ошибок, которые Word показывает… CAT тут бессилен… И не знаю, какая мощь нейросети нужна, чтобы справиться с этим бредом. Скорее всего, сработает принцип GIGO (garbage IN – garbage OUT), что по-русски означает «из г…на конфетку не сделаешь».

А «прокачка» … стала мешать. Если раньше и вариантов перевода в мозгу «не всплывало», и мало что смущало, то теперь постоянно цепляешься за всякую ерунду. А вот еще в этом словаре посмотрим, а вот еще в гугле пороемся в статьях, сомнения, сомнения, а вдруг автор имел в виду… или вдруг вот это начало предложения как-то связано с вот этим местом в середине?
Перемудрение какое-то… И отключить сложно :)

4uzhoj ✉ moderator

link 4.08.2017 10:15

"А вот еще в этом словаре посмотрим, а вот еще в гугле пороемся в статьях, сомнения, сомнения, а вдруг автор имел в виду..."

Так так и должно быть, по-моему.

Supa Traslata ✉

link 4.08.2017 10:29

"Iurii" - после этого не стал читать

Petrelnik ✉

link 4.08.2017 11:22

В общем, Юрий, спойлер: в этой ветке будут обсуждать ваш ник, ваши ставки, ваших заказчиков, но - никто этим здесь не занимался, я уверена на 99%.
Если хочется попробовать - так и попробуйте! Потом сможете выступить на TFR, рассказать))

azu ✉

link 4.08.2017 12:23

Supa Traslata - так сейчас в паспортах пишут, однако.

IuriiA
Пробовала надиктовывать еще в давние времена, но много правок и не могу понять, как это сочетается с кошками (у меня Wordfast). В итоге купила Mac, на нем пальцы не так устают.

Мне кажется, самообразование переводчика и процесс перевода - это одно и тоже. Переводишь договоры с английского, запоминаешь фразы, потом используешь в переводе на язык - как-то так.

То, что вы предлагаете потом, для меня "темный лес") CAT сильно помогают при работе на одних и тех же клиентов, даже если им скидки делать.

Какие еще могут быть пути повышения эффективности - повышать цены, искать менее жадных заказчиков)))

DrDIT ✉

link 4.08.2017 13:49

Юрий, я и переводчик. и программист, так что прекрасно понимаю, о чем Вы говорите. Сама идея вполне правильная, но возникает масса технических сложностей. Это и ограничения по производительности одного компьютера, а самое главное - недостаточный объем данных для нормального обучения нейросети. Даже гугловские нейросети, которые годами обучаются на всем массиве данных Интернета, по-прежнему выдают чушь. Хуже того, чушь эта нестабильная - по мере обучения один и тот же фрагмент исходного текста переводится по-разному (но всегда плохо).
Мне кажется, что больше помогут технологии внутрисегментного поиска (не помню. есть ли они в MemQ, в Традосе есть) и надиктовка. Я написал программу, подцепляющую Google Speech API к Традосу, и диктую по 5-6К слов в день. Потом, конечно, мой корректор вычитывает, так как бывают казусы типа "а тут мы видим двух местных крокодилов" -> "а тут невидим двухместный крокодилов".
Насчет локальных нейросетей можно пообщаться более предметно, пишите на dtroitsky@gmail.com

azu ✉

link 4.08.2017 13:54

DrDIT
"Я написал программу, подцепляющую Google Speech API к Традосу"

А сегменты вы при этом руками переключаете (или как это в Традосе называется, я так понимаю, у всех кошек принцип работы один)?

laya shkoda ✉

link 4.08.2017 13:59

вообще-то надиктовка перевода - вещь очень интересная. Она была по-моему в каком-то из фильмов Ghost in the Shell. Там писательница текст надиктовывала, а не печатала.

Aiduza ✉

link 4.08.2017 14:11

laya shkoda, это в фильме "Her" было.
и не писательница, а писатель.
:)

azu ✉

link 4.08.2017 14:12

Я еще лет 15 назад пробовала, программка Dragon Dictate называлась, неплохо распознавала, даже команды были голосовые для форматирования.

Потом начала пользоваться Wordfast, и диктовку забросила.

Aiduza ✉

link 4.08.2017 14:16

во всех программах, преобразующих речь в текст, меня раздражает одно - необходимость озвучивания знаков препинания и регистра букв и слов.

диктовать текст вот так: "с большой буквы кстати запятая о птичках двоеточие с большой буквы москва запятая знаете ли запятая не сразу строилась", мне представляется противоестественным.

к сожалению, даже продвинутые программы типа Dragon Dictate не умеют расставлять знаки препинания самостоятельно.

ну или попробуйте продиктовать компьютеру название песни "Точка, точка, запятая", чтобы при этом не вышло "..,"

Aiduza ✉

link 4.08.2017 14:20

этим же страдают встроенные распознаватели речи в продукции Apple.

насчет Windows ничего не скажу, Кортаной еще не пользовался.

Aiduza ✉

link 4.08.2017 14:21

поэтому при письменном переводе ввожу текст по-прежнему пальцами, а не голосом. :)

Aiduza ✉

link 4.08.2017 14:22

В общем, "Machine: Impossible"... :)

Local ✉

link 4.08.2017 14:28

Все уже попробовано титанами до нас:

А что природа делает без нас? - Вопрос
Кому тогда блистает снежный наст? - Вопрос
Кого пугает оголтелый гром? - Вопрос
Кого кромешно угнетает туча? - Вопрос

("Осенний марафон")

tumanov ✉

link 4.08.2017 17:54

осталось спросить: «Ставку повышать не пробовали?»

DrDIT ✉

link 4.08.2017 19:25

azu, работает это так:
- открылся очередной сегмент в Традосе;
- нажимаю выбранной мной комбинацию клавиш, держу их нажатыми, диктую;
- отпускаю - распознанный текст появляется в Традосе;
- подправляю знаки препинания, заглавные и пр. (команд с голоса под них нет), подтверждаю сегмент, и т.д.

Aiduza ✉

link 4.08.2017 21:03

как это нет команд? так попробуйте сказать "запятая", "точка" - вдруг получится?

ttimakina ✉

link 4.08.2017 21:07

А пробовали считать какой ресурс уйдет на собственные разработки? Стоит ли игра свеч? Можно ли будет их продать (коммерческим будет продукт или совсем наколеночным)?
Из неплохо работающих самообучающихся программ перевода посмотрите еще это: https://demo-pnmt.systran.net/production#/translation. Он не во всех темах хорош, но иногда приятно удивляет. Даже соображает какая в исходном тексте сделана опечатка и учтывает это. А в некоторых темах совсем слабый перевод выдает.
Это онлайн демо-версия. Теоретически (почитайте) программу можно купить и подключить к CAT. С Memsource у меня это не вышло. Долго переписывалась с теходдержками Memsource и Systran, ничего путного от них не добилась. Они как слепой с глухим :(

DrDIT ✉

link 4.08.2017 21:12

Aiduza, Google Speech API - это не то, что распознает "ОК, Google" )) Это совсем другой движок, и там команд нет, но качество распознавания очень хорошее.

Aiduza ✉

link 4.08.2017 21:18

Хорошо, но вот я зашел на сайт Google Speech API, и слова comma и full stop вполне себе распознаются и превращаются в "," и ".".

О чем мы спорим?

http://cloud.google.com/speech/

DrDIT ✉

link 4.08.2017 21:42

В русском на "запятая" он честно пишет "запятая" )))

Aiduza ✉

link 4.08.2017 21:54

а у меня и точки и запятые распознал, только слово "сегодня" у него начинается с прописной буквы:

Привет, Сегодня дождь и скверно.

Wlastas ✉

link 4.08.2017 22:31

https://translate.google.ru
выставил русский язык, нажал на микрофончик.
сказал: "мороз и сонце запятая день чудесный точка"
получилось:
Мороз и солнце, день чудесный.

Aiduza ✉

link 4.08.2017 22:41

DrDIT, возможно, у вас с дикцией проблемы :)

Анна Ф ✉

link 5.08.2017 8:25

Dragon покупали, да, и тоже после перехода на Wordfast как-то забыли про него.
Тексты по качеству изменились - очень изменились +100500. Некоторое время назад было больше правильных текстов.
А из мозга изображения в виде символов пока не скачиваются. Тока если диктовать будешь. Пока так.
По поводу нейросети - вам нужно к ученым.
Аскер, попробуйте запатентовать и продавать ваши собственные наработки.
Насчет заработка. Возможно, придется совмещать эту работу с другой или подумать о другой работе. (Кто знает, если вам переехать в другое место и открыть свой ресторан (языковую школу и т.д.), у вас будет заработок больше? Если хотите оставаться переводчиком - придерживайтесь этого уровня, потому что у вас будут в любом случае затраты энергии для повышения объема. Вам бы сохранить этот уровень, а вы о повышении. Желания берутся не пойми откуда. (Воздействие рекламы?) И если они берутся у ваших близких - отправляйте их на работу. Малыши пока зарабатывать не могут. Через некоторое время вы станете на них тратить больше времени.

Godwin ✉

link 5.08.2017 9:59

Юрий, в данном случае необходимо правильно ставить цели, куда вы стремитесь. К чему вы, в итоге стремитесь: обрести методику скоростного перевода или материальное благополучие семьи?? Это самое главное.

Вселенная щедра и отзывчива, и, как правило, даёт то, что вы просите. Более того, она очень непосредственна: Если вы просите способности быстрого перевода, то вы их получите, но это вовсе не означает, что у вас будет материальное благополучие в семье.

Я догадываюсь, что вы на это ответите, но, еще раз: Стремиться - нужно к самой конечной цели.

Ana_T ✉

link 5.08.2017 12:43

Юра, заказчика поменять гораздо проще, чем в одиночку вытянуть автоматизацию всей отрасли.

Спичпад мне нравится. Регулярно покупаю подписку на сервисе, перевожу текст с листа в микрофон, потом ручками правлю.

tumanov ✉

link 5.08.2017 20:35

В русском на "запятая" он честно пишет "запятая" )))

я старый солдат и не знаю слов любви
но я знаю команду файнд и риплейс
:9)

niccolo ✉

link 6.08.2017 16:41

Аскер - перевожу ваш вопрос в техническую плоскость

Как из ещё большего говна недорого делать больше и/или быстрее качественный продукт

Посмотрите сколько неустранимых (на нынешнем уровне развития знаний) противоречий в данной простой фразе.

Хотите больше - ищите подрядчиков и становитесь капиталистом-кровопийцей.

You need to be logged in to post in the forum

Get short URL