Программа обработки параллельных
текстов Скачать тестовую версию Программа предназначена для извлечения пар предложений вида "оригинал-перевод" из текстов на иностранном и русском языке. У переводчиков часто накапливаются оригинальные и переведённые тексты, содержащих полезную информацию для последующей работы. Системы translation memory позволяют хранить и искать предложения на двух языках. Преимущество очевидно - не нужно дважды переводить одни и те же или похожие фрагменты текста. Однако, извлечение и упорядочивание информации из исходных текстов представляет некоторые трудности. Количество предложений в оригинале и переводе различается, возможны слияния, разделения и пропуски предложений. Всё это мешает корректно распараллеливать тексты и требует значительной ручной работы. Новая программа позволяет просчитать варианты разбиения текстов на предложения, основываясь на данных словаря Мультитран.
Конечно, не все тексты обрабатывается правильно. Основной критерий проверки - когда параллельные тексты ни в какой точке не расходятся окончательно. Возможны локальные сбои, происходящие из-за сложного форматирования текста, или пропусков в тексте перевода. В результате для нескольких последующих групп предложений могут быть выданы неверные результаты. Однако, программе часто удаётся вновь найти точное соответствие предложений, и дальше тексты снова выравниваются. Если в дальнейшем просматривать результат в виде таблицы, исправления понадобятся лишь в некоторых строках, но не по всей таблице целиком. Тексты, пока ещё не поддающиеся полному распараллеливанию, изучаются для внесения соответствующих изменений в программу, которая сейчас проходит испытания у ряда профессиональных переводчиков. По всем вопросам, связанным с данной программой, обращайтесь к разработчику. Целый пропущенный абзац обычно выводит систему из равновесия. Но это позволяет также контролировать адекватность перевода. В целом программа не сбивается без серьёзных причин и автоматически обрабатывает более 70% художественных текстов. При подготовке базы предложений пропущенные абзацы были выявлены в нескольких переводах известных произведений (правда, файлы скачивались из Интернета и не сверялись с печатным текстом). Более короткие пропуски (1-2 предложения) программа обычно преодолевает самостоятельно. Около 200.000 предложений из обработанных текстов добавлено в базу параллельных предложений, работающую на сайте. Поиск в базе предложений объединён с поиском в словаре, поэтому все слова и словосочетания из обработанных текстов в обоих направлениях перевода можно находить непосредственно при запросах к словарю. База параллельных предложений насчитывает около 250.000 единиц (500.000 предложений для обоих направлений перевода), включая и записи, существовавшие до этого. При поиске в словаре выдаётся ссылка на базу
предложений, если в ней было найдено искомое
выражение. В свод очередь, из базы предложений
для всех результатов из художественных
произведений, выдаются ссылки на оригинальный
текст, где найденное предложение подсвечивается. Программа обработки параллельных текстов
работает со стандартным набором параметров,
однако, в более сложных случаях можно
использовать индивидуальные настройки:
|