Программа обработки параллельных текстов

Скачать тестовую версию

Программа предназначена для извлечения пар предложений вида "оригинал-перевод" из текстов на иностранном и русском языке.

У переводчиков часто накапливаются оригинальные и переведённые тексты, содержащих полезную информацию для последующей работы. Системы translation memory позволяют хранить и искать предложения на двух языках. Преимущество очевидно - не нужно дважды переводить одни и те же или похожие фрагменты текста. Однако, извлечение и упорядочивание информации из исходных текстов представляет некоторые трудности. Количество предложений в оригинале и переводе различается, возможны слияния, разделения и пропуски предложений. Всё это мешает корректно распараллеливать тексты и требует значительной ручной работы.

Новая программа позволяет просчитать варианты разбиения текстов на предложения, основываясь на данных словаря Мультитран.

В каталог, используемый для обработки, необходимо скопировать два файла в текстовом формате. В результате обработки создаётся файл с таблицей следующего вида:

С помощью данной программы уже обработано более ста художественных произведений различных жанров. Результат работы программы представлен в новом разделе сайта - Читальном зале
В читальном зале можно читать произведения в подлиннике, а подводя курсор мыши к предложениям текста, видеть соответствующее предложение из текста перевода.
Все тексты обработаны автоматически без участия человека. Программа также сама разбивает тексты на главы и создаёт наборы необходимых файлов для размещения на сайте.

Конечно, не все тексты обрабатывается правильно. Основной критерий проверки - когда параллельные тексты ни в какой точке не расходятся окончательно. Возможны локальные сбои, происходящие из-за сложного форматирования текста, или пропусков в тексте перевода. В результате для нескольких последующих групп предложений могут быть выданы неверные результаты. Однако, программе часто удаётся вновь найти точное соответствие предложений, и дальше тексты снова выравниваются. Если в дальнейшем просматривать результат в виде таблицы, исправления понадобятся лишь в некоторых строках, но не по всей таблице целиком.

Тексты, пока ещё не поддающиеся полному распараллеливанию, изучаются для внесения соответствующих изменений в программу, которая сейчас проходит испытания у ряда профессиональных переводчиков. По всем вопросам, связанным с данной программой, обращайтесь к разработчику.

Целый пропущенный абзац обычно выводит систему из равновесия. Но это позволяет также контролировать адекватность перевода. В целом программа не сбивается без серьёзных причин и автоматически обрабатывает более 70% художественных текстов. При подготовке базы предложений пропущенные абзацы были выявлены в нескольких переводах известных произведений (правда, файлы скачивались из Интернета и не сверялись с печатным текстом). Более короткие пропуски (1-2 предложения) программа обычно преодолевает самостоятельно.

Около 200.000 предложений из обработанных текстов добавлено в базу параллельных предложений, работающую на сайте. Поиск в базе предложений объединён с поиском в словаре, поэтому все слова и словосочетания из обработанных текстов в обоих направлениях перевода можно находить непосредственно при запросах к словарю. База параллельных предложений насчитывает около 250.000 единиц (500.000 предложений для обоих направлений перевода), включая и записи, существовавшие до этого.

При поиске в словаре выдаётся ссылка на базу предложений, если в ней было найдено искомое выражение. В свод очередь, из базы предложений для всех результатов из художественных произведений, выдаются ссылки на оригинальный текст, где найденное предложение подсвечивается.

В первой версии программы поддерживается английский и русский язык

Программа обработки параллельных текстов работает со стандартным набором параметров, однако, в более сложных случаях можно использовать индивидуальные настройки:

Get short URL