ОФФ: Trados - тэги

link 22.10.2013 5:24

Subject: ОФФ: Trados - тэги gen.

Я конвертировала ПДВ в Ворд, открыла в Традосе, а там все фиолетовое ((( Я прочитала тут (или не тут) про Code Zapper, но, как я поняла, его покупать надо? Как-то можно по-другому избавиться от этих тэгов, или Ctrl+insert и в таргете переводить аккуратненько? Вот муторно будет, так тэг на тэге. (((

lesdn ✉

link 22.10.2013 5:26

Какой формат исходного файла?

Greso ✉

link 22.10.2013 5:32

Попробуйте так:
выделите весь текст в Ворде,
откройте вкладку «Шрифт — Дополнительно»,
установите там «Масштаб: 100%; Интервал: Обычный; Смещение: Нет»,

lesdn ✉

link 22.10.2013 5:37

А если это pdf с непростым форматированием?

akilam1502 ✉

link 22.10.2013 5:49

lesdn, это был ПДФ.

Greso, сделала, но ничего, все также ((((((

lesdn ✉

link 22.10.2013 5:55

Если форматирование несложное, скопируйте в Ворд и вставьте только текст, затем переведите в Традосе, вручную отформатируйте как в исходнике и сохраните как pdf.

akilam1502 ✉

link 22.10.2013 6:06

lesdn, спасибо за совет. Попробую, только тут таблицы в основном.

Rami88 ✉

link 22.10.2013 6:25

Попробуйте другим CAT это сделать (MemoQ или Deja Vu X2). В Deja Vu Code Zapper даже в триальник включен. Если что, MemoQ крякается на ура с перманент-лицензией и, имхо, много удобнее традоса.

Rami88 ✉

link 22.10.2013 6:26

Ну и триальник у MemoQ 45 дней с полным однопользовательским функционалом.

Rami88 ✉

link 22.10.2013 6:27

Кстати, зачем вы конвертированный файл CAT'ом обрабатываете? Запихните PDF туда сразу.

akilam1502 ✉

link 22.10.2013 6:43

Rami88, т.е. ПДФ сразу в традосе открыть? Я Вас не поняла, поясните, пожалуйста.

Евгений Тамарченко ✉ moderator

link 22.10.2013 6:47

pdf можно открыть сразу в Традосе, но в плане тэгов это будет ничем не веселее, чем через Word.

Если хочется нормально работать с документом, то путь такой: pdf → FineReader (простой текст) → готовим исходный текст в Word → работаем в Trados/MemoQ etc.

Rami88 ✉

link 22.10.2013 6:52

akilam1502, да, любым "котом" можно сразу открыть пдф.
Евгений, согласен, Файнридер - отличная штука. И все же когда я локализую пдфки через мемокью или дежавю, никаких проблем не возникает. Видимо, у традоса какой-то другой алгоритм...

orion7 ✉

link 22.10.2013 7:00

Не надо пользоваться автоматическими pdf-конвертерами. Текст после них перегружен, шрифт скачет - постоянные изменения размера, смещения, кернинг и т.п. Именно эта "шрифтопляска" образует огромное количество никому не нужных тегов. Самый простой способ - FineReader, только его надо предварительно настроить на самое простое форматирование выходного текста (одна колонка, отсутствие переносов и т.п.). Современные версии уже давно умеют извлекать текст непосредственно из pdf, поэтому ошибок распознавания быть не должно. Все сегменты надо выделять вручную.
После распознавания я обычно в ворде выделяю весь текст, открываю настройки шрифта и выполняю там следующие операции:
- выбираю для всего текста один шрифт, например, Arial и, желательно, один размер, чтобы не было изменений размера шрифта внутри сегментов, мы ведь переводим, а не версткой занимаемся
- выставляю цвет текста "Авто", если исходный документ не переливается всеми цветами радуги))
- убираю все галочки внизу, кроме пунктов "надстрочный" и "подстрочный"
- на вкладке "Интервал" ставлю "Масштаб: 100%", "Интервал: Обычный", "Смещение: Нет". Кроме этого убираю здесь галочку кернинга.
И все, текст содержит абсолютный минимум тегов.
+1 коллегам сверху, пока я писал, уже успели ответить))

AsIs ✉

link 22.10.2013 7:50

CodeZapper
Скачать (утилита бесплатная) и скопировать в папку C:\Users\Вашеимяпользователя\AppData\Roaming\Microsoft\Word\STARTUP
При следующем открытии ворда появится вкладка Add-Inns, где нужно нажать CZAll. Мусорные тэги пропадут.

akilam1502 ✉

link 22.10.2013 8:10

Спасибо за ответы! Последую вашим советам. А Fine Reader скачивать и устанавливать нужно? Просто адм. прав у меня нет. Может, как-то он-лайн это провернуть можно?

Rami88 ✉

link 22.10.2013 8:16

Онлайн-конверторы, как правило, очень лажовые.
Если вы с офисного компа сидите, то печалька, так как FR не бесплатный и его надо крякать. Если у вас есть какие-то "коты" еще, кроме традоса, откройте в них исходный пдф-файл и посмотрите, что будет. Если только традос - ну тогда действуйте CodeZapper'ом по рекомендации AsIs.

akilam1502 ✉

link 22.10.2013 8:19

AsIs, спасибо, скачала, только вот не могу найти вот это AppData\Roaming\Microsoft\Word\STARTUP

Там только папки contacts, desktop, downloads and etc

akilam1502 ✉

link 22.10.2013 8:21

Ладно, буду лелеять надежду, что с запером получится. Ждем ответ AsIs))

AsIs ✉

link 22.10.2013 8:23

Вводите буквами в адресной строке, т.к. папки м.б. скрыты.
Также см. ЛС. Если есть возможность качнуть 83 мб (а в офисе она обычно есть), то вот вам и ФР. Запускаете ехе и распознаете. Запускаться может не сразу - до пяти попыток бывает нужно сделать. Может открыться наоборот в трех экземплярах. Ничего не поделаешь - технические издержки. Зато работать можно...

AsIs ✉

link 22.10.2013 8:25

*папка AppData часто бывает скрыта.
1. Скопируйте прямо целиком это:
C:\Users\Вашеимяпользователя\AppData\Roaming\Microsoft\Word\STARTUP
2. Замените "Вашеимяпользователя" на ваше реальное имя пользователя в системе
3. нажмите ентер.

AsIs ✉

link 22.10.2013 8:26

** Скопируйте _и вставьте в адресную строку проводника_

AsIs ✉

link 22.10.2013 8:28

***блин, еще забыл... Если ОС русская, то папка Users может называться Пользователи. Удачи =)

Val61 ✉

link 22.10.2013 8:37

1. По поводу загрузки PDF непосредственно в CAT напрямую.
1.1. Мы ведь все при этом понимаем, что речь идет только о т.н. "true" pdf, а не об отсканированных и сохраненных как pdf изображениях. Последние требуют обязательного распознавания средствами OCR (см. ниже).
1.2. В случае загрузки ПДФ в САТ, загружается только текст. И на выходе будет только текст. Все форматирование будет утрачено. Будет просто файл в формате *.txt. Иногда и этого хватает, впрочем.

2. По поводу КодЗаппера. Это довольно опасная тулза, ибо ею можно так наформатировать, что весь документ вообще улетит к бениной маме. Гораздо более спокойная матчасть для вычищения тегов называется TransTools Utilities (в данном случае TransToools for Word), бесплатная, лежит тут: http://www.translatortools.net/word-about.html Я пользуюсь только ей, в сочетании с МемоКью ну просто очень хороша.

3. Упомянутые "true" PDF загружаются в САТ и потом выгружаются обратно в PDF с почти полным сохранением оригинального форматирования программой Iceni Infix Pro. Небольшие пляски с бубном могут все же потребоваться, но ничего такого, с чем не мог бы справиться переводчик.

4. OCR распознавалки. FineReader - лучшая и абсолютный мастхэв. Причем, по личному опыту, в каких-то случаях 8-я версия понимает и распознает более корректно, чем 11-я. В каких-то - наоборот. Оттого юзаю обе. akilam1502, да FineReader нужно купить, скачать и установить. Если адм. прав не хватает, пусть для вас это сделает администратор. Если начальство на работе не осознает важности, объясните. Не сможете объяснить - ищите другую работу. Онлайн распознавалки вроде как существуют, спросите у Гугля, я сам ни разу не пользовался, NDA и все такое. Кстати. Если у вас в офисе кто-то узнает, что вы скармливаете секретные корпоративные документы Гуглю (а "они" таки узнают), вряд ли вас за это похвалят. И что-то мне шепчет, что качество распознавания вряд ли будет лучше, чем у файнридера.

AsIs ✉

link 22.10.2013 8:45

akilam1502, вам файнридер без администратора нужна или нет? Посмотрите личное сообщение (красным шрифтом), а то пропадет на задворках форума.
Val61, спасибо за напоминание полезного ресурса.

Rami88 ✉

link 22.10.2013 8:47

> Мы ведь все при этом понимаем, что речь идет только о т.н. "true" pdf, а не об отсканированных и сохраненных как pdf изображениях. Последние требуют обязательного распознавания средствами OCR (см. ниже).

Да, абсолютно верно.

> 1.2. В случае загрузки ПДФ в САТ, загружается только текст. И на выходе будет только текст. Все форматирование будет утрачено. Будет просто файл в формате *.txt. Иногда и этого хватает, впрочем.

Про всех "котов" не скажу, но Deja Vu X2 форматирование сохраняет без проблем. Даже цвета, таблицы и прочую радость. Только текст с картинки не распознает.

Val61 ✉

link 22.10.2013 9:01

Rami88: Fluency вроде как тоже с PDF обращается аналогично, более того, в окошке справа сразу видишь как будет выглядеть готовый перевод. Но это со слов, сам не пробовал. Сам пользуюсь экспортом-импортом в/из CAT из Инфикса, в основном работает корректно.

Другое дело, что если текст во встроенных картинках тоже нужно переводить, то тут без вариантов - только Файнридер.

Нужно не забывать, что некоторые английские шрифты (Франклин, Миринда и др., написал для примера, точную разблюдовку не помню, но у меня эта беда встречается регулярно) не имеют кириллических символов. Или имеют, но замучаешься искать и встраивать. Приходится заменять их универсальными типа Arial Narrow, тогда форматирование может немного поплыть. Хорошо, что в Инфиксе довольно удобно задавать расстояния между символами, межстрочные интервалы, в общем, подгонять под макет. В нем, кстати, тоже встроенная OCR имеется. Похуже Файнридера, но для простых случаев сгодится.

Rami88 ✉

link 22.10.2013 9:05

> Fluency вроде как тоже с PDF обращается аналогично, более того, в окошке справа сразу видишь как будет выглядеть готовый перевод. Но это со слов, сам не пробовал. Сам пользуюсь экспортом-импортом в/из CAT из Инфикса, в основном работает корректно.

Я тоже эту тулзу не юзал, но за дежа вю ручаюсь))

> Другое дело, что если текст во встроенных картинках тоже нужно переводить, то тут без вариантов - только Файнридер.

Да, именно так и есть.

akilam1502 ✉

link 22.10.2013 9:07

AsIs, я нашла этот путь, спасибо за такую подробную инструкцию, но, несмотря на всю подробность, мой мозг не все понял )))
Я вот скопировала этот запер в папку Startup. А теперь? Вот это: ** Скопируйте _и вставьте в адресную строку проводника_

Это где (знаю, надо мной уже весь форум смеется ))))

Val61, а у меня Традос. TransToools for Word пойдет на него?

Val61 ✉

link 22.10.2013 9:18

akilam1502 22.10.2013 12:07
у меня Традос. TransToools for Word пойдет на него?

Не знаю. Многое зависит от конкретного документа. TransTools - это утилита Ворда, она к собственно CAT отношения не имеет. С одной стороны, теоретически, совершенно без разницы, в какой "кошке" потом работать. С другой - Традос с тегами и форматированием обращается особым образом, отличным от Дежи или МемоКью. Пробуйте, что тут еще посоветуешь. Народ хвалит. Я сам в Традосе не работаю.

Но, кстати, если у вас офисный компьютер с запретом на установку программ и модификации имеющихся, то все равно придется договариваться об установке с администратором, пусть утилита и бесплатная.

На одной из моих работ начальство согласилось купить за деньги весь пакет потребного мне ПО (хе, даже Промт лицензионный тогда под это дело прикупил), тыщи на 2 или 3 долларов. Ужо и оторвался я тогда, всласть :D
Но с категорическим запретом ставить в компьютер что-то самому. Только через ИТ-департамент.

Rami88 ✉

link 22.10.2013 9:31

Повезло вам, Val61. Я уже месяц пытаюсь дежавю икс2 выбить у своей фирмы, пока безрезультатно:(

Val61 ✉

link 22.10.2013 9:38

Повезло вам

Везет тому, кто везет ;) :) Правильная дрессировка начальства это высшее из искусств :D С той работы, к слову, мне потом пришлось уйти. При увольнении ту закупку тоже припомнили, хоть и косвенно.

akilam1502 ✉

link 22.10.2013 9:40

Val61, хорошо, будем пробовать, спасибо. Потихоньку научусь. Может, действительно, попробовать подать заявку. А вдруг одобрят, Традос хоть выдали (хотя ключ принадлежит другому переводчику, не понравилось ему с CAT переводить, а столько денег потратили)

AsIs ✉

link 22.10.2013 10:03

*Я вот скопировала этот запер в папку Startup. А теперь?*
Теперь запустите MS Word и найдите там вкладку Add-Ins. Сделайте копию файла на случай, если сбудется армагеддон по сценарию Val61. Нажмите CZAll

AsIs ✉

link 22.10.2013 10:05

Вот это: ** Скопируйте _и вставьте в адресную строку проводника_
Это где (знаю, надо мной уже весь форум смеется )
Если в Startup файлик CZ уже вставили, то "Вот это" уже не нужно делать.

akilam1502 ✉

link 22.10.2013 11:40

Спасибо за инструкцию )) А я вот тут пока искала ответ, уже начала переводить в Традосе этот док (ctrl+insert) и перевела где-то 1/4 текста. Возможно ли с уже как-то в Традосе убрать тэги, т.е. в открытом вордовском доке?

AsIs ✉

link 22.10.2013 11:46

теоретически - возможно, но на практике - крайне не рекомендуется. Лучше удалите свой док с тегами и добавьте очищенный от тэгов файл. Все равно ж перевод в памяти. Ну прощелкаете ctrl+insert'ом еще раз эту четверть текста

akilam1502 ✉

link 22.10.2013 12:07

AsIs, ой, точно! Он же в памяти уже. Какой Вы умный)) сейчас сделаю.

Get short URL | Pages 1 2 all