Subject: ОФФ: Trados - тэги gen. Я конвертировала ПДВ в Ворд, открыла в Традосе, а там все фиолетовое ((( Я прочитала тут (или не тут) про Code Zapper, но, как я поняла, его покупать надо? Как-то можно по-другому избавиться от этих тэгов, или Ctrl+insert и в таргете переводить аккуратненько? Вот муторно будет, так тэг на тэге. (((
|
Какой формат исходного файла? |
Попробуйте так: выделите весь текст в Ворде, откройте вкладку «Шрифт — Дополнительно», установите там «Масштаб: 100%; Интервал: Обычный; Смещение: Нет», |
А если это pdf с непростым форматированием? |
|
link 22.10.2013 5:49 |
lesdn, это был ПДФ. Greso, сделала, но ничего, все также (((((( |
Если форматирование несложное, скопируйте в Ворд и вставьте только текст, затем переведите в Традосе, вручную отформатируйте как в исходнике и сохраните как pdf. |
|
link 22.10.2013 6:06 |
lesdn, спасибо за совет. Попробую, только тут таблицы в основном. |
Попробуйте другим CAT это сделать (MemoQ или Deja Vu X2). В Deja Vu Code Zapper даже в триальник включен. Если что, MemoQ крякается на ура с перманент-лицензией и, имхо, много удобнее традоса. |
Ну и триальник у MemoQ 45 дней с полным однопользовательским функционалом. |
Кстати, зачем вы конвертированный файл CAT'ом обрабатываете? Запихните PDF туда сразу. |
|
link 22.10.2013 6:43 |
Rami88, т.е. ПДФ сразу в традосе открыть? Я Вас не поняла, поясните, пожалуйста. |
Евгений Тамарченко ✉ moderator |
|
link 22.10.2013 6:47 |
pdf можно открыть сразу в Традосе, но в плане тэгов это будет ничем не веселее, чем через Word. Если хочется нормально работать с документом, то путь такой: pdf → FineReader (простой текст) → готовим исходный текст в Word → работаем в Trados/MemoQ etc. |
akilam1502, да, любым "котом" можно сразу открыть пдф. Евгений, согласен, Файнридер - отличная штука. И все же когда я локализую пдфки через мемокью или дежавю, никаких проблем не возникает. Видимо, у традоса какой-то другой алгоритм... |
Не надо пользоваться автоматическими pdf-конвертерами. Текст после них перегружен, шрифт скачет - постоянные изменения размера, смещения, кернинг и т.п. Именно эта "шрифтопляска" образует огромное количество никому не нужных тегов. Самый простой способ - FineReader, только его надо предварительно настроить на самое простое форматирование выходного текста (одна колонка, отсутствие переносов и т.п.). Современные версии уже давно умеют извлекать текст непосредственно из pdf, поэтому ошибок распознавания быть не должно. Все сегменты надо выделять вручную. После распознавания я обычно в ворде выделяю весь текст, открываю настройки шрифта и выполняю там следующие операции: - выбираю для всего текста один шрифт, например, Arial и, желательно, один размер, чтобы не было изменений размера шрифта внутри сегментов, мы ведь переводим, а не версткой занимаемся - выставляю цвет текста "Авто", если исходный документ не переливается всеми цветами радуги)) - убираю все галочки внизу, кроме пунктов "надстрочный" и "подстрочный" - на вкладке "Интервал" ставлю "Масштаб: 100%", "Интервал: Обычный", "Смещение: Нет". Кроме этого убираю здесь галочку кернинга. И все, текст содержит абсолютный минимум тегов. +1 коллегам сверху, пока я писал, уже успели ответить)) |
CodeZapper Скачать (утилита бесплатная) и скопировать в папку C:\Users\Вашеимяпользователя\AppData\Roaming\Microsoft\Word\STARTUP При следующем открытии ворда появится вкладка Add-Inns, где нужно нажать CZAll. Мусорные тэги пропадут. |
|
link 22.10.2013 8:10 |
Спасибо за ответы! Последую вашим советам. А Fine Reader скачивать и устанавливать нужно? Просто адм. прав у меня нет. Может, как-то он-лайн это провернуть можно? |
Онлайн-конверторы, как правило, очень лажовые. Если вы с офисного компа сидите, то печалька, так как FR не бесплатный и его надо крякать. Если у вас есть какие-то "коты" еще, кроме традоса, откройте в них исходный пдф-файл и посмотрите, что будет. Если только традос - ну тогда действуйте CodeZapper'ом по рекомендации AsIs. |
|
link 22.10.2013 8:19 |
AsIs, спасибо, скачала, только вот не могу найти вот это AppData\Roaming\Microsoft\Word\STARTUP Там только папки contacts, desktop, downloads and etc |
|
link 22.10.2013 8:21 |
Ладно, буду лелеять надежду, что с запером получится. Ждем ответ AsIs)) |
Вводите буквами в адресной строке, т.к. папки м.б. скрыты. Также см. ЛС. Если есть возможность качнуть 83 мб (а в офисе она обычно есть), то вот вам и ФР. Запускаете ехе и распознаете. Запускаться может не сразу - до пяти попыток бывает нужно сделать. Может открыться наоборот в трех экземплярах. Ничего не поделаешь - технические издержки. Зато работать можно... |
*папка AppData часто бывает скрыта. 1. Скопируйте прямо целиком это: C:\Users\Вашеимяпользователя\AppData\Roaming\Microsoft\Word\STARTUP 2. Замените "Вашеимяпользователя" на ваше реальное имя пользователя в системе 3. нажмите ентер. |
** Скопируйте _и вставьте в адресную строку проводника_ |
***блин, еще забыл... Если ОС русская, то папка Users может называться Пользователи. Удачи =) |
1. По поводу загрузки PDF непосредственно в CAT напрямую. 1.1. Мы ведь все при этом понимаем, что речь идет только о т.н. "true" pdf, а не об отсканированных и сохраненных как pdf изображениях. Последние требуют обязательного распознавания средствами OCR (см. ниже). 1.2. В случае загрузки ПДФ в САТ, загружается только текст. И на выходе будет только текст. Все форматирование будет утрачено. Будет просто файл в формате *.txt. Иногда и этого хватает, впрочем. 2. По поводу КодЗаппера. Это довольно опасная тулза, ибо ею можно так наформатировать, что весь документ вообще улетит к бениной маме. Гораздо более спокойная матчасть для вычищения тегов называется TransTools Utilities (в данном случае TransToools for Word), бесплатная, лежит тут: http://www.translatortools.net/word-about.html Я пользуюсь только ей, в сочетании с МемоКью ну просто очень хороша. 3. Упомянутые "true" PDF загружаются в САТ и потом выгружаются обратно в PDF с почти полным сохранением оригинального форматирования программой Iceni Infix Pro. Небольшие пляски с бубном могут все же потребоваться, но ничего такого, с чем не мог бы справиться переводчик. 4. OCR распознавалки. FineReader - лучшая и абсолютный мастхэв. Причем, по личному опыту, в каких-то случаях 8-я версия понимает и распознает более корректно, чем 11-я. В каких-то - наоборот. Оттого юзаю обе. akilam1502, да FineReader нужно купить, скачать и установить. Если адм. прав не хватает, пусть для вас это сделает администратор. Если начальство на работе не осознает важности, объясните. Не сможете объяснить - ищите другую работу. Онлайн распознавалки вроде как существуют, спросите у Гугля, я сам ни разу не пользовался, NDA и все такое. Кстати. Если у вас в офисе кто-то узнает, что вы скармливаете секретные корпоративные документы Гуглю (а "они" таки узнают), вряд ли вас за это похвалят. И что-то мне шепчет, что качество распознавания вряд ли будет лучше, чем у файнридера. |
akilam1502, вам файнридер без администратора нужна или нет? Посмотрите личное сообщение (красным шрифтом), а то пропадет на задворках форума. Val61, спасибо за напоминание полезного ресурса. |
> Мы ведь все при этом понимаем, что речь идет только о т.н. "true" pdf, а не об отсканированных и сохраненных как pdf изображениях. Последние требуют обязательного распознавания средствами OCR (см. ниже). Да, абсолютно верно. > 1.2. В случае загрузки ПДФ в САТ, загружается только текст. И на выходе будет только текст. Все форматирование будет утрачено. Будет просто файл в формате *.txt. Иногда и этого хватает, впрочем. Про всех "котов" не скажу, но Deja Vu X2 форматирование сохраняет без проблем. Даже цвета, таблицы и прочую радость. Только текст с картинки не распознает. |
Rami88: Fluency вроде как тоже с PDF обращается аналогично, более того, в окошке справа сразу видишь как будет выглядеть готовый перевод. Но это со слов, сам не пробовал. Сам пользуюсь экспортом-импортом в/из CAT из Инфикса, в основном работает корректно. Другое дело, что если текст во встроенных картинках тоже нужно переводить, то тут без вариантов - только Файнридер. Нужно не забывать, что некоторые английские шрифты (Франклин, Миринда и др., написал для примера, точную разблюдовку не помню, но у меня эта беда встречается регулярно) не имеют кириллических символов. Или имеют, но замучаешься искать и встраивать. Приходится заменять их универсальными типа Arial Narrow, тогда форматирование может немного поплыть. Хорошо, что в Инфиксе довольно удобно задавать расстояния между символами, межстрочные интервалы, в общем, подгонять под макет. В нем, кстати, тоже встроенная OCR имеется. Похуже Файнридера, но для простых случаев сгодится. |
> Fluency вроде как тоже с PDF обращается аналогично, более того, в окошке справа сразу видишь как будет выглядеть готовый перевод. Но это со слов, сам не пробовал. Сам пользуюсь экспортом-импортом в/из CAT из Инфикса, в основном работает корректно. Я тоже эту тулзу не юзал, но за дежа вю ручаюсь)) > Другое дело, что если текст во встроенных картинках тоже нужно переводить, то тут без вариантов - только Файнридер. Да, именно так и есть. |
|
link 22.10.2013 9:07 |
AsIs, я нашла этот путь, спасибо за такую подробную инструкцию, но, несмотря на всю подробность, мой мозг не все понял ))) Я вот скопировала этот запер в папку Startup. А теперь? Вот это: ** Скопируйте _и вставьте в адресную строку проводника_ Это где (знаю, надо мной уже весь форум смеется )))) Val61, а у меня Традос. TransToools for Word пойдет на него? |
akilam1502 22.10.2013 12:07 у меня Традос. TransToools for Word пойдет на него? Не знаю. Многое зависит от конкретного документа. TransTools - это утилита Ворда, она к собственно CAT отношения не имеет. С одной стороны, теоретически, совершенно без разницы, в какой "кошке" потом работать. С другой - Традос с тегами и форматированием обращается особым образом, отличным от Дежи или МемоКью. Пробуйте, что тут еще посоветуешь. Народ хвалит. Я сам в Традосе не работаю. Но, кстати, если у вас офисный компьютер с запретом на установку программ и модификации имеющихся, то все равно придется договариваться об установке с администратором, пусть утилита и бесплатная. На одной из моих работ начальство согласилось купить за деньги весь пакет потребного мне ПО (хе, даже Промт лицензионный тогда под это дело прикупил), тыщи на 2 или 3 долларов. Ужо и оторвался я тогда, всласть :D |
Повезло вам, Val61. Я уже месяц пытаюсь дежавю икс2 выбить у своей фирмы, пока безрезультатно:( |
Повезло вам Везет тому, кто везет ;) :) Правильная дрессировка начальства это высшее из искусств :D С той работы, к слову, мне потом пришлось уйти. При увольнении ту закупку тоже припомнили, хоть и косвенно. |
|
link 22.10.2013 9:40 |
Val61, хорошо, будем пробовать, спасибо. Потихоньку научусь. Может, действительно, попробовать подать заявку. А вдруг одобрят, Традос хоть выдали (хотя ключ принадлежит другому переводчику, не понравилось ему с CAT переводить, а столько денег потратили) |
*Я вот скопировала этот запер в папку Startup. А теперь?* Теперь запустите MS Word и найдите там вкладку Add-Ins. Сделайте копию файла на случай, если сбудется армагеддон по сценарию Val61. Нажмите CZAll |
Вот это: ** Скопируйте _и вставьте в адресную строку проводника_ Это где (знаю, надо мной уже весь форум смеется ) Если в Startup файлик CZ уже вставили, то "Вот это" уже не нужно делать. |
|
link 22.10.2013 11:40 |
Спасибо за инструкцию )) А я вот тут пока искала ответ, уже начала переводить в Традосе этот док (ctrl+insert) и перевела где-то 1/4 текста. Возможно ли с уже как-то в Традосе убрать тэги, т.е. в открытом вордовском доке? |
теоретически - возможно, но на практике - крайне не рекомендуется. Лучше удалите свой док с тегами и добавьте очищенный от тэгов файл. Все равно ж перевод в памяти. Ну прощелкаете ctrl+insert'ом еще раз эту четверть текста |
|
link 22.10.2013 12:07 |
AsIs, ой, точно! Он же в памяти уже. Какой Вы умный)) сейчас сделаю. |