Subject: Подготовка текста для создания памяти в Традосе gen. У меня возникла следующая проблема. Был получен пдф, в нем текст в две колонки - английский и русский. Необходимо создать на основе текста память в Традосе.Я его конвертнул через solid documents, что позволило избежать наличия неотображаемых символов между словами внутри предложения. Однако в некоторых случаях неотображаемые символы все же разбивают предложения. Знаю, что есть специальные программы, которые позволяют удалять теги и др. Есть ли возможность как-либо решить данную проблему с использованием таких программ? Может быть, Вы подскажите, изначально конвертер получше, что избавиться изначлаьно от этой проблемы? Кроме того, я в ворде не нашел возможности "найти и заменить" все такие символы -- символы, разбивающие текст на отдельные абзацы (не табуляция). Спасибо |
разрывы строк что ли? автозамена - Больше - Специальный. Меняете последовательно "мягкий перенос", "разрыв колонки", "разрыв раздела" на пустоту. Затем меняете "разрыв строки" на пробел и в конце меняете два пробела на один. После замен выделяете весь ьтекст и по вкладкам находите: Главная - Шрифт - Интервал - ставите значения 100%, Обчный, Нет. Для начала хватит... |
кстати, одно время была проблема, что после солида старый традос вообще не хотел с файлом работать. я ФР-8 пользую, чего и вам желаю. |
я делаю так: 1) find => special => paragraph mark (ставите 2 paragraph marks) - replace with \ - делете repalce по всему тексту (почему этот знак ?- потому что он практически не встречается в обычных текстах) 2) find => special => paragraph mark (ставите 1 paragraph mark) - replace with пробел 3) find \, replace with paragraph mark (ставите 2 paragraph marks) В итоге у вас ненужные разрывы строки удаляются, а абзацы восстанавливаются |
Знак абзаца-то зачем грохать? Как раз этот знак самый полезный и распространенный в обычных текстах. Это знак, который получается в Ворде при нажатии кнопки Ентер. Если их все на пробелы поменять, весь текст получится одним абзацем |
или я туплю |
о)) работает вроде... спасибо, Рудут, я действительно ступил |
вы уже поняли, что работает, но для недоверчивых я поясню: 1 paragraph mark это и есть тот значок, который создает ненужный разрыв строки, а настоящий параграф образовывается 2-мя знаками paragraph mark. Мы их бережно убираем под знак \ (первый шаг), чтобы случайно не снести, а после удаления разрывов (второй шаг) возвращаем обратно (третий шаг). В большом тексте количество абзацев несоизмеримо меньше, чем разрывов строки. |
Большое спасибо за Ваши советы!!! Как есть, Обязательно посмотрю ФР8 |
Как есть, А ФР8 не дает такого результата при конвертировании, когда каждая строка в пдф окончивается на Ентер? Просто я не очень в этих прогах разбираюсь - вот нашел Солид и рад млин бесконечно))) ибо ентеры только редко не в том месте. |
вообще, опыт показывает, что прогонять пдф-ки лучше не через Solid Converter, а через Fine Reader. |
ну бывает, особенно если пдф - это плохой скан. но это тоже можно все автозаменой делать. главное - включить эти непечатные значки, чтобы видно их было. я когда такое задание делал, то распознавал отдельно по языкам. То есть средставми Файн Ридера (там можно выделить область распознавания) выделяю только левый столбец, причесываю, сохраняю, потом распознаю второй столбец отдельно. и уже из двух файлов делаю память. |
Как есть, Понятное дело. При использовании любого конвертера нужно текст на разных языках раздельно распознавать. Или нужно ли??? Вот я сейчас распознал файл в качестве тестового задания через Солид -- закон об ОоО - файл содержит две колонки, на англ и рус., объем 100 страниц. Файл -- не скан, а конверта из ворда в пдф. В соответствии с Вашим комментом выполняю: В результате, что мы имеем: 1) две колонки конвертированы на 100% - текст в обеих колонках без каких-либо "ва342п!!" как это бывает при конвертации через адоб про 10 (пользовался им), то есть без факапов русская и английская колонки. Вывод: |
*у меня тоже документы после солида традос 2009 не хочет обрабатывать* - так у меня и Транзит их не проглатывал, пока Fine Reader не установил, теперь хоть таких вопиющих разрывов нет. |
а что, солид как-то иначе позволяет одну колонку распознать? я не говорю, что надо без вариантов, я говорю, целесообразно. при выделении отельной области на каждой странице гораздо меньше потом ошибок, как например случайное распознание текста из разных колонок в одну строку. *если я удалю разрывы всякие, то текст уплывет* Естественно. вы же сразу обе колонки распознаете, ясно, что поплывет. |
*Как есть* - а я все время хочу прочитать "Азиз", типа имени :) |
называйте, кому как нравится)) мне это не принципиально |
если не жуть какой конфиденцильный текст, скиньте ваш пдф на shootsandladders2012@yandex.ru и включайте секундомер |
Как есть, Так я ведь тоже про целессобразность. Я просто пытаюсь понять, нужно ли в ФР8 каждую колонку на каждой странице распознавать??? Если да, то это 200 отдельных операций в ФР8 против 1 операции в Солиде. При этом, ошибки в Солиде отсутствуют - вообще нет никаких ошибок ни в одной из колонок (учитывая, что это конверт из ворда в пдф). Ранее конвертировал ужасный документ с тегами на каждой строке через Солид и у меня этот файл обрабатывала дежа х2, а вот конверты самого традоса или адоба не ела, причем, как я помню, конверт девятки сама девятка тоже не хотела обрабатывать. |
AsIs, а правильно-то как? все давно хочу спросить, "как есть" ведь было бы "as it is" :) |
16.08.2012 15:36 ну начальству-то позволительно не знать, чо |
зачем тогда топ был нужен, если нет никаких проблем? реклама солида что ли? в общем, дело ваше =) Buick-s, что в голову первое пришло, то и написал. "as is" - это "как есть" в условиях поставки термин применяется |
Азиз как есть, У меня вот сейчас вот дока в работе нет, задание отвалилось, просто оно может привалиться обратно через какое-то время, либо может появиться другое аналогичное. В качестве тестового задания я указал файл (конверт из ворда в пдф закона об ооо). На почту Вам выслал, секундомер включил! Вы только не конвертьте его, пожалуйста, если придется отдельно каждую колонку на каждой странице. P.S. |
в адресе не ошиблись? мдреный он у меня. что-то пока нет |
мне тоже кажется it не нужно))) Топ был про проблемы со знаками абзаца. Вы просто упомянули про то, что ФР8 лучше Солида. Меня это заинтересовало, вот я и решил уточнить. Рекламы Солида никакой нет, с солидщиками не работаю. |
16.08.2012 15:40 ничо не понялО начальство, чо не знать ... |
Andrew052, я имел в виду разговорно-бытовой жанр-с http://forum.wordreference.com/showthread.php?t=2402211&langid=1http://www.dict.cc/?s=to+leave+sth+as+it+is8 |
вот я засек сам. в 17-20 начал, сейчас 17-31. Правда я сделал не 100, а 50 страниц только английского. ну пусть умножим вдвое= 22 минуты на язык. еше 22 на русский. за 44 минуты 100 страниц. Ну пусть за час. Но это будет чистый текст без разрывов и прочего. Гляньте, я вам отправил. И сравните с Солидом: там в нем даже не переносы стоят, а просто дефисами слова разорваны. то есть это надо все короткие тире удалять что ли? А если нужный дефис удалится вместе с ненужными? И потом у вас на каждой странице по 10 разрывов колонок и разделов. Колкнки распозналесь как текстовые колонки, а не табличные, поэтому одним махом отделить русскую часть от английской не получится. В общем, никому ничего не навязываю, но просто еще раз убедился, насколько этот метод практичнее. |
Азиз как есть, Я вот Вам как раз письмо и написал в тему. Очень жалко ваше время. Я дискуссию затеял на абсолютно другую тему. Просто Вы упомянул ФР8 и мне, как человеку в поиску лучшего на сег день софта, сразу стало интересно. |
да нет, не напрасно вовсе. мне ж тоже надо понимать ситуацию. может на самом деле Солид соорудили супер-пуперный, а я как болван устаревую технологию использую. не поймите неправильно, я не для того, чтобы вам или еще кому что-то доказывать. чисто для себя, так что жалеть нечего. я действительно начал позже и потратил чуть больше 10 минут, так как все-таки основную работу никто не отменял. так что считаю опыт не напрасным (во всяком случае для себя) |
На Ваш посто в 17 37 отвечаю: Я тоже ведь никому ничего не навязываю. Просто я вот до этого поста абсолютно понимал логику рассуждений, а потом что-то перестал. Вам нравится ФР8? Супер. Я его тоже залью завтра и протестирую. Но никак не могу согласиться не с одним комментом из поста. Просто из спортивного интереса: 1) зачем считать минуты????? можно просто нажать кнопку в Солиде (я действительно не работаю на Солид). Просто конвертируешь и получаешь готовый файл. Я ж Вам его скинул уже готовый - там ничего не нужно делать с ним - он БЕЗ КАКИХ-ЛИБО ОШИБОК И ПОЛНОСТЬЮ ГОТОВ. То есть, вывод - 1) процесс конвертации занимает несколько часов во ФР8 против нажатия кнопки в Солиде, Как Вы можете в таком случае убедиться в практичности ФР8????? Просто если дискуссия была заведена, зачем писать то, что не является верным??? Все по чесноку? |
К тому же, колонки распознались как текстовые в Солиде? А что в ФР8 они распознались, как табличные? |
К тому же, одним махом выделить русский или английский текст в соответствующей колонке нельзя. А в ФР8 можно? |
если выделять поле распознавания на каждой странице, то "да, можно" на оба последние вопроса |
** Я ж Вам его скинул уже готовый - там ничего не нужно делать ** И что с ним дальше делать? Как вы из него собираетесь делать память? Вон я в соседней ветки скрины выложил. Какой вариант удобнее? |
**Вы говорите - там просто дефисы стоят, а не переносы. В конверте Солида тоже стоят просто дефисы, а не переносы. ** Как раз ФР8 делает нормальные "мягкие переносы". Слово "там" относится к вашему файлу |
Спасибо, что выложили скрины. А как это можно сделать - выложить скрины ворда? т.к. я не знаю, как выложить скрины, я просто скопировал два куска из двух вордовских файлов. Article 4. Company Name and Location 1. A company must have a full name and may have an abbreviated name in Russian. A company may also have a full and/or abbreviated name in the language of the ethnic groups inhabiting the Russian Federation and/or in any foreign language.The full name of a company in Russian must be comprised of its full name itself and the words “с ограниченной ответственностью” [limited liability company]. The company's abbreviated name in Russian must be comprised of its full or abbreviated name itself and the words “с ограниченной ответственностью” [limited liability company] or their abbreviation – “ООО” [LLC]. The names of a company in Russian and in the languages of the ethnic groups inhabiting the Russian Federation may incorporate any borrowings from foreign languages, as transliterated in Russian or in the languages of the ethnic groups inhabiting the Russian Federation, unless such terms and abbreviations represent the company’s corporate form. (as restated by Federal Law No. 231-FZ dated December 18, 2006) Further requirements to a company name are established by the Civil Code of the Russian Federation. (paragraph added by Federal Law No. 231-FZ dated December 18, 2006) 2. The location of a company is determined by the place of its state registration. (as restated by Federal Law No. 31-FZ dated March 21, 2002) 3. Deleted by Federal Law No. 31-FZ dated March 21, 2002. Статья 4. Фирменное наименование общества и его место нахождения 1. Общество должно иметь полное и вправе иметь сокращенное фирменное наименование на русском языке. Общество вправе иметь также полное и (или) сокращенное фирменное наименование на языках народов Российской Федерации и (или) иностранных языках. Полное фирменное наименование общества на русском языке должно содержать полное наименование общества и слова "с ограниченной ответственностью". Сокращенное фирменное наименование общества на русском языке должно содержать полное или сокращенное наименование общества и слова "с ограниченной ответственностью" или аббревиатуру ООО. Фирменное наименование общества на русском языке и на языках народов Российской Федерации может содержать иноязычные заимствования в русской транскрипции или в транскрипциях языков народов Российской Федерации, за исключением терминов и аббревиатур, отражающих организационно-правовую форму общества. (в ред. Федерального закона от 18.12.2006 N 231-ФЗ) Иные требования к фирменному наименованию общества устанавливаются Гражданским кодексом Российской Федерации. (абзац введен Федеральным законом от 18.12.2006 N 231-ФЗ) 2. Место нахождения общества определяется местом его государственной регистрации. (в ред. Федерального закона от 21.03.2002 N 31-ФЗ) 3. Исключен. Федеральный закон от 21.03.2002 N 31-ФЗ. |
например, через этот сайт http://www.radikal.ru/ Обзор - выбрать джипег - Загрузить, скопипровать ссылку под № 1 и вставить ее в сообщение. Ну так это вы приваели один абзац. То есть придется вот так копи-пастить все 100 страниц для каждого языка... |
То есть, 1) конвертируем файл в ворд То есть, файлы же нужны для использования при создании памяти, правильно? Фишка в том, что не нужно ничего делать в процессе конвертации файла из пдф в ворд, а нужно просто потом их растащить по вордам. Если Вы затрачиваете 1 час на подготовку этих двух файлов, то это быссмыленно, т.к. зачем это делать, если можно просто конвертнуть через Солид то? |
к тому же текст разбит там после слова dated знаками абзаца в нескольких местах. Further requirements to a company name are established by the Civil Code of the Russian Fe- deration. (paragraph added by Federal Law No. 231-FZ dated December 18, 2006) А если бы вы выделили область (занимает 2-3 сек на страницу) в Файнридере, этого бы не было |
AsIs, получается, что нужно будет. Ведь без этого никак. Но это ведь крайне несложно. Нужно просто нажав shift+лев мышь... растащить текст по двум файлам. |
**2) растаскиваем англ и рус части по двум вордам** Вот! Что дольше: область в ФР выделить или растаскивать по кускам в 2 файла? Да еще битые строчки потом соединять, удалять дефисы вместо переносов. Ладно, идти пора. Делайте, как привыкли =) |
то есть 1) Выделить, 2) Скопировать, 3) Перейти в "чистовик", 4) Вставить, 5) Вернуться в "грязный файл" (цикл Солида) - это все быстрее, чем 1) Выделить область распознавания? всё, ушел. (но обещал вернуться...) =) |
AsIs, Я конвертну через ФР1. "Выделить область распознавания?" - у Вас занимало около 1 часа. Действия в Солиде немного быстрее. |
Причем, я никак не могу понять, каким образом дефисы то становятся разными в самом тексте и при переносе слов - это же одинаковые символы в оригинале. |
ну так на то он и ФР8, чтобы отличать дефис от переноса. Действия с 50 старницами у меня заняли 11 минут. Грубо я умножил на 2 для 100 страниц, но это не совсем так, ибо большая часть действий - пакетного характера. Что в 10 страницах перносы поменять, что в 1000, разница не стократная, это ведь понтяно. А вы ноль секунд делали то, что часа 2 надо разносить по файлам и потом еще столько же причесывать текст (убирать разрывы, переносы, поля выравнивать и т.д.) Если вам угодно пари, сейчас меня ничто не отвлекает. Вышлите мне еще 50 страниц из другого пдф, и тогда уж точно все будет честно. Посмотрим... |
че пристали))) |
удачный ник, все завидуем ;))) |
а кто спорит про существование as is? етсь же и контексты с as it is |
эти контексты ругательные и прошу их не применять )) |
есть просто все люди разные, у всех свое восприятие, я вот в этом нике красивое имя прочитал ) |
<< я делаю так: 1) find => special => paragraph mark (ставите 2 paragraph marks) ... >> а если ещё записать этот полезную процедуру как макрос (а этому макросу присвоить ещё потом сочетание клавиш), то тогда будет совсем круть )) |
Прогнал текст через ФР11 -- понравилось действительно больше, чем в Солиде (переносы и дефисы разными символами!, а также нет разрывов разделов и страниц). В связи с этим, в паре участвовать не имеет смыслу. )) Кстати, возможно, захотите обновиться с Выводы: 1. Времени ДЕЙСТВИТЕЛЬНО уходит очень много -- на причесывание получившегося ворда (то есть у меня получился ворд в котором идет английская колонка (уже обычным текстом), а за ней соответствующий русский текст. Так вот приходится удалять русский текст, чтобы получился только английский. 1) Списки распознались как списки, а не как просто цифры, следовательно они могут продолжать друг друга и т.д. Никто не знает, как от этого избавиться? Может перед конвертированием как-нибудь? |
И еще один комментарий. Я в Солиде конвертировал текст целиком, то есть без выделения областей по языкам. В ФР11 сделал то же самое - ошибок вроде не видно. Следовательно, к комментариям AsIs выше: возможно, нет смысла делать это самое выделение отдельных областей, а просто прогонять целиком файл. И, возможно, это применимо к ФР11, но не к ФР8. |
попробуйте поюзать регексы. возможно, отпадет необходимость выполнять ряд операций вручную. |
You need to be logged in to post in the forum |