DictionaryForumContacts

 Andrew052

link 16.08.2012 11:10 
Subject: Подготовка текста для создания памяти в Традосе gen.
У меня возникла следующая проблема. Был получен пдф, в нем текст в две колонки - английский и русский. Необходимо создать на основе текста память в Традосе.

Я его конвертнул через solid documents, что позволило избежать наличия неотображаемых символов между словами внутри предложения. Однако в некоторых случаях неотображаемые символы все же разбивают предложения.

Знаю, что есть специальные программы, которые позволяют удалять теги и др. Есть ли возможность как-либо решить данную проблему с использованием таких программ?

Может быть, Вы подскажите, изначально конвертер получше, что избавиться изначлаьно от этой проблемы?

Кроме того, я в ворде не нашел возможности "найти и заменить" все такие символы -- символы, разбивающие текст на отдельные абзацы (не табуляция).

Спасибо

 AsIs

link 16.08.2012 11:15 
разрывы строк что ли? автозамена - Больше - Специальный. Меняете последовательно "мягкий перенос", "разрыв колонки", "разрыв раздела" на пустоту. Затем меняете "разрыв строки" на пробел и в конце меняете два пробела на один. После замен выделяете весь ьтекст и по вкладкам находите: Главная - Шрифт - Интервал - ставите значения 100%, Обчный, Нет.
Для начала хватит...

 AsIs

link 16.08.2012 11:17 
кстати, одно время была проблема, что после солида старый традос вообще не хотел с файлом работать. я ФР-8 пользую, чего и вам желаю.

 Рудут

link 16.08.2012 11:22 
я делаю так:
1) find => special => paragraph mark (ставите 2 paragraph marks) - replace with \ - делете repalce по всему тексту (почему этот знак ?- потому что он практически не встречается в обычных текстах)
2) find => special => paragraph mark (ставите 1 paragraph mark) - replace with пробел
3) find \, replace with paragraph mark (ставите 2 paragraph marks)

В итоге у вас ненужные разрывы строки удаляются, а абзацы восстанавливаются

 AsIs

link 16.08.2012 11:26 
Знак абзаца-то зачем грохать? Как раз этот знак самый полезный и распространенный в обычных текстах. Это знак, который получается в Ворде при нажатии кнопки Ентер. Если их все на пробелы поменять, весь текст получится одним абзацем

 AsIs

link 16.08.2012 11:27 
или я туплю

 AsIs

link 16.08.2012 11:30 
о)) работает вроде... спасибо, Рудут, я действительно ступил

 Рудут

link 16.08.2012 11:38 
вы уже поняли, что работает, но для недоверчивых я поясню: 1 paragraph mark это и есть тот значок, который создает ненужный разрыв строки, а настоящий параграф образовывается 2-мя знаками paragraph mark.
Мы их бережно убираем под знак \ (первый шаг), чтобы случайно не снести, а после удаления разрывов (второй шаг) возвращаем обратно (третий шаг). В большом тексте количество абзацев несоизмеримо меньше, чем разрывов строки.

 Andrew052

link 16.08.2012 11:48 
Большое спасибо за Ваши советы!!!

Как есть,
у меня тоже документы после солида традос 2009 не хочет обрабатывать, а вот в отношении 2011 не знаю - не тестировал, в то время как дежа х2 обрабатывает ок.

Обязательно посмотрю ФР8

 Andrew052

link 16.08.2012 11:52 
Как есть,

А ФР8 не дает такого результата при конвертировании, когда каждая строка в пдф окончивается на Ентер? Просто я не очень в этих прогах разбираюсь - вот нашел Солид и рад млин бесконечно))) ибо ентеры только редко не в том месте.

 Buick-s

link 16.08.2012 11:56 
вообще, опыт показывает, что прогонять пдф-ки лучше не через Solid Converter, а через Fine Reader.

 AsIs

link 16.08.2012 11:59 
ну бывает, особенно если пдф - это плохой скан. но это тоже можно все автозаменой делать. главное - включить эти непечатные значки, чтобы видно их было. я когда такое задание делал, то распознавал отдельно по языкам. То есть средставми Файн Ридера (там можно выделить область распознавания) выделяю только левый столбец, причесываю, сохраняю, потом распознаю второй столбец отдельно. и уже из двух файлов делаю память.

 Andrew052

link 16.08.2012 12:18 
Как есть,

Понятное дело. При использовании любого конвертера нужно текст на разных языках раздельно распознавать. Или нужно ли???

Вот я сейчас распознал файл в качестве тестового задания через Солид -- закон об ОоО - файл содержит две колонки, на англ и рус., объем 100 страниц. Файл -- не скан, а конверта из ворда в пдф.

В соответствии с Вашим комментом выполняю:
"мягкий перенос", "разрыв колонки", "разрыв раздела" на пустоту. Затем меняете "разрыв строки" на пробел и в конце меняете два пробела на один."

В результате, что мы имеем:

1) две колонки конвертированы на 100% - текст в обеих колонках без каких-либо "ва342п!!" как это бывает при конвертации через адоб про 10 (пользовался им), то есть без факапов русская и английская колонки.
2)нет необходимости заниматься конвертацией отдельно колонки каждой страницы - т.к. страниц 100, а выделить я могу только одну колонку на одной страницы - больше выделять мне адоб Про 10 не позволяет.
3) очень легко руками нажать shift+лев мышка вверху колонки, shift+лев мышка внезу колонки, копировать в буфер, вставить в отдельный файл, сделать 2 таких файла.
4) обработать для получения памяти.

Вывод:
1)ФР8 (при условии, что нужно будет конвертировать отдельную колонку отдельно) -- это ппц, а Солид -- рулез.
2) Ваша методика, Как есть, не работает на моем файле - если я удалю разрывы всякие, то текст уплывет...
3) Единственная проблема - невозможность заливки файла в традос для перевода, однако если файл конвертируется для дальнейшей разбивки по двум файлам по двум языкам то работает ок.

 Buick-s

link 16.08.2012 12:28 
*у меня тоже документы после солида традос 2009 не хочет обрабатывать* - так у меня и Транзит их не проглатывал, пока Fine Reader не установил, теперь хоть таких вопиющих разрывов нет.

 AsIs

link 16.08.2012 12:29 
а что, солид как-то иначе позволяет одну колонку распознать?
я не говорю, что надо без вариантов, я говорю, целесообразно. при выделении отельной области на каждой странице гораздо меньше потом ошибок, как например случайное распознание текста из разных колонок в одну строку.
*если я удалю разрывы всякие, то текст уплывет* Естественно. вы же сразу обе колонки распознаете, ясно, что поплывет.

 Buick-s

link 16.08.2012 12:30 
*Как есть* - а я все время хочу прочитать "Азиз", типа имени :)

 AsIs

link 16.08.2012 12:31 
называйте, кому как нравится)) мне это не принципиально

 AsIs

link 16.08.2012 12:34 
если не жуть какой конфиденцильный текст, скиньте ваш пдф на shootsandladders2012@yandex.ru и включайте секундомер

 Andrew052

link 16.08.2012 12:35 
Как есть,

Так я ведь тоже про целессобразность. Я просто пытаюсь понять, нужно ли в ФР8 каждую колонку на каждой странице распознавать??? Если да, то это 200 отдельных операций в ФР8 против 1 операции в Солиде. При этом, ошибки в Солиде отсутствуют - вообще нет никаких ошибок ни в одной из колонок (учитывая, что это конверт из ворда в пдф).

Ранее конвертировал ужасный документ с тегами на каждой строке через Солид и у меня этот файл обрабатывала дежа х2, а вот конверты самого традоса или адоба не ела, причем, как я помню, конверт девятки сама девятка тоже не хотела обрабатывать.

 Buick-s

link 16.08.2012 12:36 
AsIs, а правильно-то как? все давно хочу спросить, "как есть" ведь было бы "as it is" :)

 _Ann_

link 16.08.2012 12:40 
16.08.2012 15:36
ну начальству-то позволительно не знать, чо

 AsIs

link 16.08.2012 12:43 
зачем тогда топ был нужен, если нет никаких проблем? реклама солида что ли? в общем, дело ваше =)
Buick-s, что в голову первое пришло, то и написал. "as is" - это "как есть" в условиях поставки термин применяется

 Andrew052

link 16.08.2012 12:45 
Азиз как есть,

У меня вот сейчас вот дока в работе нет, задание отвалилось, просто оно может привалиться обратно через какое-то время, либо может появиться другое аналогичное.

В качестве тестового задания я указал файл (конверт из ворда в пдф закона об ооо). На почту Вам выслал, секундомер включил! Вы только не конвертьте его, пожалуйста, если придется отдельно каждую колонку на каждой странице.

P.S.
Возможно, нужно было подчеркнуть, что в данном файле текст может быть выделен в самом пдф - это не скан - просто хочется работать в вордовском конверте, чтобы избежать возможных неожиданностей в форме тегов, всяких невидностей и прочей дребедени. (Опять же, повторюсь, Солидом распознавал сложные файлы с полным отсутствием "вао4234"1").

 AsIs

link 16.08.2012 12:47 
в адресе не ошиблись? мдреный он у меня. что-то пока нет

 Andrew052

link 16.08.2012 12:47 
мне тоже кажется it не нужно)))

Топ был про проблемы со знаками абзаца.

Вы просто упомянули про то, что ФР8 лучше Солида. Меня это заинтересовало, вот я и решил уточнить.

Рекламы Солида никакой нет, с солидщиками не работаю.

 Buick-s

link 16.08.2012 12:50 
16.08.2012 15:40
ничо не понялО начальство, чо не знать ...

 Buick-s

link 16.08.2012 12:53 
Andrew052, я имел в виду разговорно-бытовой жанр-с
http://forum.wordreference.com/showthread.php?t=2402211&langid=1http://www.dict.cc/?s=to+leave+sth+as+it+is8

 AsIs

link 16.08.2012 14:37 
вот я засек сам. в 17-20 начал, сейчас 17-31. Правда я сделал не 100, а 50 страниц только английского. ну пусть умножим вдвое= 22 минуты на язык. еше 22 на русский. за 44 минуты 100 страниц. Ну пусть за час. Но это будет чистый текст без разрывов и прочего. Гляньте, я вам отправил. И сравните с Солидом: там в нем даже не переносы стоят, а просто дефисами слова разорваны. то есть это надо все короткие тире удалять что ли? А если нужный дефис удалится вместе с ненужными? И потом у вас на каждой странице по 10 разрывов колонок и разделов. Колкнки распозналесь как текстовые колонки, а не табличные, поэтому одним махом отделить русскую часть от английской не получится. В общем, никому ничего не навязываю, но просто еще раз убедился, насколько этот метод практичнее.

 Andrew052

link 16.08.2012 14:46 
Азиз как есть,

Я вот Вам как раз письмо и написал в тему. Очень жалко ваше время. Я дискуссию затеял на абсолютно другую тему. Просто Вы упомянул ФР8 и мне, как человеку в поиску лучшего на сег день софта, сразу стало интересно.

 AsIs

link 16.08.2012 14:52 
да нет, не напрасно вовсе. мне ж тоже надо понимать ситуацию. может на самом деле Солид соорудили супер-пуперный, а я как болван устаревую технологию использую. не поймите неправильно, я не для того, чтобы вам или еще кому что-то доказывать. чисто для себя, так что жалеть нечего. я действительно начал позже и потратил чуть больше 10 минут, так как все-таки основную работу никто не отменял. так что считаю опыт не напрасным (во всяком случае для себя)

 Andrew052

link 16.08.2012 14:56 
На Ваш посто в 17 37 отвечаю:

Я тоже ведь никому ничего не навязываю. Просто я вот до этого поста абсолютно понимал логику рассуждений, а потом что-то перестал.

Вам нравится ФР8? Супер. Я его тоже залью завтра и протестирую.

Но никак не могу согласиться не с одним комментом из поста. Просто из спортивного интереса:

1) зачем считать минуты????? можно просто нажать кнопку в Солиде (я действительно не работаю на Солид). Просто конвертируешь и получаешь готовый файл. Я ж Вам его скинул уже готовый - там ничего не нужно делать с ним - он БЕЗ КАКИХ-ЛИБО ОШИБОК И ПОЛНОСТЬЮ ГОТОВ.
2) По поводу процесса "как сделать из конвертированного ворда два отдельных файла для согласования в кошках". Я ж написал - нужно нажать shift+левая мышь и shift+левая мышь в начале и конце колонок сначала на английском, нажимая при этом кнтрлси с открытым буфером обмена, затем вставить в новый файл. Сделать так по обоим языкам.
3) Вопрос этого топа - как убрать знаки абзаца. Обсудили - делать три секунды.
4) Дефисы - я создал отдельный топ -- как их убрать я действительно не знаю. Вы говорите - там просто дефисы стоят, а не переносы. В конверте Солида тоже стоят просто дефисы, а не переносы. Я не знаю вообще, что такое ПРОСТО ПЕРЕНОСЫ, если это не дефисы...

То есть, вывод - 1) процесс конвертации занимает несколько часов во ФР8 против нажатия кнопки в Солиде,
2) то же самое все получается... Никаких различий.

Как Вы можете в таком случае убедиться в практичности ФР8?????

Просто если дискуссия была заведена, зачем писать то, что не является верным???

Все по чесноку?

 Andrew052

link 16.08.2012 15:06 
К тому же, колонки распознались как текстовые в Солиде? А что в ФР8 они распознались, как табличные?

 Andrew052

link 16.08.2012 15:07 
К тому же, одним махом выделить русский или английский текст в соответствующей колонке нельзя. А в ФР8 можно?

 AsIs

link 16.08.2012 15:28 
если выделять поле распознавания на каждой странице, то "да, можно" на оба последние вопроса

 AsIs

link 16.08.2012 15:30 
** Я ж Вам его скинул уже готовый - там ничего не нужно делать **
И что с ним дальше делать? Как вы из него собираетесь делать память? Вон я в соседней ветки скрины выложил. Какой вариант удобнее?

 AsIs

link 16.08.2012 15:32 
**Вы говорите - там просто дефисы стоят, а не переносы. В конверте Солида тоже стоят просто дефисы, а не переносы. **

Как раз ФР8 делает нормальные "мягкие переносы". Слово "там" относится к вашему файлу

 Andrew052

link 16.08.2012 15:35 
Спасибо, что выложили скрины. А как это можно сделать - выложить скрины ворда? т.к. я не знаю, как выложить скрины, я просто скопировал два куска из двух вордовских файлов.

Article 4. Company Name and Location

1. A company must have a full name and may have an abbreviated name in Russian. A company may also have a full and/or abbreviated name in the language of the ethnic groups inhabiting the Russian Federation and/or in any foreign language.The full name of a company in Russian must be comprised of its full name itself and the words “с ограниченной ответственностью” [limited liability company]. The company's abbreviated name in Russian must be comprised of its full or abbreviated name itself and the words “с ограниченной ответственностью” [limited liability company] or their abbreviation – “ООО” [LLC]. The names of a company in Russian and in the languages of the ethnic groups inhabiting the Russian Federation may incorporate any borrowings from foreign languages, as transliterated in Russian or in the languages of the ethnic groups inhabiting the Russian Federation, unless such terms and abbreviations represent the company’s corporate form. (as restated by Federal Law No. 231-FZ dated December 18, 2006) Further requirements to a company name are established by the Civil Code of the Russian Federation. (paragraph added by Federal Law No. 231-FZ dated December 18, 2006) 2. The location of a company is determined by the place of its state registration. (as restated by Federal Law No. 31-FZ dated March 21, 2002) 3. Deleted by Federal Law No. 31-FZ dated March 21, 2002.

Статья 4. Фирменное наименование общества и его место нахождения

1. Общество должно иметь полное и вправе иметь сокращенное фирменное наименование на русском языке. Общество вправе иметь также полное и (или) сокращенное фирменное наименование на языках народов Российской Федерации и (или) иностранных языках. Полное фирменное наименование общества на русском языке должно содержать полное наименование общества и слова "с ограниченной ответственностью". Сокращенное фирменное наименование общества на русском языке должно содержать полное или сокращенное наименование общества и слова "с ограниченной ответственностью" или аббревиатуру ООО. Фирменное наименование общества на русском языке и на языках народов Российской Федерации может содержать иноязычные заимствования в русской транскрипции или в транскрипциях языков народов Российской Федерации, за исключением терминов и аббревиатур, отражающих организационно-правовую форму общества. (в ред. Федерального закона от 18.12.2006 N 231-ФЗ) Иные требования к фирменному наименованию общества устанавливаются Гражданским кодексом Российской Федерации. (абзац введен Федеральным законом от 18.12.2006 N 231-ФЗ) 2. Место нахождения общества определяется местом его государственной регистрации. (в ред. Федерального закона от 21.03.2002 N 31-ФЗ) 3. Исключен. Федеральный закон от 21.03.2002 N 31-ФЗ.

 AsIs

link 16.08.2012 15:37 
например, через этот сайт http://www.radikal.ru/
Обзор - выбрать джипег - Загрузить, скопипровать ссылку под № 1 и вставить ее в сообщение.
Ну так это вы приваели один абзац. То есть придется вот так копи-пастить все 100 страниц для каждого языка...

 Andrew052

link 16.08.2012 15:40 
То есть,

1) конвертируем файл в ворд
2) растаскиваем англ и рус части по двум вордам
3) делаем манипуляции по форматированию (у меня там много где посносились разделители между абзацами - но это абсолютно не важно - все равно для использования в памяти, а не для работы с файлами).
Итак, получили два вордовских файла для использования при создании памяти.

То есть, файлы же нужны для использования при создании памяти, правильно?

Фишка в том, что не нужно ничего делать в процессе конвертации файла из пдф в ворд, а нужно просто потом их растащить по вордам.

Если Вы затрачиваете 1 час на подготовку этих двух файлов, то это быссмыленно, т.к. зачем это делать, если можно просто конвертнуть через Солид то?

 AsIs

link 16.08.2012 15:40 
к тому же текст разбит там после слова dated знаками абзаца в нескольких местах.
Further requirements to a company name are established by the Civil Code of the Russian Fe- deration.
(paragraph added by Federal Law No. 231-FZ
dated December 18, 2006)

А если бы вы выделили область (занимает 2-3 сек на страницу) в Файнридере, этого бы не было

 Andrew052

link 16.08.2012 15:42 
AsIs,

получается, что нужно будет.

Ведь без этого никак. Но это ведь крайне несложно. Нужно просто нажав shift+лев мышь... растащить текст по двум файлам.

 AsIs

link 16.08.2012 15:42 
**2) растаскиваем англ и рус части по двум вордам**
Вот! Что дольше: область в ФР выделить или растаскивать по кускам в 2 файла? Да еще битые строчки потом соединять, удалять дефисы вместо переносов. Ладно, идти пора. Делайте, как привыкли =)

 AsIs

link 16.08.2012 15:52 
то есть 1) Выделить, 2) Скопировать, 3) Перейти в "чистовик", 4) Вставить, 5) Вернуться в "грязный файл" (цикл Солида) - это все быстрее, чем
1) Выделить область распознавания?
всё, ушел. (но обещал вернуться...) =)

 Andrew052

link 16.08.2012 16:09 
AsIs,

Я конвертну через ФР1.

"Выделить область распознавания?" - у Вас занимало около 1 часа. Действия в Солиде немного быстрее.

 Andrew052

link 16.08.2012 16:14 
Причем, я никак не могу понять, каким образом дефисы то становятся разными в самом тексте и при переносе слов - это же одинаковые символы в оригинале.

 AsIs

link 16.08.2012 18:27 
ну так на то он и ФР8, чтобы отличать дефис от переноса. Действия с 50 старницами у меня заняли 11 минут. Грубо я умножил на 2 для 100 страниц, но это не совсем так, ибо большая часть действий - пакетного характера. Что в 10 страницах перносы поменять, что в 1000, разница не стократная, это ведь понтяно. А вы ноль секунд делали то, что часа 2 надо разносить по файлам и потом еще столько же причесывать текст (убирать разрывы, переносы, поля выравнивать и т.д.)
Если вам угодно пари, сейчас меня ничто не отвлекает. Вышлите мне еще 50 страниц из другого пдф, и тогда уж точно все будет честно. Посмотрим...

 Queerguy moderator

link 17.08.2012 8:43 
<< "как есть" ведь было бы "as it is" >>

Piccy.info - Free Image Hosting

 AsIs

link 17.08.2012 8:44 
че пристали)))

 Tante B

link 17.08.2012 8:49 
удачный ник, все завидуем ;)))

 Buick-s

link 17.08.2012 8:50 
а кто спорит про существование as is?
етсь же и контексты с as it is

 Queerguy moderator

link 17.08.2012 8:52 
эти контексты ругательные и прошу их не применять ))

 Buick-s

link 17.08.2012 8:52 
есть
просто все люди разные, у всех свое восприятие, я вот в этом нике красивое имя прочитал )

 Queerguy moderator

link 17.08.2012 9:31 
<< я делаю так:
1) find => special => paragraph mark (ставите 2 paragraph marks) ... >>

а если ещё записать этот полезную процедуру как макрос (а этому макросу присвоить ещё потом сочетание клавиш), то тогда будет совсем круть ))

 Andrew052

link 17.08.2012 19:42 
Прогнал текст через ФР11 -- понравилось действительно больше, чем в Солиде (переносы и дефисы разными символами!, а также нет разрывов разделов и страниц). В связи с этим, в паре участвовать не имеет смыслу. ))

Кстати, возможно, захотите обновиться с
восьмерки - народ пишет, что уходит меньшее количество времени на распознавание ( не проверял).

Выводы:

1. Времени ДЕЙСТВИТЕЛЬНО уходит очень много -- на причесывание получившегося ворда (то есть у меня получился ворд в котором идет английская колонка (уже обычным текстом), а за ней соответствующий русский текст. Так вот приходится удалять русский текст, чтобы получился только английский.
2. В любом случае, раздельные символы для переноса и тире, а также отсутствие разрывов -- это неоспоримый плюс ФР11.
3. Единственный напряг:

1) Списки распознались как списки, а не как просто цифры, следовательно они могут продолжать друг друга и т.д.

Никто не знает, как от этого избавиться? Может перед конвертированием как-нибудь?

 Andrew052

link 17.08.2012 19:45 
И еще один комментарий. Я в Солиде конвертировал текст целиком, то есть без выделения областей по языкам.

В ФР11 сделал то же самое - ошибок вроде не видно. Следовательно, к комментариям AsIs выше: возможно, нет смысла делать это самое выделение отдельных областей, а просто прогонять целиком файл. И, возможно, это применимо к ФР11, но не к ФР8.

 tumanov

link 17.08.2012 20:41 
попробуйте поюзать регексы. возможно, отпадет необходимость выполнять ряд операций вручную.

 

You need to be logged in to post in the forum