DictionaryForumContacts

 Petrelnik

link 10.07.2013 18:23 
Subject: офф: подскажите удобную программу для распознавания текста gen.
Подскажите, пожалуйста,
какую бы программу распознавания читаемых pdf-файлов попробовать помимо finereader. Мне не нравится результат на выходе :(
Если остальные такие же, может быть, поделитесь своим алгоритмом очистки текста после распознавания, у меня все в разрывах разделов, страниц, знаках табуляции и т.д., поля странные, в общем каша.
Заранее спасибо.

 Санпалыч

link 10.07.2013 18:34 
Adobe Reader.

 Tante B

link 10.07.2013 18:55 
только, наверное, не просто бесплатный Reader, а полный Adobe Acrobat

 Petrelnik

link 10.07.2013 18:56 
Я пробовала пробную версию, показалось, что файнридер даже лучше.

 Санпалыч

link 10.07.2013 18:57 
Сабо сомой.

 Санпалыч

link 10.07.2013 18:59 
Petrelnik, в пробной версии, как правило, предлагают программу с ограниченными возможностями.

 Serge1985

link 10.07.2013 19:03 
а чем не FR 11.0 нра?

на работе FR 9.0 Corporate Edition - и полностью устраивает
дома - спертая лицуха 8.0

 Enote

link 10.07.2013 19:03 
Файнридер выпускается под еще одним названием (забыл :), но в целом тоже самое. Ничего лучше ФР я пока не видел.
Но ведь чтобы результат был хороший, надо еще и ручками поработать, настроить все сегменты

 glomurka

link 10.07.2013 19:08 
У меня в файнридере каша значительно уменьшилась при изменении режима сохранения оформления

 Petrelnik

link 10.07.2013 19:20 
У меня finereader professional 11. лицензионный )

подскажите, пожалуйста, как ручками-то все это исправлять (желательно как-то чтобы все и сразу, а не по каждой странице и каждому знаку, потому что если документ 100 листов, как-то это невесело выходит) и как изменить режим сохранения оформления?

 AsIs

link 10.07.2013 19:30 
первым делом заменяете все разрывы разделов и разрывы колонок на знак абзаца. затем выделяете весь текст (CTRL+A), тыкаете в свойства шрифта. Ставите Timesnewroman/12/Обычный. На второй вкалдке "Интервал" здесь же ставите значения: 100%/Обычный/Нет.
В свойствах абзаца выставляете нули и одинарный междустрочный интервал.
Получается текст а-ля txt. Удаляете все "коробочки", то есть текстовые надписи. В таблицах убираете точную пригонку высоты строки (Свойства таблицы-Строка-высота 0)
Если таблицы вставляются в рамку при распознавании, то в самом ФР надо поставить режим "Форматированный текст"
Короче, долгая история :) И без упорства и терпения ее не одолеть.

 AsIs

link 10.07.2013 19:31 
*то есть не высота 0, а просто убрать галочку с параметра "высота", где стоит значение 0

 glomurka

link 10.07.2013 19:43 
>>как изменить режим сохранения оформления?
В ФР11 Сервис->Опции->Сохранить->DOCX/ODT/RTF->Оформление

В Справке написано, какой вариант чего значит.

 Petrelnik

link 10.07.2013 19:47 
AsIs как всегда спасибо за полезные советы!
У меня еще вопрос, немного по другой теме.
Пытаюсь в WinAlign соединить два уже переведенных документа, получается плохо, потому что во всех сегментах, состоящих из таблиц, пары "оригинал-перевод" вообще не соответствуют друг другу, в итоге все остальные сегменты тоже сбивается и куда-то уезжают. Текст большой, и примерно треть этих таблиц.
И ведь я хочу это в базу загнать, потому что прислали новую версию этого документа :( Но если продолжатся мучения с WinAlign, чувствую не выдержу и буду в ворде делать :(

 Petrelnik

link 10.07.2013 19:48 
glomurka
Мерси :)

 AsIs

link 10.07.2013 19:55 
если вы хотите использовать WinAlign, то лучше сначала построить одноколоночную таблицу из исходника и перевода (два отдельных файла). В каждой ячейке по предложению. Для начала можно преобразовать текст в таблицу в исходном файле. Потом преобразовать текст в таблицу в переводе и, ориентируясь по оригиналу, разнести перевод по соответствующим ячейкам. Естественно, количество ячеек должно совпадать и строго соответствовать (оригинал-перевод). Потом уже эти файлы с таблицами элайнить.

 Petrelnik

link 10.07.2013 20:13 
Спасибо!!! попробую.

 AsIs

link 10.07.2013 20:51 
да, еще до кучи. чтобы не ошибиться в количестве ячеек, я еще после преобразования исходного текста в таблицу добавляю колонку слева и в ней делаю автоматическую нумерацию. В этом случае вы будете точно знать, сколько у вас ячеек в оригинале. То же самое нужно сделать в таблице с переводом. Так вы сможете контролировать количество ячеек и спопоставлять оригинал с переводом (по номеру ячейки).
Чтобы вставить номер в левую колонку, надо поставить туда (в первую левую ячейку первой строки) курсор и (в ворде 2007) выбрать Вставка-Экспресс-блоки-Поле-AutoNum-1,2,3,...
Тогда в первой строке левой колнки появится автоматический номер "1."
Затем нужно выделить эту ячейку, нажать Ctrl+C, выделить остальные ячейки этой колонки и нажать Ctrl+V. Тогда у вас появится автоматическая нумерация колонок. Потом, когда вы уже все соотнесете и сохраните подоготовленные файлы, эту колонку можно будет разом грохнуть, чтобы она не занимала место в WinAlign.

 KML*

link 10.07.2013 22:08 
Abby PDF Transformer
распознает гораздо качественнее файнридера, причем можно самостоятельно указывать на каждой странице, как следует распознать тот или иной кусок текста (как текст, как таблицу, как картинку, что вообще выбросить). ессно в таком режиме распознавание занимает больше времени, но зато конечный результат очень хорош и практически не требует дополнительной правки.

 weAREchessLove

link 10.07.2013 22:10 
кто-нибудь поможет перевести - jump arm complete? связано с сельхозтехникой

 Supa Traslata

link 11.07.2013 6:28 
RE >>причем можно самостоятельно указывать на каждой странице, как следует распознать тот или иной кусок текста (как текст, как таблицу, как картинку, что вообще выбросить). >>

В ФР это тоже все есть.

 AsIs

link 11.07.2013 6:37 
Abby PDF Transformer - это тот же FineReader, только обрезанный. Распознает он точно так же (ибо одними руками делались оба продукта), просто настроек меньше.

 Peter Cantrop

link 11.07.2013 6:41 
OFF:
смысл
jump arm complete - прыгающий рычаг в сборе
а редактируйте сами

На странице http://www.multitran.ru/c/m.exe?a=2&l1=1&l2=2 найдите строку "Добавить тему" для задавания вопросов

 Enote

link 11.07.2013 13:56 
Во-во, другая ипостась ФР называется трансформер. Ясен пень, движок там тот же самый. Интерфейс немного другой.

 

You need to be logged in to post in the forum