OFF: «Стилевая чистка» извлечённого текста

link 3.07.2007 5:12

Subject: OFF: «Стилевая чистка» извлечённого текста

Вопрос к большим мальчикам и девочкам: никому случайно не попадалось средство для удаления стилевого мусора (случайного символьного форматирования) из текста, излеченного из PDF?
Те, кто использует CAT-программы, наверняка постоянно сталкиваются с такой пакостью: текст, выковырянный из PDF даже с помощью FineReader, обычно настолько загажен паразитным непредсказуемым символьным форматированием, что левераж начинает стремится к нулю, какой бы замечательной ни была память. Чистка его вручную в сложноформатированных документах по трудозатратам и времени вполне сопоставима с воссозданием документа с нуля. По идее, человек, знакомый с азами программирования на макроязыках, вполне мог бы написать приблуду, которая позволяет привести такой текст в относительно нормальное состояние автоматически. Увы, я таковым не являюсь.
Проблема наверняка хорошо известна допечатникам и некоторым переводчикам, так что теоретически на весь мир могли найтись один-два человека, которые её решили и это решение теперь продают или раздают даром. Может, кто встречал такого зверя?
Не то, чтобы я очень рассчитывал на ответ, но вдруг…

Enote ✉

link 3.07.2007 5:29

я делаю так - выделяю всё и копирую как неформатированный
===
Написать такой макрос - задача далеко не тривиальная, на два порядка сложнее дипломной работы (имхо) и уж заведомо сложнее написания макросов накопителей переводов, тех самых САТов
Ведь алгоритм должен распознать весь формат и перевести его в "нормальное состояние" - кстати, для начала попробуйте формализовать это самое состояние :)

kondorsky ✉

link 3.07.2007 6:41

Brains, Enote - а кто упорно мне доказывал, что ПДФ - классный формат для получения работы для перевода??? :-))

Enote ✉

link 3.07.2007 6:53

подтверждаю: да, это так, формат замечательный
Adobe веников не вяжет, халтуры у них мало

tumanov ✉

link 3.07.2007 7:00

а с какого перепугу этот формат перестал быть классным для получения заказов?
давайте не подменять тезис :0)

речь ведь кажется о том, что графику невозможно распознатьбез ошибок?

kondorsky ✉

link 3.07.2007 7:19

Tumanov
В посте речь идет как раз о качестве распознавания ТЕКСТА а не графики

Enote ✉

link 3.07.2007 7:30

Речь идёт о кривом форматировании выходного текста Файн ридер от Abbyy, малопригодном для дальнейшей верстки/макетирования
Как это связано с форматом ПДФ, объясните мне, плиииз...

tumanov ✉

link 3.07.2007 7:34

о распознавании текста в формате пдф
-----

если у нас имеется именно текст в формате пдф, то его распознавать не надо, его надо просто из пдф-файла извлечь (экспортировать)

речь ведь идет о тексте на картинке, и тут проблема не в пдф, не в корельдро или пэйнтбраш.
с технической точки зрения это графика (по-моему)

tumanov ✉

link 3.07.2007 7:37

согласен с Enote
речь именно о ABBYY

но вопрос какой-то некорректный
с такой же точки зрения можно сказать: эти компьютеры, они вечно текст печатают с ошибками! от руки можно всё гораздо лучше без ошибок написать :0)

Brains ✉

link 3.07.2007 7:40

2 kondorsky

Brains, Enote - а кто упорно мне доказывал, что ПДФ…

Просто прочитать написанное мало — нужно ещё и понимать, о чём говорилось. Такую бредятину вряд ли мог исторгнуть из себя кто-либо из нас. Ну, может, если по вене обширяться, но мне это ни к чему. Думаю, Enote тоже.

Brains ✉

link 3.07.2007 7:45

2 kondorsky

В посте речь идет как раз о качестве распознавания ТЕКСТА а не графики

И вот свежая иллюстрация к только что написанному. В посте вообще нет речи о качестве распознавания, хотя и упоминается FineReader. Сказано ведь: для больших…

Bigor ✉

link 3.07.2007 7:49

Господа, что вы копья - то ломаете, я лично никаких трудностей не испытываю, потому как задача решается настолько элементарно, что и говорить о ней нечего. Ведь это как раз тот самый случай, когда аскер, который всех готов лечить в любое время суток, не знает дороги в ближайшую аптеку.

Brains ✉

link 3.07.2007 7:50

2 tumanov

если у нас имеется именно текст в формате пдф, то его распознавать не надо, его надо просто из пдф-файла извлечь (экспортировать)

В этом случае при извлечении текста документа, налабанного криворуким ламером в Word (а ведь вменяемого пользователя днём с огнём не сыщешь, так нет же — дали детям ещё и спички) с его автоматическим созданием стилевой разметки в ответ на любой чих, результат получается настолько страшный, что единственным способом лечения является выстрел милосердия, как и предлагал с самого начала Enote. Но это русский способ удаления гланд. Измучившись вконец, я в отчаянии решил спросить, а нет ли нормального?

Brains ✉

link 3.07.2007 7:53

2 Bigor

…аскер, который всех готов лечить в любое время суток, не знает дороги в ближайшую аптеку.

Вот же ж и на старуху нашлась проруха. Дали б уж пеленг на аптеку… Плииииииз… :-)

kondorsky ✉

link 3.07.2007 8:12

Брейнз, да у меня точно та же проблема! После Файнридера - куча мусора, куча секшн брейков, при удалении которых все сбивается в кучу и др. НЕ могу применить САТ. А Туманов, по моему думает, что у нас ПДФы с текстовым слоем, а мы просто не умеем его извлечь. Если бы! У нас то ведь сканированные ПДФы, да к тому же с грязных факсов.

tenerezzza ✉

link 3.07.2007 8:15

kondorsky,
да не, ну он понял, что речь ведь идет о тексте на картинке :-)

tenerezzza ✉

link 3.07.2007 8:16

Ждём выступления Bigor'a!
Bigor, а хде аптека?

tumanov ✉

link 3.07.2007 8:18

я не думаю. я читаю то, что написано в сообщениях. что написано, то и читаю :0)

про факсы могу только добавить что в данном случае лучшее враг хорошего.
я давно убедился что эти документы проще всего (не быстрее, но проще - Sic!) перепечатать с экрана от руки, если по какой-то причине вычитка распознанного текста с исправлением ошибок в самом файнридере не удается.

А пока я ошибки не исправлю в файнридере я оттуда текст распознанный не экспортирую.

Brains ✉

link 3.07.2007 8:28

2 kondorsky

НЕ могу применить САТ.

Я-то могу. Но геморроя столько, что хоть застрелись!

А Туманов, по моему думает, что у нас ПДФы с текстовым слоем, а мы просто не умеем его извлечь.

Это один из тех случаев, когда я просто его не понимаю. Единственное, что могу предположить (зная его приверженность WordFast) — принципиальное отличие некоторых (или всех?) кошек, написанных как большой-пребольшой макрос к MS Word: они вполне благоразумно оставляют все заморочки с форматированием редактору, на котором паразитируют, и спокойненько себе пользуются оригиналом как plain text. Кстати, это могло бы стать важным маркетинговым преимуществом таких кошек, если бы потенциальные их покупатели способны были понять, о чём ваще речь, а пользователи самостоятельных невизивиговых стали бы из-за этого мигрировать. Хотя о том, чтобы докупить себе что-то такое, можно и подумать…
Но мои PDF не содержат текстового слоя — они просто чисто текстовые с вкраплением графики. Просто делали их уроды, со всеми вытекающими из этого обстоятельства последствиями. Если бы это были грязные факсы! Это решаемо иначе и без особых граблей. А вот когда имеешь 75 полос увесистых прейскурантов с шизоидными таблицами двух уровней вложенности, графикой в ячейках и «красивым оформлением», которое надо сохранить, получается тест на выживание.

kondorsky ✉

link 3.07.2007 8:50

Брейнз, я конечно не спец в этих вопросах, но на моей прошлой работе такие вещи выполняла группа верстки у которых стояли МАКи с Кварк Экспрессом и огроменными мониторами

tumanov ✉

link 3.07.2007 8:51

я с вами! крепитесь!

alk ✉ moderator

link 3.07.2007 9:12

Brains - я бы тоже, как и Enote предложил неформатированный, но из последующего описания понял, что слишком много форматирования, которое хочется сохранить. Может быть, если таблицы хоть немного одинаковые, можно создать что-то вроде шаблона, а потом заталкивать в него неформатированный распознанный текст? Это ведь явно будет быстрее, чем бороться с форматированием Файнридера.

Bigor ✉

link 3.07.2007 9:19

По просьбе публики :
Во-первых, надо определить способ экспорта из PDF, принципиально их существует три типа, и перебор их следует делать в указанном порядке (выставив соответствующие опции) :
- экспорт средствами Adobe
- экспорт при помощи сторонних конверторов
- распознавание в ФР

Не буду уточнять, но опыт оценки "кривизны" оригинала приходит довольно быстро, и соответственно, скращается время принятия решения.
Допустим, случай самый тяжелый - только распознавание,
тогда в ФР использую шаблон с опциями :
Форматирование - Сохранять начертание и размер шрифта
и пользовательский эталон распознавания

После открытия в Ворд - использую макрос из своего шаблона, который я тебе переслал. Его можно при желании дописать, но все равно ручками придется поработать. После этого - никаких проблем с левереджем.

При экспорте конверторами - всё тот же макрос + удаление стилей СМ1-СМ** в Ворд с сохранением атрибутов текста, - и опять же никаких проблем с левереджем.

Brains ✉

link 3.07.2007 9:50

2 kondorsky

Брейнз, я конечно не спец в этих вопросах, но на моей прошлой работе такие вещи выполняла группа…

Ну я спец, а улей толку? Давайте попробуем быть ближе к реальной практике.
Группа вёрстки нужна при создании приличных публикаций (осмелюсь предположить, что разницу между публикацией и текстовым документом в состоянии понять и не спец).
Мне казалось, мы говорим о сохранении форматирования и структуры уже существующего документа, то есть файла текстового редактора, а не файла вёрстки. Что тут верстальщикам делать? Это обязана уметь любая секретарша, да и вообще всякий, кто имеет доступ к мягкому стулу перед экраном компьютерного дисплея.
Другое дело, если такой документ получен в результате противоестественных манипуляций (а выковыривание его из PDF вместо работы с исходным файлом есть именно извращение, если операция осуществляется ради сохранения форматирования). Пока из него не будет удалён весь мусор, нормально текст с такой наследственностью вести себя не будет. Это я сознаю, и разговор не об этом. Как бы автоматизировать процесс очищения?

Brains ✉

link 3.07.2007 10:14

2 alk

Может быть, если таблицы хоть немного одинаковые, можно создать что-то вроде шаблона, а потом заталкивать в него неформатированный распознанный текст?

В самом деле? Вы пробовали?
Оно конечно: быть здоровым и богатым лучше, чем бедным и больным.
И что Вы предлагаете поместить в шаблон? Верхний и нижний колонтитулы, которые мало, что будут разными для начальной, последней и внутренних страниц, так ещё и скользящими? Ба-альшое облегчение выйдет! Уже одного этого достаточно, чтобы задуматься о найме подчитчика.
А теперь представьте, что между ними располагаются таблицы, которые где по 5, а где и по 12 столбцов. И не просто по 5 или 12 в разных таблицах, а в одной таблице где по 5, где по 12, а где и по 7 (кому сейчас выдают паспорта и кого пускают в офисы, не мне Вам рассказывать). И во многих столбцах не текст, а цифры, графика, буллиты и птички.
И Вы всё это в Ваш шаблончик быстро-быстро так заталкиваете, ага. А после уже принимаетесь за форматирование…

tenerezzza ✉

link 3.07.2007 14:20

А чё, как Bigor сказал, не получается? Если получается, то дайте мне тоже макрос, а? Плиз :-)

Bigor ✉

link 3.07.2007 14:44

tenerezzza, вы всегда так беспардонно с чужими авторскими правами обходитесь ?

tenerezzza ✉

link 3.07.2007 14:53

Нет. Не всегда. Бывает и хуже — не прилюдно :-)

И потом, я к Вам тоже обратилась "дайте, плиз", не только к Brains.

Нет, ну если жалко отдавать кому ни попадя, то не нужно, я всё понимаю. Просто Вы писали, что это просто, как в ближайшую аптеку сходить..

Brains ✉

link 3.07.2007 15:11

2 Bigor

Его можно при желании дописать, но все равно ручками придется поработать. После этого - никаких проблем с левереджем.

Анекдот, да и только. После легенды об озере Иссык-Куль — ещё и это…
— Вынужден вас огорчить: анализ показал положительную реакцию на ВИЧ.
— Доктор, неужели ничего нельзя сделать?
— Почему же, можно. Я бы порекомендовал начать с грязевых ванн…
— А это поможет?!
— Нет, но к земле привыкните.
© Устное народное творчество

Bigor ✉

link 3.07.2007 15:38

конечно, из пункта А в пункт Б лучше проехать на поезде или в автомобиле, но пока дорогу не построят, придется ходить пешком.

Распознавание таблиц все равно надо делать в ФР, буллиты можно и автоматом сделать, а вот с рисунками - это уже вопрос к ABBEY

Brains ✉

link 3.07.2007 16:21

Вот и поговорили… Впрочем, иного я и не ждал.

You need to be logged in to post in the forum

Get short URL