ОФФ: наколдуйте мне умную прогу

link 25.03.2014 21:19

Subject: ОФФ: наколдуйте мне умную прогу gen.

Коллеги, кто-нибудь знает, существуют ли программы (или какие-нибудь макросы или неизведанные функции ворда) для подсчета частотности терминов в тексте? Например, "сквозные" термины по файлу. Очень надо! Часто приходится к проектам глоссарии составлять, было бы так удобно, аж до приятного

Признательна

techy1 ✉

link 25.03.2014 21:31

awk, gawk, sed

натрикс ✉

link 25.03.2014 21:39

блин, чо за хрень опять с МТ???? ну, если мой секретный ответ никто другой не напишет, то тогда по секрету ссобщу.
попытка запостить хоть что-нибудь номер 7 !!!

Winona ✉

link 25.03.2014 21:42

techy1 это что? тайные приветствия масонов?

натрикс, выйди из сумрака )))))

Wolverine ✉

link 25.03.2014 21:46

http://www.linuxrsp.ru/docs/sed.html

Rami88 ✉

link 25.03.2014 21:48

Макро можно нагуглить нужный или на технете - форуме мелкософта - поспрашивать. Наверняка такой либо есть, либо его можно написать.
А вот это
http://word.tips.net/T001833_Generating_a_Count_of_Word_Occurrences.html
не оно?

Dmitry G ✉

link 25.03.2014 21:51

айб, бен, гим! :)

Winona ✉

link 25.03.2014 21:52

Wolverine ну сложное же все -.-

Rami88 а вот это попробую ) спасибо

натрикс ✉

link 25.03.2014 21:58

ну вот, я смотрю тут все умные уже разобрались между собой. мне можно обратно в сумрак идти спать с чистой совестью. крибле, крабле, бумс (чуть что, это не команда, просто колдунство, чтоб все получилось)))

Winona ✉

link 25.03.2014 22:08

Попробовала макрос, но он только для латиницы, не считает кириллицу, а жаль, хорошо работает

Rami88 ✉

link 25.03.2014 22:14

С кириллицей по жизни проблем много:(
Могу порекомендовать только еще тут задать вопрос. А тем временем, может, и в этой ветке какой-нибудь гуру офиса отметится:)

Winona ✉

link 25.03.2014 22:24

спасибо! будем искать

Winona ✉

link 25.03.2014 22:29

во, нашла тут http://wordexpert.ru/page/makros-dlya-podscheta-chastoty-upominaemyx-slov

пропустила файл через него, он мне выдал шайтан-текст, где возле каждого слова в скобочках его частотность:

Информация (5) о (4) текущей (4) ориентации (23) модели (56) – это (13) углы (17) крена (28) и (168) тангажа (27) , вычисленные (3) с (49) помощью (3) встроенных (1) датчиков (17) ускорений (19) , угловых (7) скоростей (7) и (168) компаса (9) .

Выглядит пугающе, но в принципе......
рекомендую!

Sr Curioso ✉

link 25.03.2014 23:17

а это чем не нравится

http://www.multitran.ru/c/m.exe?a=128

tumanov ✉

link 26.03.2014 6:22

Традос такое умеет
2007 точно умел
в 2011 мне это ни разу не понадобилось, поэтому где и как это сделать -- сказать не могу

AsIs ✉

link 26.03.2014 8:31

В Студии это отдельным приложением идет. Покупать надо. В мемокУ есть Extract terms (в разделе Operations). Эта функция выделит из искомого массива (можно искать по файлу для перевода, можно по памяти, можно по livedocs) так называемые "кандидаты" (в термины). Мусора много, но если подкрутить настройки, можно уменьшить. Ну или потом лишние повыкидывать (Ctrl+D)

AsIs ✉

link 26.03.2014 8:39

+
http://vimeo.com/29266841

alk ✉ moderator

link 26.03.2014 8:42

check Sr Curioso link. it's worth while

Rami88 ✉

link 26.03.2014 8:49

А будет ли оно ворсвайл, когда текст не на 100, а на 100000 слов, допустим? Не глюкнет?

alk ✉ moderator

link 26.03.2014 9:06

может глюкнуть, если все сейчас дружно бросятся проверять, но тут, скорее всего, таймаут наступит.
Попробовал вставить первый том Мертвых душ с Lib.ru, 75 800 слов по статистике Word. Время обработки 117 секунд (по статистике сайта), слов, по мнению mt, 35 092. Самое популярное слово "и" встречается 1358 раз.

Rami88 ✉

link 26.03.2014 9:07

Ммм, очень даже неплохо:)

Lucym ✉

link 26.03.2014 9:15

в Deja Vu есть такая функция "Лексикон"
Загружаете в проект нужный файл и жмете кнопочку (там еще настройки есть, чтобы не только по словам, но и по фразам считало)

alk ✉ moderator

link 26.03.2014 9:21

разница в количестве слов объясняется, полагаю, учетом морфологии.
Однако странности присутствуют. Разные формы слова "государство", например, всего дают 8 разных вариантов встречаемости, mt показывает только 5.
Не понятно почему.

AsIs ✉

link 26.03.2014 11:46

Извините за офф... Пользователь ttimakina нужен. Вы здеся? =) Хочу вам ЛС написать так, чтобы вы готовы были его увидеть. Кас. MemSource. Отзовитесь, пожалуйста. Заранее спасибо!

Winona ✉

link 27.03.2014 9:36

ооо, всем спасибо за инфу! только что зашла и увидела ответы, спасибоо!

ttimakina ✉

link 27.03.2014 11:54

AsIs, я здесь! Пишите, плз, на <ник>@gmail.com

† Thread closed by moderator †

Get short URL