DictionaryForumContacts

 Евгений

link 15.04.2003 21:53 
Subject: формирование частотного словаря (+)
добрый день - нужен совет профи
пишу диплом - нужно сформировать частотный словарь
из произвольного текста - кол-во вхождения слов в тексте и сортировки делаются без проблем
вот ряд вопросов, которые горят:
как снять омонимию ?(понимаю, что таких слов немного, но все же...)
в частотном словаре однокоренные слова рассматриваются как 1 единица? то есть при нахождении 10 однокоренных слов для формализованной основы будет приписана частота 10 или нет?!
как выделять однокоренные слова?!
чтобы использовать dll через asp нужно использовать COM or activex wrapper? что лучше и эффективнее?!
заранее спасибо, Евгений

 pom moderator

link 16.04.2003 9:06 
Программа подсчета статистики текста, которая имеется на сайте в разделе Словари, берёт только первый найденный вариант слова, то есть омонимы не учитываются.
Однокоренные слова для Мультитрана - это разные слова. А вот все формы одного и того же слова засчитываются как случаи нахождения этого слова.
Для выделения однокоренных слов нужен словарь однокоренных слов, которого здесь пока нет.
Морфологический анализатор, имеющийся в разделе Загрузить, даёт более широкие возможности, чем упомянутая программа подсчета статистики. В частности, на нём можно самостоятельно сделать подсчёт статистики текста с учётом омонимов, поскольку они распознаются при морфологическом анализе. Только нужно определиться, нужно их считать, или нет. Кроме того, можно учитывать и формы слов. Так, например, можно посчитать процент глаголов в форме первого лица единственного числа.
Чтобы использовать предлагаемую DLL, достаточно открыть прилагающийся к анализатору проект с помощью Microsoft Visual C++ 5.0 или 6.0. Если после компиляции он заработает, можно дописывать свои функции прямо в нём.
Как работать с омонимами, можно посмотреть в этом тестовом проекте.
Нужно запросить некое слово, явно имеющее омонимы (например, 'стекло') и посмотреть, как из морфологического анализатора извлекается информация о различных омонимах этого слова.

 

You need to be logged in to post in the forum