DictionaryForumContacts

 Wlastas

link 1.02.2017 23:05 
Subject: Stanford University Part-Of-Speech-Tagger gen.
Недавно подсоединил к своим проектам утилиту по распознаванию частей речи в предложении.
Написана она людьми из стэнфорда и по их заявлениям имеет 97% точность
***Вот тут можно ознакомиться***
На вскидку очень крутая вещь - однако буквально сразу после начала использования возник вопрос по поводу предложения:

Did you plant pumpkins this year?
Ты посадила тыквы в этом году?;

в котором "plant" упорно определяется как "Singular noun"
попробовать можно :
***тут***
***или тут**

Вопрос: "plant" тут всё же глагол "посадить" или нет?

 urum1779

link 2.02.2017 4:38 
) Раньше в инязах (и сейчас, наверное) была такая байда как "теор.грамматика". Вот такие вещи - из этой обоймы. А можно спросить, не копавшись самому, зачем эта утилита?

 Wlastas

link 2.02.2017 5:56 
В двух словах - это алгоритм на нейронах, который обучается распознавать части речи в предложениях из 3 и более слов.
Сейчас в свободном доступе уже есть обученные "ядра" на 10 языков.
Прогоняете через утилиту свою "базу" параллельных предложений(или ТМ например), добавляя в них разметку.
После чего, при переводе во время поиска по этой обработанной "базе", зная какие части речи у каждого слова из вашего запроса(мы рассматриваем запросы из нескольких слов), получаете значительно более точную выборку, где эти слова будут только в соответствующем падеже.
Для того же английского языка это крайне важно.
Как это работает, можно посмотреть на примере английского корпуса, где все 1 608 212 английского фраз уже размечены аналогичным образом(правда, говорят, в ручную)
http://ruscorpora.ru/search-para-en.html

 Wlastas

link 2.02.2017 5:58 
"в соответствующем падеже" читать как "тоже части речи" ;-))

 Wlastas

link 2.02.2017 6:02 
Вот эта барышня разработала этот алгоритм в 2003г
http://nlp.stanford.edu/kristina/

 Wlastas

link 2.02.2017 6:04 
"в соответствующем падеже" читать как "той же части речи"

 

You need to be logged in to post in the forum