Subject: Stanford University Part-Of-Speech-Tagger gen. Недавно подсоединил к своим проектам утилиту по распознаванию частей речи в предложении.Написана она людьми из стэнфорда и по их заявлениям имеет 97% точность ***Вот тут можно ознакомиться*** На вскидку очень крутая вещь - однако буквально сразу после начала использования возник вопрос по поводу предложения: Did you plant pumpkins this year? в котором "plant" упорно определяется как "Singular noun" Вопрос: "plant" тут всё же глагол "посадить" или нет? |
) Раньше в инязах (и сейчас, наверное) была такая байда как "теор.грамматика". Вот такие вещи - из этой обоймы. А можно спросить, не копавшись самому, зачем эта утилита? |
В двух словах - это алгоритм на нейронах, который обучается распознавать части речи в предложениях из 3 и более слов. Сейчас в свободном доступе уже есть обученные "ядра" на 10 языков. Прогоняете через утилиту свою "базу" параллельных предложений(или ТМ например), добавляя в них разметку. После чего, при переводе во время поиска по этой обработанной "базе", зная какие части речи у каждого слова из вашего запроса(мы рассматриваем запросы из нескольких слов), получаете значительно более точную выборку, где эти слова будут только в соответствующем падеже. Для того же английского языка это крайне важно. Как это работает, можно посмотреть на примере английского корпуса, где все 1 608 212 английского фраз уже размечены аналогичным образом(правда, говорят, в ручную) http://ruscorpora.ru/search-para-en.html |
"в соответствующем падеже" читать как "тоже части речи" ;-)) |
"в соответствующем падеже" читать как "той же части речи" |
You need to be logged in to post in the forum |