Text processing tools

SEO блог где палят темы [Самый интересный SEO блог]
2007-11-10 21:01:58
<< На Украине закрыли Блоггер.ком? | SEO-форумы >>
Пара полезных инструментов для процессинга (в правильном направлении) текстов:
1. Open Text Summarizer - на входе подаётся длинный текст, например найденный в гугле пдф. На выходе имеем обрезанную копию, которая не совсем уникальна, но и не является копией 1 в 1.

2. Яндексовский mystem. Программа производит морфологический анализ слов на русском языке. Полезно для генерации стандартных шаблонов предложений, для простого стемминга можно найти/сделать что-то пошустрее.
С mystem кстати связана одна странная история: какое-то время по ссылке что я привёл, висело только описание программы, без возможности её скачать и с всевозможными предупреждениями о копирайтах Яндекса. Но одновременно с этим, там же было написано, что программа разработана на грант РФФИ. Я когда это увидел, то был очень удивлён, что государственная деньгораздаточна кормушка спонсирует закрытую разработку в интересах частной фирмы. Видимо со временем до яндексоидов тоже дошёл комизм и двусмысленность ситуации. Понятно, что для разработки им этот грант был нужен как рыбе зонтик, но зато теперь имеется редкая возможность воспозоваться тем, на что тратятся налоги россиян. :)
Alex 2007-11-11 03:26:46
оффтоп :) афтар жжот!
alexf 2007-11-11 03:38:18
Спалил. :)
Ed 2007-11-12 16:12:30
Есть еще Brill Tagger для английского языка, который разработал Eric Brill (ныне большая шишка из Microsoft Research). Скачать его можно совершенно бесплатно вот отсюда.

SEO сервисы | генерация текста | приколы |