Category: технологии

Category was added automatically. Read all entries about "технологии".

я

Чебурашка ищет друзей, часть 2

Продолжаем решать задачу поиска родственных душ на просторах интернета :)

Часть первая расследования: http://infist-xxi.livejournal.com/58148.html

Выкидывая блова длинной менее 4-х символов и слова, которые встречаются только один раз во всем словаре (смысла в них нет - все равно если это слово одинокое то его использует только один человек и никаких пересечений от него мы не получим, а оно может быть сознательное или несознательной опечаткой) получил "первичный словарь словоформ". С морфологическим приведением слов к базовой форме я справился с помощью яндексовской утилитки mystem company.yandex.ru/technology/mystem/ получив в итоге "словарный запас" пяти тысяч блоггеров из базы ситиметрики www.citymetrica.ru. Итого 45 тыс. базовых словоформ. Сразу же подсчитал распределение "использования словарного запаса блоггерами":

Максимум: 5,73% от общего
Среднее: 0,89% от общего
Стандартное отклонение: 1,0582
 
Для любопытствующи - TOP3 блоггеров с максимально богатым словарным запасом:

Синонимайзер я еще не прикрутил, но это в планах. По идее это должно еще больше сдлеать выжимку смыслов из словарного запаса блоггера и сделать дальнейший анализ более точным.

Collapse )