Category: it

Category was added automatically. Read all entries about "it".

я

Чебурашка ищет друзей, часть 2

Продолжаем решать задачу поиска родственных душ на просторах интернета :)

Часть первая расследования: http://infist-xxi.livejournal.com/58148.html

Выкидывая блова длинной менее 4-х символов и слова, которые встречаются только один раз во всем словаре (смысла в них нет - все равно если это слово одинокое то его использует только один человек и никаких пересечений от него мы не получим, а оно может быть сознательное или несознательной опечаткой) получил "первичный словарь словоформ". С морфологическим приведением слов к базовой форме я справился с помощью яндексовской утилитки mystem company.yandex.ru/technology/mystem/ получив в итоге "словарный запас" пяти тысяч блоггеров из базы ситиметрики www.citymetrica.ru. Итого 45 тыс. базовых словоформ. Сразу же подсчитал распределение "использования словарного запаса блоггерами":

Максимум: 5,73% от общего
Среднее: 0,89% от общего
Стандартное отклонение: 1,0582
 
Для любопытствующи - TOP3 блоггеров с максимально богатым словарным запасом:

Синонимайзер я еще не прикрутил, но это в планах. По идее это должно еще больше сдлеать выжимку смыслов из словарного запаса блоггера и сделать дальнейший анализ более точным.

Collapse )

я

Про чистоту

Я теперь с чистой совестью могу сказать что _на работе_ я не использую нелицензионное ПО!
- Операционная система: лицензионная винда.
- Офис: OpenOffice (благо сейчас я не работаю с документами сложнее нескольких страничек в ворде)
- Платформа разработки: free или open source

До недавнего времени использовал не совсем корретно установленную :) среду разработки, но теперь освоившись в Eclipse + поставив кучу нужных и полезных плагинов и поменяв стиль кодирования я освободился от первой привязанности.

Самой большой проблемой (и самой дорогой) являлась моя приверженность к некой CASE-програмке для рисования структур баз данных. Несмотря на то что она не поддерживала нужную мне СУБД она была включена в мой рабочий цикл по трем причинам: я к ней привык, у нее есть logical view, ну и еще кое что сугубо техническое. Найдя очередную примочку для Eclipse которая умеет все что мне надо я могу со спокойной совестью удалить контрафакт с рабочей машины! Долой вторую привязанность! :)))

PS
Может кому пригодится...
update site: http://www.azzurri.jp/eclipse/plugins
Core версия - free