Category: фантастика

Category was added automatically. Read all entries about "фантастика".

я

Чебурашка ищет друзей, часть без номера, полусонная

Во-первых, мы седня ходили на Гарри Поттера. Мутноватое кинцо получилось.

Во-вторых, мой паучок сейчас обдирает контент (по 100 последних постов) с 8830 региональных блогов (к базе ситиметрики добавил еще новосибирские блоги). Всю ночь будет трудиться... А на следующую ночь поставлю "выдиратель" адресов блогов еще для пары-тройки регионов.

В-третьих, проанализировал "словарный запас" (после морфологической обработки) отсортировав по частоте:
предлагать 72
получать 71
создавать 70
оставлять 66
прочитывать 65
исполнять 64
приводить 63
принимать 63
использовать 63
поднимать 62

Это я  к тому что как минимум до конца первой тысячи слов идут общеупотребительные глагольные формы который не отражают смысловую нагрузку блога практически никак! Т.е. можно внутри словаря ввести кластеры (об этом я писал ранее) по частоте встречаемости слов и считать метрики от них - по идее это должно дать более точный результат по совпадениям смыслов.

В-четвертых, я спать пошел.
Спокойной ночи.