Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Чебурашка ищет друзей, часть без номера, полусонная

Во-первых, мы седня ходили на Гарри Поттера. Мутноватое кинцо получилось.

Во-вторых, мой паучок сейчас обдирает контент (по 100 последних постов) с 8830 региональных блогов (к базе ситиметрики добавил еще новосибирские блоги). Всю ночь будет трудиться... А на следующую ночь поставлю "выдиратель" адресов блогов еще для пары-тройки регионов.

В-третьих, проанализировал "словарный запас" (после морфологической обработки) отсортировав по частоте:
предлагать 72
получать 71
создавать 70
оставлять 66
прочитывать 65
исполнять 64
приводить 63
принимать 63
использовать 63
поднимать 62

Это я  к тому что как минимум до конца первой тысячи слов идут общеупотребительные глагольные формы который не отражают смысловую нагрузку блога практически никак! Т.е. можно внутри словаря ввести кластеры (об этом я писал ранее) по частоте встречаемости слов и считать метрики от них - по идее это должно дать более точный результат по совпадениям смыслов.

В-четвертых, я спать пошел.
Спокойной ночи.

Tags: анализ блогов, ситиметрика
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 3 comments