Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Чебурашка ищет друзей, часть промежуточная между 2 и 3

Нууууу... что я могу сказать.
Начнем с хорошего - кластеризация через Deductor работат хорошо! :)
Переходим к тому что похуже - академическая лицензия Deductor'а не дает экспортировать результат никуда :(
И теперь о печальном.

Резульат первой прикидки (5000 блогов, одна метрика совпадения словарей, 15 произвольно выбранных систем отсчета) получился довольно нелепым... анализируя своих соседей по ячейке карты Кохонена я пришел к следующим выводам:

- гипотеза насчет совпадений словарей с фиксированными "системами отсчета" несколько некорректна: при одинаковых значениях метрик могут совпадать разные части словарей. Надо что-то подумать насчет этого изменив алгоритм расчета метрики. Может быть выделять миникластеры внутри "словарных запасов"... незнаю... видимо, не получится чисто технического анализа - придется разбираться с лингвистическими или онтологическими механизмами. Посмотрим...

- синонимизация была бы очень ок

- мало данных для анализа - так как паук ситиметрики собирает только RSS-фиды блогов то в среднем в базу попадает около 20 последних постов блога. Это в среднем по 10Кбайт "сырого" текста на блог и в два раза меньше морфологически "очищенного". Этого мало! Видимо придется писать специального паука, который будет работать по ночам из дома обдирая блоги (или Яндекс.Блоги :))) ) сильно глубже чем отдает RSS. Мегабитный анлим ему в помощь :) В принципе, такой подход позволит обойти ограничения на размер блоговой базы (на хостинге ситиметрики есть некоторые технические и архитектурные ограничения) и можно собрать тыщ 50 блогов для нормального анализа.

Ну а пока для себя откопал один блог, который надо почитать повнимательнее: http://diary.ru/~stanova/p70362003.htm

Продолжаем поиск счастья для всех, даром, чтоб никто не ушел обиженным :)))

UPD: в принципе, не так все плохо... убрав в алгоритме расчета метрики одну нормализацию результата я получил новую карту с более "адекватными" блогами в моей ячейке. Их, правда, больше 20-ти оказалось. Сейчас изменил параметры кластеризации и запустил ее на том же наборе - жду.

Впишу тут блоги для дальнейшего ознакомления из того что мне попалось интересного:
http://h-campbell.livejournal.com/
http://iskif.livejournal.com/
http://mint-locus.livejournal.com/ (нуууу... но что-то в нем есть :) )
http://users.livejournal.com/_yanchick_/
http://svoedelo.livejournal.com/

Кажется даже чисто технический анализ, все-таки, дает результаты :)

PS А то что академический Deductor не дает делать экспорт данных - беееее в сторону разработчиков!!!

UPD Не досчиталось... после 10 минут 100% загрузки проца комп благополучно перезагрузился (второй раз за день). Буду считать дома.

Tags: deductor, блоги
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments