Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Чебурашка ищет друзей, часть какая-то, вялотекущая


Ну чо можно сказать... продолжаю потихоньку исследовать оптимальные параметры расчета метрик схожести блогов. Одновременно решаю несколько задач:
 
- выбор систем отсчета (с какими блогами сравнивать) - что лучше, если гистограма распределения "похожести" всех других блогов с "отсчетным блогом" близка к нормальному (на самом деле она получается похожа на нормальную но со сдвигом в лево) или наоборот - когда нельзя построить "красивое" распределение. Надо пробовать разные варианты.
 
- кластеризация словарей для дробления метрик - читаю материалы по лингвистике, функциям частей речи. Думаю как без большого гемора выявить кластеры, позволяющие сравнивать семантику блогов без построения таксономий :)
 
- подбор параметров обучения нейронной сети

- есть еще проблема соотнесения "мощности" блогов... Проблема, по всей видимости, обострилась в последем расчете после того как я сделал базу из 100 последних сообщений блогов. Т.е. если кто-то пишет очень много, а кто-то на эту же тему пишет, но сильно меньше, то результат совпадения ожет быть отрицательным из-за того что "словарный запас" блогов слишком разный. В принципе, эту проблему должна решить синонимизация и, наверное, кластеризация локальных словарей (см. пункт 1). Ну посмотрим вобщем...
 
Проблема еще в том, что полный пересчет от разбора первичной базы текстов блога (почти 9 тыс. блогов, 250 метров текстов) моими скриптами до построения итоговой карты в дедукторе занимает минут 20-25... Я помню как я радовался когда написанная 
для мамы программа, обсчитывающая отчет для стат отдела поликлиники считала его секунд 30 на 386DX и как красиво полз прогресс-бар! Радость была от того что я смог нагрузить компьютер какой-то задачей, которую он решал медленнее чем за одну секунду :) По этой же причине я очень любил фракталы - компьютер думал!!! 
 
Сейчас если расчет идет дольше 30 секунд это начинает напрягать. Хочу 4 трехгигагерцовых ядра!!! Допустим, скорее всего Deductor не умеет использовать преимущества многоядерности, но можно запустить 4 дедуктора одновременно и получить 4 карты с разными параметрами!
 
PS Нашел как можно из дедуктора выгружать данные... претензия к разработчикам снимается :)

PPS Если бы все тегировали свои записи как это делает Тёма Лебедев то все было бы сильно проще :)))
Tags: анализ блогов
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments