Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Чебурашка ищет друзей, часть 1

Один из смыслов социальных сервисов - это поиск "близких по духу". Блоги в этом смысле дают прекрасную базу для анализа - можно узнать чем живет человек, что его волнует, что он думает о происходящих в мире событиях. Отлично! Единственная проблема - рускоязычных блогов в интернете 10,5 миллионов...
В этом списке (по версии Яндекса) я нахожусь на 1617446 месте. Ну пусть не 10, пусть 3 миллиона более-менее активных блогов. Много!? Да дох...я!!!

И теперь вопрос - как в этом множестве найти братьев по разуму? Ну, первый вариант - воспользоваться поиском по блогам от Яндекса и задавая ему какие-то ключевые слова близкие вашему сердцу смотреть кто еще их использует. Ну вариант, да... Еще можно смотреть пульс блогосферы (текущие обсуждаемые события) и читать что кто думает по этому поводу, просматривать блоги тех кто думает так же как и вы. ТОже вариант. Но долго и муторно...

Итак, ставим задачу: предложить механизм поиска родственных душ в этом сумашедшем миру :)



Для решения имеем базу СИТИметрики (www.citymetrica.ru) из чуть более 5,5 тысяч активных замкадовских блогов. Ну логика подсказывает что надо как-то определить "близость" авторов этих блогов к друг другу. Как?

Шаг первый: семантизировать базу - выделить смысл того о чем пишут люди
Шаг второй: как-то соотнести смысловую нагрузку блогов друг с другом выделив наиболее близкие по смыслу

Давайте начнем по порядку: как "осмыслить" блог?

Во-первых, можно использовать тэги записей. Но как показывает предварительная оценка блоггеры эти теги используют редко (тэгированными в моей базе окозалось около 5% постов), а если и используют то по своему разумению и реально этим пользовать нельзя.

Вот топ тегов (после незначительных синонимических склеек):
цитаты 192
фото 64
я 53
мысли 37
жизнь 34
видео 33
музыка 30
идеи интерьеров 26
кулинария 25
книги 24
юмор 23
работа 22
доктор хаус 20
скачать книгу 19
кино 19
сериал 18
друзья 18
тесты 17
интернет 17
дневники 16
Вобщем, ничо неожиданного, но абсолютно бесполезно (мы помним по 5% тэгированных постов).

Во-вторых, можно составить небольшой классификатор (тезариус) и пропускать через него тексты блогов. На выходе должны получить "близость" блога к той или иной тематике из тезариуса (ну это как тест который выдает что вы на половину гоблин и на треть 23% эльф). Потом как-то конвертировать их в близость к друг другу. Нууууу... путь понятен, но по ощущениям несколько ущербен для данной задачи и упирается в полноту классификатора. Кроме того, тут необходимо либо шарить в лингвистике, либо в онтологиях. Ни там ни тут компетенций у меня нема :)

Поразмышляв, я остановился на варианте чисто технического анализа статистики. Т.е. анализируя употребляемость слов в тексте расчитывать некоторые численные метрики и их потом соотносить друг с другом. Внесем гипотезы первого приближения о количественных метриках:

1. Используем анализ слов длинной от 4 символов с учетом морфологии и синонимов (если удастся побороть то что я нашел по этому поводу и это не займет очень много времени)
2. Строим общий словарь используемых слов для всех анализируемых блогов
3. Индивидуальные метрики:
3.1 Доля используемых слов общего словаря - можно даже сделать индивидуальный топ по "богатству речи" :)))
3.2 Акцентуация - это некоторое подобие плотности распределения использования слов, которое должно показать насколько разносторонни интересы пользователя (т.е. пишет он об одном и том же или на рызные темы)
4. Групповые метрики:
4.1 Пересечение словарей блогеров
4.2 Пересечение интенсивности использования тех или иных слов (я пока еще не думал над точным алгоритмом расчета этой метрики, но суть в том чтобы сравнить актуальность тем для блоггеров)

Фух... пока все. Мыслей больше нет. Еще подумаю насчет метрик...
Щас подправлю "паука" ситиметрики чтобы он начал хранить данные в нужном виде для последующей обработки и буду копаться с морфологией.
Ждите продолжения :)))
Tags: блоги, ситиметрика, социальные сервисы
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments