Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Чебурашка ищет друзей, часть дополнительная к предыдущей

Как правильно заметил altsoph  в обсуждениях в каментах - комментирование френда (как и кросс-ссылка) является фактором влияющим на силу связи. Это можно и нужно использовать для анализа дерева френдов в упрощенном "рекомендаторе" о котором я писал в предыдущем посте

Причем, так как анализируемых поколения два, то и использовать этот коэффициент можно дважды. Правда, если получение информации о силах связей (количество коментариев) через поиск по блогам Яндекса для первого поколения ("мои френды" которых я комментирую) достаточно реально, то для второго поколения ("френды моих френдов", которых они комментируют) это превращается в весьма ресурсоемкую операцию. Но, опционально, можно включать и этот подход. Архитектурно это не сложно, потому что во внутренностях "рекомендатора" будет реализована очередь задач. Т.е. пользователь оставляет свой реквест на анализ, и на этот реквест формируется ряд задач по сбору информации, которые исполняются по принципу FIFO. Когда все задачи, необходимые для обсчета запроса будут выполнены, пользователь получает уведомление, что мол нате, смотрите что получилось. Просто для расширенного анализа с учетом силы связей во втором поколении времени потребуется больше.

С Яндексом, конечно, не все так просто. Во-первых, хоть лицензия поиска по блогам и дает 5000 запросов в сутки через /search.rss но это не лезет ни в какие ворота, потому что этот интерфейс жутко глючный: он не поддерживает параметр &numdoc=100 если делать группировку по авторам (group=2), а если группировки не делать то он не поддерживает страницы через &p=2. Короче, пользоваться им нельзя! Придется нежно обдирать HTML-выдачу, хоть это и не соответствует лицензионному соглашению :( Ну а чо теперь делать-то!?

PS Кроме того, поиск по блогам любит выдавать "Сервер временно недоступен" на некоторые запросы групировками когда задаешь еще и дополнительные параметры.

PPS Кросс-линки я тут не учитываю, потому что чтобы их выцеплять надо анализировать тексты постов и комментариев - это жесть в плане ресурсов.

PPPS Под "ресурсами" понимается в первую очередь время, затраченное на "безопасное" обдирание поиска от Яндекса чтобы робот не был забанен. Кроме того, если "рекомендатор" будет работать не в лабораторных условиях на домашнем компе, а в "диком поле" на виртуально хостинге то под ресурсами понимается еще и входящий трафик.

PPPPS Скорее всего расширенную информацию о силе связей во втором поколении получить будет очень сложно - френдов моих френдов может быть несколько тысяч!!! Оставим это пока :(

PPPPPS Хотяяяяяя... если задаться целью сделать текущий образ графа блогосферы на "лабораторной машине" и уже на нем ставить эксперементы...

UPD Фак, на это уйдет около года в однопоточном режиме :(

Tags: анализ блогов, рекомендатор
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 6 comments