Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Чебурашка и статистика френдов

Размышления о распределенях, отклонениях и прочих аномалиях во френдах под катом - чтобы не убивать моск моих немногочисленных френдов, далёких от чебурашкиных загонов относительно поиска родственных душ в безбрежном океане сети.



Проблема: во френдах абстрактного юзера попадается много журналов, зафренженых "по знакомству", т.е. не потому что этот журнал мне интересен а потому что я этого человека знаю и мне инетересно что в его жизни происходит.

Задача: статистически выделить именно интересных френдов а не друзей на основе моей их комментируемости.

Обсуждаемая мысль о том, что надо убирать взаимных френдов из рассматриваемой статистики не прокатывает. Потому что у людей разная френдполитика и я имею несколько взаимных френдов с которыми мы не знакомы, но читать мне их интересно и полезно.

К сожалениею, я не активный жж-юзер и не люблю каментить и ввязывать в полемику, так что моя статистика кривая получится... но, для начала потянет (потом буду эксперементировать на кошках на жене)!

Итак, имеем:
1. Список френдов - из профайла
2. Статистику комментируемости (сколько моих коментов в журнале френда) - из яндекса

Для моего журнала имеем следующие исходные данные (без учета сообществ и не френдов):
hailam:52
lelka_penka:16
gadyuka:38
zak_vl:61
daily_winegraph:19
polonium194:13
smyslov:6
washerman:35
navalny:1
olegtinkov:1
nameless_child:1
tema:19
bru_lliant:108
dennydov:1
alex_lebedev:3
urbansheep:6
e_grishkovets:4
metamorphosus:12
cathay_stray:5
chich8:1
dima_chatrov:1
aprelka2004:10
fat__man:1

Среднее: 18
Стандартное отклонение: ~26

По правилу трех сигм (или трех эс) получается слишком широкий интервал, поэтому выкидывать (считать за "друзей в реале") будем
то что выходит за пределы одно стандартного отклонения от среднего. Уходят:

hailam - эт моя жена :)
zak_vl - это Костя :)
bru_lliant - гы, это Юлька, в основном в моих каментах в ее жж стёб

ну все... остальные остаются.
При этом совершенно непонятно что с ними делать дальше :(

Но сделаю предположение (прикидывая сколько раз я хотел написать комментарий а потом махал на это рукой). Наверное максимальные вес коэффициента интереса стоит отдавать тем, кто расположен от среднего до среднего плюс стандартное отклонение. Причем распределение самого коэффициента на этом диапазоне тоже не должно быть линейным... вот только каким!?

UPD: ааааа!!! еще один важный фактор который выдает яндекс забыл!!! Время последнего комментария!!! Тот список который у меня выше отсортирован по дате (на вершу - последний откаменченый юзер). Поэтому возникает много вариантов, например сортировать тех юзеров, которые попадают в диапазон от среднего до среднего + отклонение по времени моего их комментировани! аааа!!! это клёво!!! :)

 
UPD2: Нет, будем брать всех френдов, которые попадают в интервал [x-s, x+s] где x - среднее, s - стандарное отклонение и просто сортировать их по времени последнего коментирования, наверное... Надо попробовать на более "живых" журналах чем мой.
Tags: исследования блогов
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 5 comments