Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Не имей сто друзей

Длинной вводной на сей раз не будет.

Тенденции ЖЖшного мэйнстрима с его войнами компроматов, перепостами и бот-накрутками лично меня сильно огорчают. Еще больше меня огорчает что ни в самом ЖЖ, ни в поисковых сервисах (например, в медленно загнивающем поиске по блогам от Яндекса) нет средств разделения тематических контекстов. И пока не предвидится.

А как бы было замечательно: смотришь на "карту" - тут реки историй с кулинарными берегами, тут - этнические острова, а вот здесь - горы советов по домоводству. Ну и сточная канава для политкомпроматов - куда уж без них :)

Это была лирика, вопрос же, который я исследовал, в другом заключается: в чем сила в ЖЖ современном - во френдах ли, аль в ссылках хомячками да ботами проставленными?

Наверное, не открою секрета если скажу что обитатели верхушек рейтингов по френдам и просмотрам несколько отличаются своим составом.

Чтобы понять насколько отличаются - я собирал срезы этих рейтингов в течении 10 дней (с 1 по 11 июня за вычетом 4-го - рейтинг ЖЖ иногда ломается), а затем просуммировал количество просмотров, добавил количество публикаций за эти дни, количество комментариев, а так же число ссылок на журналы, которые появились за период сбора данных.

Как обычно, чтобы не убивать живых людей цифрами убираю все под кат, а там:
1. Самые читаемые блоги начала месяца июня года 2011
2. Есть ли корреляция между количеством просмотров и другими характеристиками блога?
3. Ну и несколько визуализаций для медитации

Самые читаемые блоги начала июня 2011 года


С учетом механизма формирования рейтинга просмотров ЖЖ в табличке ниже представлены суммарные данные по просмотрам самых популярных блогов с 31 мая по 10 июня (за исключением 4-го июня).
ТОП	Имя			Просмотры	Френды	Постов	Коментов	Ссылок	Ссылок в ЖЖ	Вариация
30	ibigdan		1338279		18203	282	11678		1389	73,79%		0,48
4	navalny		1315546		50663	16	11002		1123	69,63%		0,49
1	drugoi		1054079		67915	27	12653		635	60,94%		0,63
2	tema			1010127		67315	29	16170		463	55,72%		0,50
34	teh_nomad		965146		16500	13	4975		2746	87,58%		0,84
7	dolboeb		676172		32920	58	5852		775	70,32%		0,77
6	varlamov.ru			650257		33265	20	5144		774	72,35%		0,76
23	fritzmorgen		647800		19511	12	5586		471	65,18%		1,24
289	krispotupchik		600575		3807	19	5384		369	78,05%		0,95
16	radulova		534473		24254	56	6719		211	50,24%		0,45
346	vovsun		499994		3397	3	223		28	53,57%		1,58
215	miss_tramell		448200		4602	22	5015		551	84,57%		0,47
3	sergeydolya		445072		50977	6	540		327	65,75%		1,03
12	shpilenok		440428		27726	8	1669		184	65,22%		1,24
168	polonium194		429402		5332	17	480		105	43,81%		2,15
366	putnik1		403995		3265	108	8227		1040	75,96%		1,27
51	roizman		396728		12577	15	3628		1473	77,19%		1,44
8	belonika		369092		32034	11	2657		86	60,47%		0,48
121	kamnevn	363801		6358	53	2194		163	49,08%		1,19
112	sadalskij		355285		6645	65	3901		234	70,09%		1,10

Ссылки - количество ссылок на блог за период с 01.06 по 10.06
Ссылок в ЖЖ - доля ссылок из других ЖЖ-блогов от общего количества ссылок за период.
Коэффициент вариации показывает насколько стабильна была посещаемость на протяжении исследуемого периода. Чем больше - тем больше всплесков. Для относительно стабильных распределений
этот коэффициент имеет значение около 0,1-0,2. Как видно из таблицы посещаемость многих блогов очень нестабильна.

Видно, что почти вся десятка топовых блогеров по френдам удерживается и в топе по просмотрам, но в целом топ очень зависим от всплесков (скандалов, интриг, расследований). Можно предположить что с увеличением интервала наблюдений попадание в топ случайных "пассажиров" будет уменьшаться.
 

Корреляционный анализ


Я напомню, что корреляция - это статистическая взаимосвязь величин. При этом эта связь не обязательно должна иметь причинно-следственный характер. Коэффициент корреляции принимает значение от -1 до 1. 1 - это сильная значимость - если растет одна величина, то растет и вторая. -1 - обратная зависимость, если растет одна, то другая уменьшается. 0 - отсутствие всякой взаимосвязи величин.

Итак, на выборке из 462 блогов (500 топовых по френдам с ненулевой статистикой просмотров) считаем ранговые корреляции количества просмотров с количеством френдов, количеством постов и количеством ссылок. Корреляция количества просмотров:

с количеством френдов: 0,424
с количеством постов: 0,570
с количеством ссылок: 0,749

Тут нужно сделать одно ваааажное пояснение. Расчет ранговых корреляций не учитывает абсолютные значения параметров, а ведется по рангам, т.е., грубо говоря, позициям в рейтинге по тому или иному параметру.

Поэтому, очень(!) упрощенно(!!) со многими оговорками(!!!) можно сказать что мы получили ответ на такой вопрос (да простят меня математики): с какими факторами связан именно такой порядок блогов в рейтинге по количеству просмотров (ну или еще проще: что нужно сделать чтобы попасть в топ).

Для нашей выборки это: во-первых, с "количеством" ссылок, во-вторых, с "частотой" публикаций, в-третьих, с "количеством" френдов. Кавычки проставлены для очистки совести :)

Т.е. френды - часто не главное. Насколько "в цифрах" не главное и как часто - это другой вопрос.

В этом выводе есть место извечному вопросу о том что было раньше - яйцо или курица. Потому что корреляции симметричны, и что первичнее, ссылок много потому что много читают или много читают потому что ссылок много, в рамках такого подхода не узнать. Надо смотреть динамики посещений, роста ссылочной массы, переходов.

И еще внутри выборки, конечно, можно выделить группы, имеющие очень разные корреляционные матрицы. Есть группы, где количество просмотров коррелирует только с френдами, или только с ссылками, или вообще ни с чем не коррелирует.
 

Медитация


Ну и на последок картинки для медитации - визуализация выборки в виде самоорганизующихся карт (это такие умные карты с нейронными сетями) :)

Чтобы правильно медитировать надо понять ряд простых правил, используя которых можно получить качественную (и имея цифры - и количественную) оценку распределения различных признаков нашей выборки.

1. Это проекция (многомерного вектора) параметров нашей выборки на плоскость. Элементы с близкими значениями параметров группируются рядом.

2. Цветовое кодирование - по спектру. Фиолетовый край - холодно, малые значения параметра. Красный - жарко, концентрация максимальных значений.

3. Цвета - это именно величины значений в этой области пространства, а не количество элементов! Для количества - отдельная картинка.

4. Визуальный поиск "интересных" групп. Например. Смотрим в верхний правый кластер окна "Просмотры". Просмотров у этой группы прилично - переход от желтого к красному. Смотрим в окно "Френды" на тот же кластер: а вот френдов не очень много - бледно зеленый цвет. Зато много ссылок, комментариев и, что важно, публикаций!













Что из себя представляет этот кластер? Сделаем выгрузку и посмотрим:
Топ	Имя			Просмотры	Френды	Постов	Коментов	Ссылок	До центра
296	mishajp		31432		3758	74	1660	150	0,107
287	holmogor		21043		3811	97	1026	144	0,115
290	varjag_2007		50837		3801	104	2254	276	0,117
231	arturonly4			20729		4402	62	1267	307	0,237
338	vasily_sergeev	16896		3431	143	707	148	0,260
221	bb_mos		26351		4515	63	2938	450	0,273
284	uborshizzza		36402		3839	63	1495	639	0,275
331	999allan999		25177		3458	160	806	532	0,279
334	lvoropaeva		17345		3453	261	720	145	0,280
154	matchgirl_ru		16059		5639	92	1655	295	0,305
191	p_i_f			60923		4948	127	834	561	0,311
377	felbert		37039		3232	95	2004	850	0,321
222	asaratov		114797		4506	178	2054	890	0,339
242	m_yu_sokolov		94442		4184	66	5014	84	0,344
366	putnik1		403995		3265	108	8227	1040	0,374
143	artemdragunov		145132		5859	109	5304	96	0,402
354	carabaas		22988		3329	340	1697	75	0,412
481	santyaho91		33685		2866	329	894	1184	0,476
150	e_apraksina		49389		5765	185	1033	43	0,557

Ага! Трех из этого списка я помню, одного - mishajp - периодически читаю из чужой френдленты. А arturonly4 - вообще мой земляк :) Я не смотрел все журналы, но на первый взгляд их можно охарактеризовать как "профессиональных блоггеров" - пишут много м не всегда по делу :)

Ну вот так-то так на сегодня.
Stay как говорится tuned!

PS
Напоминаю, что можно взорвать себе мозг почитав другие публикации на тему исследования блогосферы:
Френды и комментаторы
Комментаторы топовых блогеров - кто они?
Писатели и читатели: некоторая статистика комментариев
Анализ пересечений аудиторий (френдов) топовых блогеров

Tags: блогосфера
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 39 comments