Roman(tic) (infist_xxi) wrote,
Roman(tic)
infist_xxi

Писатели и читатели — анализ структуры комментариев ЖЖ ТОП-500, часть 1

Начало

Я продолжаю серию публикаций-исследований на тему структурного анализа русскоязычного сегмента Живого Журнала. Первая публикация была посвящена некоторому анализу аудиторий 10-ти топовых блоггеров. Во время ее подготовки был собран граф связей русского ЖЖ, охватывающий более 2-х млн. блогов и 58 млн. связей между ними. К этому графу я еще вернусь в следующих сериях (пока я еще не осмыслил его), а сегодня о другом. А именно, о том кто, как часто и кого комментирует в самом бурлящем разборками и дискуссиями уголке ЖЖ - в журналах из ТОП-500.

Взяв за основу состояние ЖЖ-рейтинга на начало апреля и отщипнув от него 500 верхних позиций я запустил сбор данных по следующей методике. У каждого блога из списка запрашивались 25 последних публикаций (доступно через штатные средства ЖЖ). Из каждой публикации вытаскивался список комментаторов (имя, id-комментария, место комментария в дереве) если, конечно, комментарии к записи открыты для посторонних.

Штатные средства ЖЖ такого не позволяют, попытки сделать финт ушами и ободрать RSS-выдачу поиска по блогам от Яндекса натыкались на очень странное и несколько нелогичное поведение этой выдачи (это не претензия, это просто факт), поэтому информацию о структуре комментариев пришлось извлекать из страниц журналов. Но это оказалось к лучшему :) Кстати, если что: DDos на ЖЖ - это не я :)

В итоге, после нескольких дней сбора информации (первоначальная версия краулера была не безглючной, ЖЖ притормаживал - в это время на него был очередной ДДоС) получились вот такие исходные данные:

487 журналов, имеющих хотя бы один откомментированный пост;
10546 постов, имеющих хотя бы один комментарий;
809563 комментариев (без учета анонимных), из них 115326 (14,2%) - ответы владельцев журналов;
114412 комментаторов, из них 3884 (3,4%) залогинены с помощью внешних сервисов (twitter, facebook и т.д.)

Далее в программе:

1. Статистика различных характеристик журналов из TOP-500
2. Некоторые неявные, но любопытные рейтинги
3. Поиск ответа "как стать популярным блоггером" с помощью кластерного и корреляционного анализа (это, правда, будет во второй части исследования)

1 Статистика журналов и публикаций

Ниже представлены распределения некоторых статистических характеристик журналов из исследуемой выборки. В виду характерного для социальных сетей степенного распределения (частным случаем которого является кривая Парето) имеющего "длинный хвост" на гистограммах этот "хвост" будет собираться в последнем увеличенном интервале. И наряду со средним арифметическим буду приводить и медиану ряда как более робастную оценку среднего значения.

Кстати, интересная деталь. Функция зависимости количества друзей от позиции блоггера в топе практически идеально аппроксимируется степенной функцией с R2=0,9932. А вот аналогичные аппроксимации количества комментариев и комментаторов существенно хуже: R2=0,2355 для комментариев и R2=0,3074 для комментаторов.

Интересно было бы посмотреть на эти цифры через некоторое время и для большего количества постов. Так их стремление к единице означало бы постепенное перемещение блогов с бурными обсуждениями в комментариях сегодня к "голове" топа по читателям, т.е. "утряску" сводного рейтинга.

1.1 Публикации, комментарии, комментаторы


Две гистограммы ниже дают представление о распределении таких характеристик публикаций (всех авторов) как количество комментариев и количество уникальных комментаторов.



В исследуемой выборке лишь 198 постов с количеством комментариев от 500 до 1000, и 69 набрали больше 1000 комментариев. Типичная публикация даже топового блоггера набирает 26 комментариев (по медиане).

Разумеется, публикации "верхушки" топа собирают больше комментариев, это можно увидеть на изменении медиана совокупности комментариев для разных "отсечений" рейтинга. На чем больше выборка тем быстрее растворяются эти показатели:

TOP-10 211
TOP-30 149
TOP-100 70
TOP-200 44
TOP-500 26

Та же картина и для количества уникальных комментаторов в каждой публикации.



Типичная запись в ЖЖ имеет 16 "обсуждальщиков". Больше сотни человек собралось всего лишь на 725 публикаций (6,85% от всех), из них от 500 до 1000 комментаторов у 42 записей (0,4%) и целых 4 записи собрали более 1000 читателей, которым есть что сказать по этому поводу.

1.2 Авторы и их почитатели - анализ дискуссионной аудитории


Весьма вероятно (и это я попробую выявить во второй части исследования), что весомый вклад в интерес к журналу вносит характер пользовательской активности в комментариях: наличие постоянной аудитории, вовлеченность автора журнала в дискуссию, наличие самих дискуссий, а не только комментариев "фпитёрке" и "вдисятке".

Так, например, можно оценить активность автора журнала через долю его ответов в общем числе комментариев. Распределение авторов в этом срезе продемонстрировано на гистограмме:



Итак, доля ответов в 50% означает что на каждый комментарий посетителя автор оставил свой ответ. Соответственно, доля в 20% означает что автор ответил на каждый четвертый (да-да, именно четвертый, а не пятый) комментарий. Средняя величина же по всем журналам составляет примерно 16% ответов. Т.е. на каждый пятый комментарий абстрактный автор дает ответ.

Комментаторы


Журналы можно ранжировать по количеству уникальных комментаторов - т.е. по аудитории, не только читающей, но и участвующей в обсуждениях написанного.

Кол-во комментаторовКол-во журналов
0 - 200206
200 - 400118
400 - 60065
600 - 80034
800 - 100011
более 100053

Средний журнал из TOP-500 имеет около 260 комментаторов (разумеется, для последних 25 сообщений).

Для выделения ядра комментаторов сделаем три дополнительных (и весьма показательных) среза и представим полученные средние значения по ним:
1. 61% комментаторов блога оставили только один комментарий в журнале
2. 29% оставили 2-4 комментария
3. и только 10% комментаторов активно принимают участие в жизни блога, оставив 5 и более сообщений

Дискуссии


Самое интересное на мой взгляд - определение дискуссионной привлекательности журнала. К поиску журнала для любителя пообщаться можно привлечь множество различных метрик, благо комментарии - есть дерево, а дерево - есть граф, а на графах можно много чего посчитать.

После непродолжительных размышлений я взял следующий показатель: среднее количество комментариев в треде. Очень понятный показатель. Но не наглядный. Потом что среднее будет колебаться около двойки в лучшем случае, а то и к единице скатится.

Поэтому возьмем количество тредов с более чем N комментариями в журнале. Для простоты N примем как половину от медианы максимальных длин тредов. При медиане равной 22 комментария в треде, N = 11.

Кол-во "тяжелых" тредовКол-во журналов
0 - 10346
10 - 2069
20 - 3021
30 - 4014
40 - 505
50 - 10019
более 10013

Среднестатистический журнал имеет всего 4 треда с более чем 11 комментариями.

2 Дополнительные рейтинги


Дальше приведу несколько дополнительных рейтингов (по три верхних позиции), основанных на рассмотренных выше показателях комментируемости.

Количество комментариев (всего)


ЖурналКол-во комментариев
nikitabesogon42752
alexsword33057
krispotupchik15465

Аудитория комментаторов (всего)


ЖурналКомментаторов, всего
pesen_net5989
toster4626
mzadornov4184

Количество ответов владельца журнала (всего, доля в числе комментариев)


ЖурналОтветов, всегоОтветов, % от числа комментариев
mcheburashkina479940,5%
alexsword422112,8%
kitya335142,5%

Ядро аудитории (всего, доля от общего числа комментаторов)


ЖурналКомментаторов% от общего числа
nikitabesogon83523,1%
navalny82727,0%
fritzmorgen61022,9%

Ядро аудитории - количество комментаторов, оставивших 5 и более комментариев в журнале.

Пауза...


На этом первая часть исследования завершается. Во второй части я попробую выдвинуть пару гипотез, подтвердить или опровергнуть их, а так же поискать общие черты в столь разношерстной толпе блоггеров :) Через недельку. Stay, как говорится, tuned!

Tags: блогосфера
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 29 comments