«Инфоротор» обещает дать оценку качества контента российских онлайновых СМИ, а также их аудитории одним интегральным показателем. Система работает пока неважно, но у разработчиков есть шанс исправиться.
Рейтинг электронных СМИ «Инфоротор» основан на информационном индексе – комплексном показателе, который рассчитывается, исходя из данных о посещаемости ресурса, поведении его аудитории и качества контента.
Методика расчёта индекса подробно описана на сайте «Инфоротора».Система собирает содержимое сайтов из полнотекстовых RSS, предоставляемых изданиями, и анализирует каждую новость. Центральное место в расчёте информационного индекса занимает определение эксклюзива и копипаста. Каждую добавленную новость «Инфоротор» автоматически сравнивает с ранее загруженными, пытаясь определить, на какие она похожа по основным семантическим конструкциям. Если новость попала в уже существующий сюжет и степень похожести на оригинальную (ранее загруженную и уже проанализированную) составляет более 95%, то публикация считается перепечаткой оригинального сообщения. Попросту говоря – копипастом. Эксклюзивом считается первая новость в сюжете.
Очевидно, что эта методика не слишком точна и до определенной степени условна. Ведь самые важные новости появляются на сайтах большинства интернет-СМИ практически одновременно, с небольшим интервалом по времени. Поэтому в оценку эксклюзивности новости «Инфоротором» может внести довольно существенный вклад, например, скорость работы RSS того или иного ресурса.
Помимо эксклюзивности, на позицию онлайнового издания в рейтинге серьезно влияет его цитируемость другими сайтами. Здесь все традиционно – чем больше издание цитируют и перепечатывают, тем выше оказывается его информационный индекс.
Данные о посетителях собираются при помощи специальных счетчиков, которые участники проекта устанавливают на своих сайтах. Причём их установка не является обязательным условием участия в рейтинге и без нее вполне можно обойтись. И некоторые издания обходятся. Например, на Ленте.ру обнаружить счетчик «Инфоротора» не удалось, хотя сайт является участником проекта. При этом отсутствие счетчика и, как результат, данных о количестве посетителей серьезно влияет на итоговую позицию ресурса. И далеко не в лучшую сторону. Ибо в случае отсутствия счетчика посещаемость сайта оценивается «Инфоротором» как нулевая.
В результате такого «либерализма», который проявляют разработчики к установке счетчиков на сайтах-участниках проекта, соответствие выводимого рейтинга объективной реальности вызывается очень большие сомнения. Так, например, в пятерку самых посещаемых СМИ «Инфоротора» не попала все та же Лента.ру, хотя на момент подготовки данной статьи на ней уже отметилось более 600 тыс. посетителей согласно счётчику Mail.ru. При этом лидером в рейтинге посещений значится сайт Радио «Свобода» со средней посещаемостью 63 тыс. человек в сутки. Он же возглавляет и пятерку лучших интернет-СМИ в глобальном рейтинге «Инфоротора». А Лента.ру в итоге не то, что не попадает в эту пятерку, так и вообще – занимает лишь 131 место. Очевидно, что объективностью здесь и не пахнет. И все лишь потому, что на сайте Радио «Свобода» есть счетчик «Инфоротора», а на Ленте.ру – нет.
Поэтому разработчикам рейтинга следует либо отказаться от включения в него такого параметра, как посещаемость сайта, либо перейти на использование каких-либо внешних метрик. Первый вариант, очевидно, малопригоден ввиду того, что резко уменьшает полезность рейтинга, в первую очередь, для рекламодателей. Внешние же метрики – например, Alexa – не так точны, как показатели счетчиков. Но учитывая, что от всех значимых интернет-СМИ добиться установки счетчика в любом случае невозможно, то даже сравнительно невысокая точность Alexa лучше, чем ничего. Или того, что есть сейчас.
С другой стороны, для повышения объективности рейтинга его организаторам следует добиться куда большей представительности в нем интернет-ресурсов, чем на данный момент. Для решения этой задачи, вероятнее всего, необходимо отказаться от жёсткого условия, требующего от СМИ полнотекстовых RSS, а заняться самостоятельным анализом контента всех представленных в рейтинге сайтов. Эта задача, конечно, непростая, но и не невозможная – технологии извлечения новостей из контента веб-страниц сегодня уже существуют, передаёт «Руформатор».