Причуды рейтинга
Feb. 23rd, 2008 05:41 pmУ меня было сильнейшее предчувствие, что пост в
nytimesinmoscow, собравший за сутки 1408 комментариев и 48 прямых ссылок (в том числе от
drugoi,
nl,
peresedov, автора этих строк, из
ru_politics и других высокорейтинговых блогов), не попадёт ни в пятёрку, ни даже в тридцатку топов Яндекса. Предчувствие меня не обмануло.
Тут, конечно, великое раздолье для конспирологов — задуматься, кто и по какой причине вручную заблокировал в топах запись, которой место в первой строчке по всем официальным яндекс.критериям рейтингования. Но ларчик открывается проще, и не стоит искать злой умысел там, где его нет. Алгоритм как бы автоматического составления списка топовых записей включает столь же автоматические блокировки по разным формальным критериям, не имеющим никакого отношения ни к чему, кроме конкретных условий, когда эти стопперы были добавлены в борьбе с той или иной накруткой. Как антиспамовый фильтр отправляет некоторую часть нужных писем в мусорку, так и стопперы в яндекс.топах регулярно режут именно те записи, которые должны были бы возглавить рейтинг, если б не ошибки алгоритма.
Если яндекс.рейтинг подвергается за это более жёсткой критике, чем антиспамные фильтры, то дело тут не во вселенской несправедливости, а в том всего лишь, что разработчики антиспамов честно и открыто говорят о возможности false positives, и призывают пользователей иногда в спамный ящик заглядывать, или хотя бы искать по нему, если нужное письмо затерялось. А администрация яндекс.рейтинга ни разу на моей памяти не признала существования в нём искажений, ни в принципе, ни по конкретным примерам. Ни разу речь не зашла не только об исправлении этих ошибок при обнаружении, но даже о простом признании их наличия. Думаю, если бы разработчики антиспама заявили, что false positives не существует, на них не меньше бы шишек посыпалось.
Bonus Track: Интересно, что при всей этой героической борьбе со спамом и накрутками Я.ППБ со свистом всосал пиратский ретранслятор dnevn.ru, куда без ссылки на источник чохом высасываются топовые ЖЖ. Теперь в находках ППБ контрафактные копии наших дневников стоят выше оригиналов. И такие же контрафакты с лирушечки тоже почему-то индексируются на ура, хотя, казалось бы, нет ни малейшей проблемы запретить индексирование всего этого мусора одним флажком.
Тут, конечно, великое раздолье для конспирологов — задуматься, кто и по какой причине вручную заблокировал в топах запись, которой место в первой строчке по всем официальным яндекс.критериям рейтингования. Но ларчик открывается проще, и не стоит искать злой умысел там, где его нет. Алгоритм как бы автоматического составления списка топовых записей включает столь же автоматические блокировки по разным формальным критериям, не имеющим никакого отношения ни к чему, кроме конкретных условий, когда эти стопперы были добавлены в борьбе с той или иной накруткой. Как антиспамовый фильтр отправляет некоторую часть нужных писем в мусорку, так и стопперы в яндекс.топах регулярно режут именно те записи, которые должны были бы возглавить рейтинг, если б не ошибки алгоритма.
Если яндекс.рейтинг подвергается за это более жёсткой критике, чем антиспамные фильтры, то дело тут не во вселенской несправедливости, а в том всего лишь, что разработчики антиспамов честно и открыто говорят о возможности false positives, и призывают пользователей иногда в спамный ящик заглядывать, или хотя бы искать по нему, если нужное письмо затерялось. А администрация яндекс.рейтинга ни разу на моей памяти не признала существования в нём искажений, ни в принципе, ни по конкретным примерам. Ни разу речь не зашла не только об исправлении этих ошибок при обнаружении, но даже о простом признании их наличия. Думаю, если бы разработчики антиспама заявили, что false positives не существует, на них не меньше бы шишек посыпалось.
Bonus Track: Интересно, что при всей этой героической борьбе со спамом и накрутками Я.ППБ со свистом всосал пиратский ретранслятор dnevn.ru, куда без ссылки на источник чохом высасываются топовые ЖЖ. Теперь в находках ППБ контрафактные копии наших дневников стоят выше оригиналов. И такие же контрафакты с лирушечки тоже почему-то индексируются на ура, хотя, казалось бы, нет ни малейшей проблемы запретить индексирование всего этого мусора одним флажком.
no subject
Date: 2008-02-23 02:48 pm (UTC)no subject
Date: 2008-02-23 02:50 pm (UTC)no subject
Date: 2008-02-23 02:56 pm (UTC)результаты вас удивят
no subject
Date: 2008-02-23 02:56 pm (UTC)no subject
Date: 2008-02-23 02:57 pm (UTC)no subject
Date: 2008-02-23 02:58 pm (UTC)no subject
Date: 2008-02-23 03:00 pm (UTC)Тогда предлагаю объяснить вот эту ссылку:
http://blogs.yandex.ru/top/?username=e_grishkovets
no subject
Date: 2008-02-23 03:01 pm (UTC)http://deep-water.ru/top/info.php?id=171
http://nl.livejournal.com/robots.txt
no subject
Date: 2008-02-23 03:03 pm (UTC)no subject
Date: 2008-02-23 03:06 pm (UTC)no subject
Date: 2008-02-23 03:07 pm (UTC)no subject
Date: 2008-02-23 03:07 pm (UTC)не "индексируется". а "учитывается в рейтинге блогов", помечено как блог
вот скажем lenta.ru блогом не является и даже очень популярная запись на ленте ру в топ-30 не попадет никогда
а лесной блогом является - и потмоу в топ попадает
НЙТаймс пока просто не учитывается как блог
это быстро исправят, особенно если кто-нибудь подаст заявку на включение его блога в число блогов рунета (там есть форма специальная на блогояндексе)
прогришковца не знаю, счас посмотрю
no subject
Date: 2008-02-23 03:11 pm (UTC)он вроде еще несколько дней назад был в рейтинге, если я, конечно, не путаю его с кем-то
у яндекса бывают глюки, да
no subject
Date: 2008-02-23 03:17 pm (UTC)Заявка подана дважды: до старта проекта и через сутки после его запуска.
Так что о быстром исправлении говорить не приходится.
no subject
Date: 2008-02-23 03:18 pm (UTC)Операвтивность не входит в число достоинств российских интернет-ресурсов
no subject
Date: 2008-02-23 03:19 pm (UTC)пользуются бесплатными почтовыми ящиками, а потом ещё и жалуются. смешные люди.
no subject
Date: 2008-02-23 03:20 pm (UTC)no subject
Date: 2008-02-23 03:21 pm (UTC)Не могут же они и в самом деле признать, что в реальности этот мегаалгоритм представляет собой набор волюнтаристских и меняющихся чуть ли не ежедневно правил и поправок к коэффициентам, усугубленный к тому же периодическим ручным вмешательством.
no subject
Date: 2008-02-23 03:22 pm (UTC)Например, при забирании почты из ящика @gmail.com в ящик платного сервиса @Google for domains, теряется от 50 до 80% свежей почты.
no subject
Date: 2008-02-23 03:23 pm (UTC)Нормальные люди, читают ЖЖ, пишут в ЖЖ, отвечают на замечания...
Вот, например, выше:
http://dolboeb.livejournal.com/1170423.html?thread=45464311#t45464311
no subject
Date: 2008-02-23 03:25 pm (UTC)no subject
Date: 2008-02-23 03:25 pm (UTC)no subject
Date: 2008-02-23 03:28 pm (UTC)Ни один суд на свете не примет подобный иск.
И слава Богу, потому что простор для мошенничества открывался бы грандиозный, а уровень риска был бы таков, что ни один интернет-сервис не мог бы существовать.
no subject
Date: 2008-02-23 03:32 pm (UTC)Мы индексируем все существующие блоги для Яндекс.Ленты, а также для того, чтобы, если блоггер передумает в будущем, для поиска стал бы доступен весь его журнал, а не только 25 последних записей из RSS.
Мы уважаем право на privacy пользователей, поэтому поиск по журналам тех, кто закрыл их, невозможен.
Кстати - для некоторых пользователей ЖЖ файла robots.txt просто не существует (например, для тех, у кого юзернеймы начинаются с подчёркивания:
no subject
Date: 2008-02-23 03:34 pm (UTC)почти так же удивительно как отсутствие