Причуды рейтинга
Feb. 23rd, 2008 05:41 pmУ меня было сильнейшее предчувствие, что пост в
nytimesinmoscow, собравший за сутки 1408 комментариев и 48 прямых ссылок (в том числе от
drugoi,
nl,
peresedov, автора этих строк, из
ru_politics и других высокорейтинговых блогов), не попадёт ни в пятёрку, ни даже в тридцатку топов Яндекса. Предчувствие меня не обмануло.
Тут, конечно, великое раздолье для конспирологов — задуматься, кто и по какой причине вручную заблокировал в топах запись, которой место в первой строчке по всем официальным яндекс.критериям рейтингования. Но ларчик открывается проще, и не стоит искать злой умысел там, где его нет. Алгоритм как бы автоматического составления списка топовых записей включает столь же автоматические блокировки по разным формальным критериям, не имеющим никакого отношения ни к чему, кроме конкретных условий, когда эти стопперы были добавлены в борьбе с той или иной накруткой. Как антиспамовый фильтр отправляет некоторую часть нужных писем в мусорку, так и стопперы в яндекс.топах регулярно режут именно те записи, которые должны были бы возглавить рейтинг, если б не ошибки алгоритма.
Если яндекс.рейтинг подвергается за это более жёсткой критике, чем антиспамные фильтры, то дело тут не во вселенской несправедливости, а в том всего лишь, что разработчики антиспамов честно и открыто говорят о возможности false positives, и призывают пользователей иногда в спамный ящик заглядывать, или хотя бы искать по нему, если нужное письмо затерялось. А администрация яндекс.рейтинга ни разу на моей памяти не признала существования в нём искажений, ни в принципе, ни по конкретным примерам. Ни разу речь не зашла не только об исправлении этих ошибок при обнаружении, но даже о простом признании их наличия. Думаю, если бы разработчики антиспама заявили, что false positives не существует, на них не меньше бы шишек посыпалось.
Bonus Track: Интересно, что при всей этой героической борьбе со спамом и накрутками Я.ППБ со свистом всосал пиратский ретранслятор dnevn.ru, куда без ссылки на источник чохом высасываются топовые ЖЖ. Теперь в находках ППБ контрафактные копии наших дневников стоят выше оригиналов. И такие же контрафакты с лирушечки тоже почему-то индексируются на ура, хотя, казалось бы, нет ни малейшей проблемы запретить индексирование всего этого мусора одним флажком.
Тут, конечно, великое раздолье для конспирологов — задуматься, кто и по какой причине вручную заблокировал в топах запись, которой место в первой строчке по всем официальным яндекс.критериям рейтингования. Но ларчик открывается проще, и не стоит искать злой умысел там, где его нет. Алгоритм как бы автоматического составления списка топовых записей включает столь же автоматические блокировки по разным формальным критериям, не имеющим никакого отношения ни к чему, кроме конкретных условий, когда эти стопперы были добавлены в борьбе с той или иной накруткой. Как антиспамовый фильтр отправляет некоторую часть нужных писем в мусорку, так и стопперы в яндекс.топах регулярно режут именно те записи, которые должны были бы возглавить рейтинг, если б не ошибки алгоритма.
Если яндекс.рейтинг подвергается за это более жёсткой критике, чем антиспамные фильтры, то дело тут не во вселенской несправедливости, а в том всего лишь, что разработчики антиспамов честно и открыто говорят о возможности false positives, и призывают пользователей иногда в спамный ящик заглядывать, или хотя бы искать по нему, если нужное письмо затерялось. А администрация яндекс.рейтинга ни разу на моей памяти не признала существования в нём искажений, ни в принципе, ни по конкретным примерам. Ни разу речь не зашла не только об исправлении этих ошибок при обнаружении, но даже о простом признании их наличия. Думаю, если бы разработчики антиспама заявили, что false positives не существует, на них не меньше бы шишек посыпалось.
Bonus Track: Интересно, что при всей этой героической борьбе со спамом и накрутками Я.ППБ со свистом всосал пиратский ретранслятор dnevn.ru, куда без ссылки на источник чохом высасываются топовые ЖЖ. Теперь в находках ППБ контрафактные копии наших дневников стоят выше оригиналов. И такие же контрафакты с лирушечки тоже почему-то индексируются на ура, хотя, казалось бы, нет ни малейшей проблемы запретить индексирование всего этого мусора одним флажком.
no subject
Date: 2008-02-23 02:48 pm (UTC)no subject
Date: 2008-02-23 02:50 pm (UTC)no subject
Date: 2008-02-23 03:00 pm (UTC)Тогда предлагаю объяснить вот эту ссылку:
http://blogs.yandex.ru/top/?username=e_grishkovets
no subject
Date: 2008-02-23 03:11 pm (UTC)он вроде еще несколько дней назад был в рейтинге, если я, конечно, не путаю его с кем-то
у яндекса бывают глюки, да
no subject
Date: 2008-02-23 03:34 pm (UTC)почти так же удивительно как отсутствие
no subject
Date: 2008-02-23 03:55 pm (UTC)То, что он не находится по своему нику - это ошибка, причины которой мы выясним и фпостараемся исправить в максимально возможно короткий срок.
Про
no subject
Date: 2008-02-23 09:08 pm (UTC)ты (или кто у вас там это делает) меня, часом не "забанил" в топ-30? и если да, то за что?
no subject
Date: 2008-02-24 02:52 am (UTC)просто смешно было - сегодня я дал пару ссылок на чужие старые (прошлогодние) посты, и они немедленно попали в топ-30, а вот я сам нет попадал
все-все, больше не лезу с вопросами
no subject
Date: 2008-02-24 02:56 am (UTC)все равно не понимаю
ко мне пришел топбот-робот, а в 30энтрис меня так и нету
no subject
Date: 2008-02-26 12:42 pm (UTC)no subject
Date: 2008-02-23 03:01 pm (UTC)http://deep-water.ru/top/info.php?id=171
http://nl.livejournal.com/robots.txt
no subject
Date: 2008-02-23 03:03 pm (UTC)no subject
Date: 2008-02-23 03:20 pm (UTC)no subject
Date: 2008-02-23 03:32 pm (UTC)Мы индексируем все существующие блоги для Яндекс.Ленты, а также для того, чтобы, если блоггер передумает в будущем, для поиска стал бы доступен весь его журнал, а не только 25 последних записей из RSS.
Мы уважаем право на privacy пользователей, поэтому поиск по журналам тех, кто закрыл их, невозможен.
Кстати - для некоторых пользователей ЖЖ файла robots.txt просто не существует (например, для тех, у кого юзернеймы начинаются с подчёркивания:
no subject
Date: 2008-02-26 12:41 pm (UTC)no subject
Date: 2008-02-23 06:58 pm (UTC)Дано:
User-Agent: *
Disallow: /
Мнение "Яндекса" о том, может ли он лезть:
http://www.yandex.ru/cgi-bin/test-robots?host=http%3A%2F%2Fnl.livejournal.com%2Frobots.txt
Правила "Яндекса" по управлению индексацией:
http://webmaster.yandex.ru/faq.xml
Вопрос: является ли подобная индексация сервера роботом при явно обозначенном ее запрете (что явным образом нарушает собственные правила "Яндекса" для своего робота), сбоем в его работе, и собирается ли "Яндекс" исправить это положение?
no subject
Date: 2008-02-24 12:30 am (UTC)У Поиска по блогам и Ленты общая база фидов, поэтому мы индексируем все блоги.
Веб-поиск, конечно, твой дневник не индексирует ни в каком виде.
no subject
Date: 2008-02-24 10:39 am (UTC)no subject
Date: 2008-02-23 03:07 pm (UTC)не "индексируется". а "учитывается в рейтинге блогов", помечено как блог
вот скажем lenta.ru блогом не является и даже очень популярная запись на ленте ру в топ-30 не попадет никогда
а лесной блогом является - и потмоу в топ попадает
НЙТаймс пока просто не учитывается как блог
это быстро исправят, особенно если кто-нибудь подаст заявку на включение его блога в число блогов рунета (там есть форма специальная на блогояндексе)
прогришковца не знаю, счас посмотрю
no subject
Date: 2008-02-23 03:17 pm (UTC)Заявка подана дважды: до старта проекта и через сутки после его запуска.
Так что о быстром исправлении говорить не приходится.
no subject
Date: 2008-02-23 03:18 pm (UTC)Операвтивность не входит в число достоинств российских интернет-ресурсов
no subject
Date: 2008-02-24 09:06 pm (UTC)no subject
Date: 2008-02-24 10:16 pm (UTC)