Странности Гугла
Jul. 24th, 2007 07:53 pmНекоторые думают, что Гугл от Яндекса отличается строгостью соответствий.
Скажем, Яндекс любую мужскую фамилию на -ев воспринимает как деепричастие совершенного вида, раскладывает на все возможные глагольные формы, и любую из них сочтёт релевантной по запросу (например: лебедеть, лебедею, лебедеешь и т.п. — это всё, по версии Яндекса, релевантные находки по запросу "Лебедев", и они будут подсвечены в выдаче, ежели вдруг найдутся; наоборот, Лебедев окажется релевантен запросу "лебедеть"). А Гугл, хоть и продвинулся слегка за последнюю пятилетку в осознании факта, что в русском языке существительные склоняются, глаголы спрягаются, а прилагательные имеют род, всё же этим ценным знанием не злоупотребляет. Поэтому если в Интернете нет слова лужковать, то Гугл честно нам скажет, что его нет, а Яндекс исправно найдёт 670 страниц на 28 серверах, где нет этого слова (но есть родительный падеж фамилии Лужков, склеенный со следующей буквой — например, ЛужковаВ или ЛужковаЮ, что Яндексом однозначно воспринимается как формы соответствующего глагола, и подсвечивается как находка)1. Нельзя сказать, что один поисковик по этой причине ищет лучше другого, просто полезно бывает знать эти особенности, и их учитывать при составлении запросов. В одних ситуациях важней точный ответ (в том числе — отрицательный); в других, наоборот, нечёткое соответствие чревато полезными подсказками.
Но только что я обнаружил в Гугле забавнейший глюк, который идёт вразрез с его привычным поведением.
Оказывается, Гугл считает, что кириллическая буква "ю", как строчная, так и прописная, является полным синонимом мужского имени Юрий. Поиск в Гугле этой буквы выдаёт находки, где имя Юрий подсвечено жирным шрифтом. При этом, когда мы заходим в кэшированную версию найденных страниц, подсветка "Юрия" заканчивается. Кто-нибудь наблюдал другие примеры такой шизофрении в Гугле, когда одно и то же слово одновременно считается и не считается находкой?
Update: разгадка оказалась проста. Это так Гугл сокращения разворачивает.
Пример: http://www.google.com/search?q=ie
При этом вылезли другие глюки: разным пользователям Google.Ru и Google.Com по-разному выдаёт эту подсветку, причём по одной и той же ссылке с моего поста. Причины выясняются.
_________________________________________
1. При этом обоим поисковикам, в силу особенностей работы PageRank, может прийти в голову выдать документ, вообще не содержащий искомого слова, если оно встречалось в ссылках на данный документ. В таких случаях прямо сообщается, что искомое слово найдено в ссылках. These terms only appear in links pointing to this page, — признаётся Гугл, а Яндекс сереньким цветом пишет текст ссылок:
Скажем, Яндекс любую мужскую фамилию на -ев воспринимает как деепричастие совершенного вида, раскладывает на все возможные глагольные формы, и любую из них сочтёт релевантной по запросу (например: лебедеть, лебедею, лебедеешь и т.п. — это всё, по версии Яндекса, релевантные находки по запросу "Лебедев", и они будут подсвечены в выдаче, ежели вдруг найдутся; наоборот, Лебедев окажется релевантен запросу "лебедеть"). А Гугл, хоть и продвинулся слегка за последнюю пятилетку в осознании факта, что в русском языке существительные склоняются, глаголы спрягаются, а прилагательные имеют род, всё же этим ценным знанием не злоупотребляет. Поэтому если в Интернете нет слова лужковать, то Гугл честно нам скажет, что его нет, а Яндекс исправно найдёт 670 страниц на 28 серверах, где нет этого слова (но есть родительный падеж фамилии Лужков, склеенный со следующей буквой — например, ЛужковаВ или ЛужковаЮ, что Яндексом однозначно воспринимается как формы соответствующего глагола, и подсвечивается как находка)1. Нельзя сказать, что один поисковик по этой причине ищет лучше другого, просто полезно бывает знать эти особенности, и их учитывать при составлении запросов. В одних ситуациях важней точный ответ (в том числе — отрицательный); в других, наоборот, нечёткое соответствие чревато полезными подсказками.
Но только что я обнаружил в Гугле забавнейший глюк, который идёт вразрез с его привычным поведением.
Оказывается, Гугл считает, что кириллическая буква "ю", как строчная, так и прописная, является полным синонимом мужского имени Юрий. Поиск в Гугле этой буквы выдаёт находки, где имя Юрий подсвечено жирным шрифтом. При этом, когда мы заходим в кэшированную версию найденных страниц, подсветка "Юрия" заканчивается. Кто-нибудь наблюдал другие примеры такой шизофрении в Гугле, когда одно и то же слово одновременно считается и не считается находкой?
Update: разгадка оказалась проста. Это так Гугл сокращения разворачивает.
Пример: http://www.google.com/search?q=ie
При этом вылезли другие глюки: разным пользователям Google.Ru и Google.Com по-разному выдаёт эту подсветку, причём по одной и той же ссылке с моего поста. Причины выясняются.
_________________________________________
1. При этом обоим поисковикам, в силу особенностей работы PageRank, может прийти в голову выдать документ, вообще не содержащий искомого слова, если оно встречалось в ссылках на данный документ. В таких случаях прямо сообщается, что искомое слово найдено в ссылках. These terms only appear in links pointing to this page, — признаётся Гугл, а Яндекс сереньким цветом пишет текст ссылок:
no subject
Date: 2007-07-24 03:58 pm (UTC)no subject
Date: 2007-07-24 04:04 pm (UTC)Может, там и находки пофильтрованы как в китайской версии?
no subject
Date: 2007-07-24 04:05 pm (UTC)У меня гугель.ком не выделяет Юрия нигде (ни в выдаче, ни в кеше), а гугельру ведет себя в точности как написал Антон.
no subject
Date: 2007-07-24 04:05 pm (UTC)no subject
Date: 2007-07-24 04:06 pm (UTC)Уже не считает. Так быстро исправили?
no subject
Date: 2007-07-24 04:06 pm (UTC)no subject
Date: 2007-07-24 04:07 pm (UTC)http://dolboeb.livejournal.com/996887.html?thread=33322775#t33322775
no subject
Date: 2007-07-24 04:07 pm (UTC)no subject
Date: 2007-07-24 04:10 pm (UTC)Осталось объяснить, почему она так по-разному реализована в разных ситуациях по одному запросу.
no subject
Date: 2007-07-24 04:13 pm (UTC)no subject
Date: 2007-07-24 04:14 pm (UTC)no subject
Date: 2007-07-24 04:14 pm (UTC)no subject
Date: 2007-07-24 04:14 pm (UTC)no subject
Date: 2007-07-24 04:16 pm (UTC)Юрьев день
Date: 2007-07-24 04:16 pm (UTC)no subject
Date: 2007-07-24 04:17 pm (UTC)Re: Юрьев день
Date: 2007-07-24 04:18 pm (UTC)no subject
Date: 2007-07-24 04:20 pm (UTC)Если же говорить о возможности Гуглу завоевать симпатии какой-то элиты РУНЕТа, то мне Тёма Лебедев показал Гугл в 1998 году, когда домен был ещё третьего уровня, и к 1999 году он стал моим default choice, а в 2001 году я с его помощью выиграл Кубок Яндекса по поиску в Интернете. И как раз в те времена, когда незнание английского было в РУНЕТе экзотикой, а Яндекс только становился на ноги, доля Гугла на русском рынке была выше, чем сегодня.
no subject
Date: 2007-07-24 04:21 pm (UTC)Re: Юрьев день
Date: 2007-07-24 04:21 pm (UTC)http://www.google.com/search?q=ie
no subject
Date: 2007-07-24 04:22 pm (UTC)Что делать?
no subject
Date: 2007-07-24 04:23 pm (UTC)http://www.google.com/search?q=%D1%8E&hl=ru
http://www.google.ru/search?q=%D1%8E&hl=en
http://www.google.ru/search?q=%D1%8E&hl=ru
Четыре разных выдачи.
no subject
Date: 2007-07-24 04:24 pm (UTC)no subject
Date: 2007-07-24 04:29 pm (UTC)http://www.google.ru/search?q=%D1%8E&hl=uk
http://www.google.ru/search?q=%D1%8E&hl=it
no subject
Date: 2007-07-24 04:32 pm (UTC)У Яндекса процесс исправления ошибок и релизов отвратительно поставлен, и не с последнего времени: я их прошу две существенные ошибки в поиске исправить - одну с мая 2006 г., другую с марта 2007 г. - а они только новые плодят.