Как ищут люди
Oct. 28th, 2004 01:50 pmВ Америке выходит книжка Web Search: Public Searching of the Web. В заголовки, естественно, выносится открытие авторов, что доля поисковых запросов по сексу снизилась за последние 7 лет с 20% до 8-10% в Европе и до 5% в США. Мне, однако, больше понравился другой комментарий:
What hasn't changed much in seven years is how hard people are willing to work at searching. The answer: Not very. Spink and Jansen found that people averaged about two words per query and two queries per search session. <...> "We were surprised that people weren't doing more complex searches," Spink said. "If you put a couple of words into the Web, you're going to get hundreds of thousands of results. I think people aren't trained very well to use the search engines."
Неделю назад я писал ровно о том же, основываясь на собственном опыте. Теперь выясняется, что исследователи, потрудившиеся статистически обработать миллион запросов на предмет search patterns, пришли к тем же выводам.
What hasn't changed much in seven years is how hard people are willing to work at searching. The answer: Not very. Spink and Jansen found that people averaged about two words per query and two queries per search session. <...> "We were surprised that people weren't doing more complex searches," Spink said. "If you put a couple of words into the Web, you're going to get hundreds of thousands of results. I think people aren't trained very well to use the search engines."
Неделю назад я писал ровно о том же, основываясь на собственном опыте. Теперь выясняется, что исследователи, потрудившиеся статистически обработать миллион запросов на предмет search patterns, пришли к тем же выводам.
no subject
Date: 2004-10-28 03:27 am (UTC)no subject
Date: 2004-10-28 04:02 am (UTC)no subject
Date: 2004-10-28 04:34 am (UTC)no subject
Date: 2004-10-28 04:35 am (UTC)Движок проиндексировал все, что надо и найдет то, что требуют. А вот запрос невербальный в поисковую фразу он ну никак перевести не сможет.
no subject
Date: 2004-10-28 04:42 am (UTC)And it's why search engine companies — and the creators of the Web pages they're sifting through — are trying to develop technology to help computer users hone in on desired results and filte— out the rest.
----
оффтоп:
hone in on desired results .... 'заточить' под результат. Всегда думал, что 'заточить что-то подо что-то' это специфическое русское постперестроечное выражение. Ан нет.
мммм .... уж не Брин ли писал аннотацию? :)
no subject
Date: 2004-10-28 04:54 am (UTC)Темы побочных интересов хозяев поисковиков вообще не хочу касаться.
no subject
Date: 2004-10-28 04:55 am (UTC)no subject
Date: 2004-10-28 05:02 am (UTC)Это когда хочется найти "лучшие венгерские диско композиции 70х годов" а пищут "музыка венгрия 70".
Невербальным будет тот, что был у запрашивателя в голове. К сожалению, восстановить его по реально введенной поисковой фразе, мягко говоря сложно.
no subject
Date: 2004-10-28 05:25 am (UTC)Но Вы же не будете сваливать на автопроизводителя ответственность за все аварии, в которые попал человек без прав и опыта вождения.
Та же история с поиском в Интернете. В одном и том же Яндексе неленивый пользователь находит в 100 раз больше полезных для себя вещей, чем ленивый. Валить ответственность за это на Яндекс - это с больной головы на здоровую.
Коммерческое давление на поисковики приводит как раз к тому, что в транзакционном поиске (поиск товаров) дела идут чем дальше, тем хуже. У крупных брендов, у которых в России самые высокие цены в силу сопутствующих затрат, есть больше денег на выкуп контекстной рекламы и на поисковую оптимизацию, чем у мелких фирмешек, которые забыли включить в цену того же самого товара аренду мегаофисов, квадратный километр наружки и сайт от Темы Лебедева. Поэтому за неумение искать платит сам пользователь.
no subject
Date: 2004-10-28 06:00 am (UTC)Насколько часто слово встречается в тексте, длину текста, частоту слова во всей базе данных, слова наиболее часто встречающиеся вместе с этим словом, взаимное соотношение частоты введённых слов в данном документе и относительно всей базы (в запросе "президент Буш Ирак" сочетание "Буш Ирак" важнее чем "президент Буш"), сочетания наиболее часто сопутствуюших слов, и многое ещё. Даже по "музыка Венгрия 70" хороший поисковик будет близок к тому, что надо.
Если интересно могу поискать ссылку на наш патент.
Для плохого поисковика использование лишнего слова ухудшает результаты поиска, хотя бы потому, что он не учитывает все синонимы.
no subject
Date: 2004-10-28 06:56 am (UTC)no subject
Date: 2004-10-28 07:05 am (UTC)Эффективность поиска всех распространённых поисковиков сильно различается. Если не лень попробуйте один и тот же большой запрос в разных местах и проведите исследование.
Сравнивать методы напрямую не получается поскольку только Гугл открыто выложил свои алгоритмы в интернете.
no subject
Date: 2004-10-28 07:40 am (UTC)Если пользователь не нуждается в костылях, то такую штуку можно было бы отключать и тд.
no subject
Date: 2004-10-28 08:39 am (UTC)Во время оно даже телевизор у "специалистов" стоял весь раскрытый, и они при необходимости подкручивали потенциометры. Остальные смотрели мутную картинку. Когда телевизеры стали совершеннее, качество картинки стало у всех почти одинаковым.
no subject
Date: 2004-10-28 09:25 am (UTC)no subject
Date: 2004-10-28 01:12 pm (UTC)no subject
Date: 2004-10-28 02:58 pm (UTC)В противоположность поисковику.
Где каждому дается то, что он попросил, а не некий универсальный ответ на все вопросы, типа 42.
no subject
Date: 2004-10-28 05:34 pm (UTC)Что вместо сел-поехал их заставят сначала узнать, что первая скорость - это налево и вперед, а четвертая - направо и назад.
no subject
Date: 2004-10-28 10:52 pm (UTC)С другой стороны, в самом деле бывает обидно, когда высокое искусство, доступное Мастерам, превращается в рутину, которая по плечу каждому профану. К счастью, как мне кажется, с поиском это произойдет не скоро.
no subject
Date: 2004-10-28 11:06 pm (UTC)Если верить акроним_файндеру (http://www.acronymfinder.com/af-query.asp?String=exact&Acronym=RTFM&Find=Find), то RTFM, помимо Read the F**KING MANUAL, означает Realtime Traffic Flow Measurement (Internet RFCs 2720-2724).
Своевременное переключение передач помогает сохранять окружающую среду. По аналогии - была бы на клиентской части 'расческа', помогающая причесать запрос, возможно, глобальный RTFM-приборчик реже зашкаливало бы.
Интересно, сколько "весит" средний плохо сформулированный запрос, и какую часть интернет-траффика составляют такие запросы?
no subject
Date: 2004-10-28 11:14 pm (UTC)по поводу автомобильной метафоры
Date: 2004-10-29 04:10 am (UTC)"If you can type and spell -- and most search engines help with spelling -- then you can pretty much conduct Web searches," Jansen said. "It's like today's cars: If you can turn the key, you don't need to know much else about the automobile."