dolboed: (0kozel)
[personal profile] dolboed
Оказывается, при индексации постов Твитыря в Яндекс.Поиске возможно смысловое редактирование.
Вот, написал я 11 июля из Дубровника: Хорватия оказалась очень похожа на Италию, только дешевле, и куны вместо €
В базе ЯППБ та же запись гласит:
Хорватия оказалась очень похожа на Италию, только дешевле, и куны вместо $

Когда там матюги на звёздочки меняют, это ещё можно как-то понять и объяснить соображениями пристойности. Но автозамена € на $ — какая-то совсем уж загадочная редактура.

Date: 2009-07-21 08:01 am (UTC)
From: [identity profile] ded_flint.livejournal.com
ну не было у них в наличии евро, только доллары, вот и поставили

Date: 2009-07-21 08:03 am (UTC)
From: [identity profile] sumlenny.livejournal.com
тогда надо было написать "1,4195 $".

Гм...

Date: 2009-07-21 08:04 am (UTC)
From: [identity profile] alex-kraine.livejournal.com
Любопытно.

Яндекс вообще лох

Date: 2009-07-21 08:10 am (UTC)
From: [identity profile] pycuk.livejournal.com
Юзайте Google.

Date: 2009-07-21 08:21 am (UTC)
From: [identity profile] anril.livejournal.com
у них есть опция отключения мата? ведь safe search можно включать и выключать, пусть звездочки тоже этой опцией управляются...

Date: 2009-07-21 10:48 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Для вывода заголовков топовых записей на морду ЯППБ включён фильтр.
В кэшированных версиях самих записей мат-перемат в нетронутом виде:
http://blogs.yandex.ru/search.xml?text=хуй

Date: 2009-07-21 08:22 am (UTC)
From: [identity profile] kukutz.livejournal.com
Антон, ну очевидно же, что это не "редактирование", а фигня с кодировками. Разберёмся, возможно ли её быстро починить.

--
Роман Иванов, Яндекс

Date: 2009-07-21 09:04 am (UTC)
From: [identity profile] erendir.livejournal.com
Мне вот чисто с программистской точки зрения интересно, в какой паре кодировок $ и € совпадают?..

Date: 2009-07-21 10:03 am (UTC)
From: [identity profile] mikser.livejournal.com
Тоже очень интересно! :)

Date: 2009-07-21 10:30 am (UTC)
From: [identity profile] kukutz.livejournal.com
В внутренней кодировке Яндекс.Сервера, очевидно. Это моя гипотеза, я ещё не дошёл до инженеров.

Date: 2009-07-21 10:45 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Самое смешное в другом, если ты внимательно посмотришь на сохранённую версию (http://blogs.yandex.ru/cachedcopy.xml?f=1ab65f5e95a1984b3104ccebe98b8735&i=76&m=http%3A%2F%2Ftwitter.com%2Fdolboed%2Fstatuses%2F2588872647): в том болде, который там исполняет функцию заголовка, знак евро сохранился в неприкосновенности.

Date: 2009-07-21 10:57 am (UTC)
From: [identity profile] kukutz.livejournal.com
Что и показывает со всей очевидностью, что это баг, а не умысел.

Date: 2009-07-21 11:00 am (UTC)
From: [identity profile] valshooter.livejournal.com
Роман, а ППБ что, до сих пор 1251?

Date: 2009-07-21 11:35 am (UTC)
From: [identity profile] valshooter.livejournal.com
ага, в целом — нет, а cachedcopy.xml — да.

Я даже боюсь представить, какой там код.

Date: 2009-07-21 02:51 pm (UTC)
From: [identity profile] kukutz.livejournal.com
Чего "да"? Не "да". Нет.

Date: 2009-07-21 03:11 pm (UTC)
From: [identity profile] valshooter.livejournal.com
text/html; charset=windows-1251 (http://blogs.yandex.ru/cachedcopy.xml?f=1ab65f5e95a1984b3104ccebe98b8735&i=76&m=http%3A%2F%2Ftwitter.com%2Fdolboed%2Fstatuses%2F2588872647) (ну и в мете, чтоб наверняка)

а остальные страницы (из проверенных) в utf8

Date: 2009-07-21 11:15 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Разумеется, это баг, а не умысел.
Я не подозреваю ни тебя, ни кого-либо из твоих сотрудников в коллективном помешательстве или вредительстве.

Просто это тот редкий случай, когда баг влияет не на доступность текста, а на его прямой смысл. Если б там знак евро менялся на решёточку, звёздочку, вопросительные знаки - я б не обратил внимания вообще.

Date: 2009-07-21 02:45 pm (UTC)
From: [identity profile] anton.livejournal.com
Любой символ валюты менялся на знак доллара

Date: 2009-07-23 02:36 pm (UTC)
From: [identity profile] http://users.livejournal.com/grisha_/
В яндекс-почте тоже было похожее.

Date: 2009-07-21 12:54 pm (UTC)
From: [identity profile] 2kan.livejournal.com
Все равно не очевидно :)

Date: 2009-07-21 02:52 pm (UTC)
From: [identity profile] kukutz.livejournal.com
Ну вон внизу Антон ответил, что да как.

Date: 2009-07-21 02:46 pm (UTC)
From: [identity profile] anton.livejournal.com
В одной из [старых] кодировок Яндекс.Сервера есть всего один символ для всех валют. А ещё там есть один символ для любых иероглифов.

Date: 2009-07-21 03:23 pm (UTC)
From: [identity profile] valshooter.livejournal.com
Спасибо.

А почему cachedcopy.xml выдаёт 1251, а остальные страницы в UTF8?

Date: 2009-07-21 03:23 pm (UTC)
From: [identity profile] dolboeb.livejournal.com
Спасибо, понял. :)
Забавно, что в cachedcopy.xml эта [старая] кодировка используется наравне с новой.

Date: 2009-07-21 08:22 am (UTC)
From: [identity profile] alan-steel.livejournal.com
"Когда там матюги на звёздочки меняют, это ещё можно как-то понять и объяснить соображениями пристойности."

Распространённое заблуждение. Нельзя быть немного беременной.

Либо ты уважаешь права автора и поэтому выдаёшь его текст без изменений (как вариант если текст неприемлем по каким-то причинам - не кешируешь вовсе), либо считаешь, что у автора нет никаких прав на текст и позволяешь себе редакторскую работу.

Очевидно, Яндекс плевал на ваши права.

Date: 2009-07-21 10:32 am (UTC)
From: [identity profile] kukutz.livejournal.com
Мы не меняем текст автора, звё***здочки есть только в сниппетах популярных записей, а любой сниппет по определению — некоторая выдержка из текста.

Date: 2009-07-21 08:27 am (UTC)
From: [identity profile] satomiko.livejournal.com
мне здесь вместо драм в долларах цены говорят. хорошо, что в магазинах еще на доллары не перешли.

Date: 2009-07-21 09:22 am (UTC)
sergey_cheban: (Default)
From: [personal profile] sergey_cheban
В одном из разговорников Ectaco фраза "Do you speak english?" переводилась как "Говорите ли Вы по-русски?". И примерно то же самое было с километрами/милями и килограммами/фунтами.

Date: 2009-07-21 09:32 am (UTC)
From: [identity profile] alexkuklin.livejournal.com
Видимо, у там в кодировке нет символа € и где-то закопалось гениальное решение проблемы путем замены на $ :)

Date: 2009-07-21 10:46 am (UTC)
From: [identity profile] dolboeb.livejournal.com
Там всё ещё смешней:
http://dolboeb.livejournal.com/1606962.html?thread=75941170#t75941170

Date: 2009-07-21 02:43 pm (UTC)
From: [identity profile] anton.livejournal.com
При выводе сохранённой копии записи мы на одном из этапов переводили её в кодировку, где был только один символ для всех возможных валют =)

Спасибо за сообщение, ошибку поправили, теперь всё выводится правильно:
http://blogs.yandex.ru/cachedcopy.xml?f=1ab65f5e95a1984b3104ccebe98b8735&i=76&m=http%3A%2F%2Ftwitter.com%2Fdolboed%2Fstatuses%2F2588872647

Date: 2009-07-21 03:12 pm (UTC)
From: [identity profile] valshooter.livejournal.com
а скажите, в какую? в 1251 евро есть, в utf8 тоже. в какую вы конвертировали, что русские буквы есть, а евро нет?

Date: 2009-07-21 03:20 pm (UTC)
From: [identity profile] anton.livejournal.com
Это внутренняя кодировка Яндекс.Сервера, как уже говорил [livejournal.com profile] kukutz.
См. http://dolboeb.livejournal.com/1606962.html?thread=75954738#t75954738

Date: 2009-07-21 07:37 pm (UTC)
From: [identity profile] a-kutischev.livejournal.com
хм, не знал, что куна как мера стоимости до сих пор жива, хоть и реинкарнации. любопытно

Profile

dolboed: (Default)
Anton Nossik

April 2017

S M T W T F S
       1
23 45678
9 10 11 12 13 14 15
16 17 18 19 202122
23 24 25 26 27 2829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 17th, 2026 04:30 am
Powered by Dreamwidth Studios