процесс примерно такой: есть список rss-потоков, которые обрабатывает news.yandex. их надо регистрировал на сайте, само ниче обрабатываться не будет, в отличии от поисковика как только один из сайтов выдает в свой rss новость, news.yandex ее подхватывает, если до этого "похожих" не было, считает "первой" и пляшет от нее, выискивая далее в новых статьях в потоках такие же ключевые слова потому и ошибки бывают, например, как та, что я картинку в пример приводил кто-то писал про дерипаску и ввернул в текст про ходора, мол, тоже из этих, да с фоткой а яндекс это просек и фотку ходора показывает как иллюстрацию к блоку статей про дерипаску как-то так
Так бы оно так, но у этих трех (1 (http://www.utro.ru/news/2007/02/24/627603.shtml),2 (http://www.championat.ru/news-34614.html),3 (http://www.bulvar.com.ua/arch/2007/8/45dd86f553f82/)) статей пересечений по смыслу нет. То есть, у меня есть сильное подозрение, что в рсс-записи, кроме собственно новости, попавшая в заголовок utro.ru сбросила еще какое-то не относящееся к делу дерьмо.. Судя по cl4url, основой для построения сюжета служит какая-то одна статья.
Еще, возможно, что получая рсс запись, яндекс идет на референцируемую в записи статью и подчитывает все содержимое, а не только то, что было в, собственно, записи. Попадаются ссылки на другие новости, которые, в результате, вносят шум.
no subject
Date: 2007-02-24 11:01 pm (UTC)есть список rss-потоков, которые обрабатывает news.yandex. их надо регистрировал на сайте, само ниче обрабатываться не будет, в отличии от поисковика
как только один из сайтов выдает в свой rss новость, news.yandex ее подхватывает, если до этого "похожих" не было, считает "первой" и пляшет от нее, выискивая далее в новых статьях в потоках такие же ключевые слова
потому и ошибки бывают, например, как та, что я картинку в пример приводил
кто-то писал про дерипаску и ввернул в текст про ходора, мол, тоже из этих, да с фоткой
а яндекс это просек и фотку ходора показывает как иллюстрацию к блоку статей про дерипаску
как-то так
no subject
Date: 2007-02-24 11:15 pm (UTC)Судя по cl4url, основой для построения сюжета служит какая-то одна статья.
Еще, возможно, что получая рсс запись, яндекс идет на референцируемую в записи статью и подчитывает все содержимое, а не только то, что было в, собственно, записи. Попадаются ссылки на другие новости, которые, в результате, вносят шум.
no subject
Date: 2007-02-24 11:17 pm (UTC)