За последние две недели столкнулся с такой проблемой. Яндексовский робот вместо того, как раньше неспешно индексировать сайт в течении недели, начал чуть ли не каждый день выкачивать его целиком, а иногда и по нескольку раз. Пока, чувствую, придется блокировать доступ к некоторым разделам через robot.txt. Но хотелось бы узнать, у кого-нибудь еще эта (цензура) начала жрать траффик килограммами или это таки мои кривые руки?
Kairel, а у тебя хостинг через кого, и какие условия? Думаю, надо было с этого начать свое сообщение. У меня активность Яндекса не замечена.
Матохин Роман А ты знаешь сколько стоит держать свой сервер? Одним траффиком дело, увы, не ограничивается. micron Причем здесь хостер? Вообще у меня через ruweb.net, сервак физически находится в Москве. По тарифному плану ежемесячно гиг трафика, как раз на 100-150 метров больше среднего. Все было тип-топ, пока яндексовский робот (213.180.210.1) не повадился качать метров по 80 в день при общем объеме контента метров в 40. Роботы других поисковиков ведут себя вполне корректно, да и с этим проблем раньше небыло. Поэтому сабж. Способов-то решить проблему много (gzip, disallow...), просто не пойму что происходит Kairel добавил [date]1093855419[/date]: Nekto Вряд-ли. Все запросы шли с одного IP, да и продолжались до пятницы (потом не знаю, на даче был). Сайт http://henshin.ru. Но сейчас он лежит. Т.к. час назад месячный лимит был исчеран
меняй хост, если активность бота бъет по карману - то хост очень дорогой, обрати внимание на американские хостинговые компании
ФорумNet Дело не в стоимости. Лишняя пара баксов в месяц не напрягает. Просто не люблю платить непонятно за что. Раньше то все было нормально! Основной траф в рунете, да и геморрой со службой поддержки... To all Кстати, никто не подскажет короткое имя яндексовского робота? Нужно для блокировки доступа конкретно ему. Запрещать "*" неохота.
Имя поискового робота: Yandex/1.03.00х, где х - тип паука, в зависимости от типа индексации (первичная, полная).
Kairel, не пробовал написать им, спросить? Только это может быть чревато тем, что засунут тебя в игнор лист, и на этом про Яндекс придется забыть, либо потом разбираться с обратным процессом: - почему бот яндекса не посещает мой сайт.
micron он же не клоачить собираетя - а через robots.txt запретить доступ яндексбота - это вполне легально и нормально в игнор за это не "суют". В любой момент можно открыть доступ. Kairel у многих крупных хостинг контор - есть русскоязычная служба поддержки.
Как зовут сайт? А вообще, письмо на [email protected] с изложением подробностей очень способствует решению проблем с роботом.
ФорумNet Спасибо. Именно. Причем даже не ко всему сайту, а лишь к форуму. Я в курсе, но хостер меня пока не напрягает. Цена/качество услуг более чем устраивает, а данная проблема явно связана не с ним. micron Возможно, этим и закончится. Подожду недельку с начала сентября, если приколы будут продолжаться, обращусь к ним. Пока подумал, что может я о чем не в курсе Гость Уже называл
Kirel, откуда взялся "общий объем контента 40м"? Видно, что индексируемый Яндексом контент этого сайта http://www.yandex.ru/yandsearch?ras...e=all&Link=&numdoc=10&site=www.henshin.ru&ds= в основном состоит из скриптов. Скрипты в принципе могут сколько угодно контента нагенерить. Опять же, видно, что форум подставляет в параметр sid= всё время разные сессии. Таким образом с этого сайта можно скачать сколько угодно контента, с совершенно разными урлами притом.
Не сочтите за рекламу, но если российский трафик преобладает, то мастерхост, например, за это еще и приплачивает. А на страницах форума выдаются заголовки Last-Modified и Expires ? Может, страницы к индексированию не запрещены, а протухают раньше, чем робот их читает. Вот он и ходит их перечитвать по три раза на дню..
Кстати, да. http://yandex.ru/info/webmaster7.html : "Дубликат - это один и тот же текст, под десятком разных адресов, зависящих, например, от способа навигации по сайту. Сайты с большим числом дубликатов время от времени подвергаются безжалостной чистке. Все страницы, не отвечающие вышеперечисленным условиям, следует закрывать от индексирования при помощи файла robots.txt. Чем больше Вы закроете "мусора", тем лучше себя будет чувствовать "нормальное содержание". " Видимо, форум действительно лучше закрыть с помощью robots.txt
Гость Я как-то для проверки выкачал форум Телепортом. Т.е. получил набор статических страниц (топики, формы ответов и т.п.) и померил объем. Согласен, это не вполне корректный метод, но все-таки... В свое время рассматривался, но по причине, которой уже и не помню, не подошел Не спорю, вариантов можно придумать много. Но я бы не стал поднимать данную тему, если бы ситуация не изменилась скачкообразно. По логам 13 августа робот скачал около 150 метров за день! После этого темп упал, но все равно остался на уровне в несколько раз превышающий то, что было до этого в течении где-то полугода (большей статистики у меня не сохранилось). На мой взгляд это несколько странно. Кстати, на сайте в этот промежуток времени ничего кардинально не менялось. В общем, с первого числа я закрою доступ роботу к форуму и буду смотреть, что из этого получится
как вариант - перевести форум в статику - полезно как для индексации в SE, т.к. ветки форума чаще всего создаются людьми также как и запросы в самих SE - соответственно существенный плюс в ранжировании. на searchengines.ru, была тема об этом. хотя форум форуму рознь - тут надо смотреть индивидуально.
ФорумNet Честно говоря, нет особой заинтересованности в росте рейтинга. Форум на рассматриваемом ресурсе родился как альтернатива гостевой книге и все... Через поисковики к нам заходят не часто и по ОЧЕНЬ странным запросам Но на будущее учту. Гость Вспомнил почему мастерхост не подошел. Относительно дорого, тарифные планы не гибкие, а оплата рунетовского траффика только для коллокейшн
Мда, лирика. Тут за день бывает доходит до 1Гб трафика, и я был бы не прочь, чтобы Яндекс более внимательно проиндексировал форум…
Да, на Яндексе недавно запустили нового робота, который работает в несколько раз быстрее. Раньше он просто не успевал так часто приходить на форум
ФорумNet И как это можно оптимизировать? Кто-то где-то на форуме обронил фразу, которую в разном контексте, можно трактовать тысячью разными способами. Поисковик ее обработал и выдал в ответ на чей-то запрос. Все НЕОБХОДИМЫЕ предугадать невозможно, собственно для этого роботы и существуют. В противном случае было бы достаточно перечня ключевых слов от автора сайта Гость Большое, блин, спасибо! © Масяня micron Трафик где-нибудь на microsoft.com мне вообще страшно представить. Особенно сейчас в свете второго сервис-пака. У меня траф вырос раза в 3-4. Прикидывай... Но, думаю, паук не один, и сразу может не проявится. Это мне так "повезло".
micron по поводу индексации можно поговорить, присоветую много хорошего Kairel ВСЕ невозможно предугадать, а НЕОБХОДИМЫЕ, очень даже можно и нужно - для это существует тезаурус, и службы ака яндекс директ и на рамблере подобное есть - где можно узнать точные запросы людей!