Tomsk Sysadmins Forum

Unix => Администрирование => Topic started by: spv on August 20, 2007, 14:33:37

Title: Поисковые роботы
Post by: spv on August 20, 2007, 14:33:37
Народ, кто может сказать как от этих проклятых сёрч-ботов можно избавиться? В неделю по 350 метров выкачивают во внеху (контент сайта примерно 30 метров). Кидал запрет на ботов в корень(robots.txt  -----  User-Agent: *   Disallow: /-----) не помогает. На файрволе заколебался запрещать. Запретил одни, через день два других находятся. Короче, народ, помогите советом?
Title: Поисковые роботы
Post by: Safir on August 20, 2007, 14:42:11
А что за сайт? Может, просто перекрыть внешку, оставить только Томск?
Title: Поисковые роботы
Post by: spv on August 20, 2007, 14:44:18
Quote from: Safir
А что за сайт? Может, просто перекрыть внешку, оставить только Томск?

Необходимо, что бы он был виден во внехи
Title: Поисковые роботы
Post by: Safir on August 20, 2007, 15:06:55
Quote from: spv
Необходимо, что бы он был виден во внехи
Как это сделать зав счёт конфигурирования я не знаю, но можно перекрыть контент программным способом. Например, использовать куки для идентификации браузера, так что напрямую можно будет только первую страничку скачать, а остальные - только при наличии уже выставленных куков. Можно и первую так заблокировать: поставить в неё проверку куков вначале, если куков нет - ставит куки и возвращает редирект на себя же. Браузер проглотит, а поисковик заткнётся. Одна проблема: никто твой сайт не найдёт .

О, есть ещё вариант, почему поисковики постоянно всё выкачивают: дату протухания выставь на контент - по идее не должны до этой даты ломиться. Можно динамически её генерировать, скажем, на месяц вперёд. Это если контент достаточно статичный.
Title: Поисковые роботы
Post by: VLAD on August 21, 2007, 11:25:44
Нормальные роботы читают robots.txt, всех остальных можно банить по user-agent'у через mod_security
SecFilterSelective HTTP_USER_AGENT "^Wget"
SecFilterSelective HTTP_USER_AGENT "^Zyborg"
SecFilterSelective HTTP_USER_AGENT "libwhisker"
SecFilterSelective HTTP_User-Agent "paros"

И если уж это не поможет, то по ИПу/сети
Title: Поисковые роботы
Post by: Safir on August 21, 2007, 11:40:00
Quote from: VLAD
Нормальные роботы читают robots.txt, всех остальных можно банить по user-agent'у через mod_security
...
И если уж это не поможет, то по ИПу/сети
Ну, это только если нет контента, который имеет смысл качать wget'ом - звук, видео. В противном случае - не совсем корректно. Тем более, что UA и поменять можно.
Title: Поисковые роботы
Post by: VLAD on August 21, 2007, 22:43:02
Я же привёл не полный список UA, всего у меня забанено под сотню роботов.
А те, кто не понимают - в iptables -j DROP
Title: Поисковые роботы
Post by: Vtec on September 03, 2007, 15:04:15
Я тут порылся кое что накопал...

http://forum.antichat.ru/showpost.php?p=312523&postcount=1 (http://forum.antichat.ru/showpost.php?p=312523&postcount=1)
http://bystudents.org/index.php?showtopic=324&mode=linear (http://bystudents.org/index.php?showtopic=324&mode=linear)
http://www.forum.whack.ru/showpost.php?p=10250&postcount=1 (http://www.forum.whack.ru/showpost.php?p=10250&postcount=1)