Tomsk Sysadmins Forum
Unix => Администрирование => Topic started by: spv on August 20, 2007, 14:33:37
-
Народ, кто может сказать как от этих проклятых сёрч-ботов можно избавиться? В неделю по 350 метров выкачивают во внеху (контент сайта примерно 30 метров). Кидал запрет на ботов в корень(robots.txt ----- User-Agent: * Disallow: /-----) не помогает. На файрволе заколебался запрещать. Запретил одни, через день два других находятся. Короче, народ, помогите советом?
-
А что за сайт? Может, просто перекрыть внешку, оставить только Томск?
-
А что за сайт? Может, просто перекрыть внешку, оставить только Томск?
Необходимо, что бы он был виден во внехи
-
Необходимо, что бы он был виден во внехи
Как это сделать зав счёт конфигурирования я не знаю, но можно перекрыть контент программным способом. Например, использовать куки для идентификации браузера, так что напрямую можно будет только первую страничку скачать, а остальные - только при наличии уже выставленных куков. Можно и первую так заблокировать: поставить в неё проверку куков вначале, если куков нет - ставит куки и возвращает редирект на себя же. Браузер проглотит, а поисковик заткнётся. Одна проблема: никто твой сайт не найдёт .
О, есть ещё вариант, почему поисковики постоянно всё выкачивают: дату протухания выставь на контент - по идее не должны до этой даты ломиться. Можно динамически её генерировать, скажем, на месяц вперёд. Это если контент достаточно статичный.
-
Нормальные роботы читают robots.txt, всех остальных можно банить по user-agent'у через mod_security
SecFilterSelective HTTP_USER_AGENT "^Wget"
SecFilterSelective HTTP_USER_AGENT "^Zyborg"
SecFilterSelective HTTP_USER_AGENT "libwhisker"
SecFilterSelective HTTP_User-Agent "paros"
И если уж это не поможет, то по ИПу/сети
-
Нормальные роботы читают robots.txt, всех остальных можно банить по user-agent'у через mod_security
...
И если уж это не поможет, то по ИПу/сети
Ну, это только если нет контента, который имеет смысл качать wget'ом - звук, видео. В противном случае - не совсем корректно. Тем более, что UA и поменять можно.
-
Я же привёл не полный список UA, всего у меня забанено под сотню роботов.
А те, кто не понимают - в iptables -j DROP
-
Я тут порылся кое что накопал...
http://forum.antichat.ru/showpost.php?p=312523&postcount=1 (http://forum.antichat.ru/showpost.php?p=312523&postcount=1)
http://bystudents.org/index.php?showtopic=324&mode=linear (http://bystudents.org/index.php?showtopic=324&mode=linear)
http://www.forum.whack.ru/showpost.php?p=10250&postcount=1 (http://www.forum.whack.ru/showpost.php?p=10250&postcount=1)