Author Topic: Поисковые роботы  (Read 4065 times)

0 Members and 1 Guest are viewing this topic.

Offline spv

  • Newbie
  • *
  • Posts: 4
  • Karma: +0/-0
Поисковые роботы
« on: August 20, 2007, 14:33:37 »
Народ, кто может сказать как от этих проклятых сёрч-ботов можно избавиться? В неделю по 350 метров выкачивают во внеху (контент сайта примерно 30 метров). Кидал запрет на ботов в корень(robots.txt  -----  User-Agent: *   Disallow: /-----) не помогает. На файрволе заколебался запрещать. Запретил одни, через день два других находятся. Короче, народ, помогите советом?

Offline Safir

  • Sr. Member
  • ****
  • Posts: 402
  • Karma: +0/-0
    • http://
Поисковые роботы
« Reply #1 on: August 20, 2007, 14:42:11 »
А что за сайт? Может, просто перекрыть внешку, оставить только Томск?

Offline spv

  • Newbie
  • *
  • Posts: 4
  • Karma: +0/-0
Поисковые роботы
« Reply #2 on: August 20, 2007, 14:44:18 »
Quote from: Safir
А что за сайт? Может, просто перекрыть внешку, оставить только Томск?

Необходимо, что бы он был виден во внехи

Offline Safir

  • Sr. Member
  • ****
  • Posts: 402
  • Karma: +0/-0
    • http://
Поисковые роботы
« Reply #3 on: August 20, 2007, 15:06:55 »
Quote from: spv
Необходимо, что бы он был виден во внехи
Как это сделать зав счёт конфигурирования я не знаю, но можно перекрыть контент программным способом. Например, использовать куки для идентификации браузера, так что напрямую можно будет только первую страничку скачать, а остальные - только при наличии уже выставленных куков. Можно и первую так заблокировать: поставить в неё проверку куков вначале, если куков нет - ставит куки и возвращает редирект на себя же. Браузер проглотит, а поисковик заткнётся. Одна проблема: никто твой сайт не найдёт .

О, есть ещё вариант, почему поисковики постоянно всё выкачивают: дату протухания выставь на контент - по идее не должны до этой даты ломиться. Можно динамически её генерировать, скажем, на месяц вперёд. Это если контент достаточно статичный.

Offline VLAD

  • Newbie
  • *
  • Posts: 26
  • Karma: +0/-0
    • http://
Поисковые роботы
« Reply #4 on: August 21, 2007, 11:25:44 »
Нормальные роботы читают robots.txt, всех остальных можно банить по user-agent'у через mod_security
SecFilterSelective HTTP_USER_AGENT "^Wget"
SecFilterSelective HTTP_USER_AGENT "^Zyborg"
SecFilterSelective HTTP_USER_AGENT "libwhisker"
SecFilterSelective HTTP_User-Agent "paros"

И если уж это не поможет, то по ИПу/сети
« Last Edit: August 21, 2007, 11:26:23 by VLAD »

Offline Safir

  • Sr. Member
  • ****
  • Posts: 402
  • Karma: +0/-0
    • http://
Поисковые роботы
« Reply #5 on: August 21, 2007, 11:40:00 »
Quote from: VLAD
Нормальные роботы читают robots.txt, всех остальных можно банить по user-agent'у через mod_security
...
И если уж это не поможет, то по ИПу/сети
Ну, это только если нет контента, который имеет смысл качать wget'ом - звук, видео. В противном случае - не совсем корректно. Тем более, что UA и поменять можно.

Offline VLAD

  • Newbie
  • *
  • Posts: 26
  • Karma: +0/-0
    • http://
Поисковые роботы
« Reply #6 on: August 21, 2007, 22:43:02 »
Я же привёл не полный список UA, всего у меня забанено под сотню роботов.
А те, кто не понимают - в iptables -j DROP

Offline Vtec

  • Newbie
  • *
  • Posts: 49
  • Karma: +0/-0