wie ban crawler 360Spider mit robots.txt oder .htaccess?

Ich habe eine Probleme, weil 360Spider: dieser bot macht zu viele requests pro Sekunde auf meinem VPS und verlangsamt Sie (die CPU-Auslastung wird 10-70%, aber ich habe in der Regel 1-2%). Ich schaute in die httpd-logs und sah, dass es solche Zeilen:

182.118.25.209 - - [06/Sep/2012:19:39:08 +0300] "GET /slovar/znachenie-slova/42957-polovity.html HTTP/1.1" 200 96809 "http://www.hrinchenko.com/slovar/znachenie-slova/42957-polovity.html" "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11) Gecko/20070312 Firefox/1.5.0.11; 360Spider
182.118.25.208 - - [06/Sep/2012:19:39:08 +0300] "GET /slovar/znachenie-slova/52614-rospryskaty.html HTTP/1.1" 200 100239 "http://www.hrinchenko.com/slovar/znachenie-slova/52614-rospryskaty.html" "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11) Gecko/20070312 Firefox/1.5.0.11; 360Spider

etc.

Wie kann ich verhindern, diese Spinne komplett über robots.txt? Nun meine robots.txt sieht wie folgt aus:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

User-agent: YoudaoBot
Disallow: /

User-agent: sogou spider
Disallow: /

Habe ich Hinzugefügt, Zeilen:

User-agent: 360Spider
Disallow: /

aber das scheint nicht zu funktionieren. Wie kann ich die Sperrung dieses angry bot?

Wenn Sie bieten, um es zu blockieren, über .htaccess, so bedenkt, dass es sieht jetzt so aus:

# Turn on URL rewriting
RewriteEngine On

# Installation directory
RewriteBase /

SetEnvIfNoCase Referer ^360Spider$ block_them
Deny from env=block_them

# Protect hidden files from being viewed
<Files .*>
    Order Deny,Allow
    Deny From All
</Files>

# Protect application and system files from being viewed
RewriteRule ^(?:application|modules|system)\b.* index.php/$0 [L]

# Allow any files or directories that exist to be displayed directly
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d

# Rewrite all other URLs to index.php/URL
RewriteRule .* index.php/$0 [PT]

Und, trotz der Anwesenheit von

SetEnvIfNoCase Referer ^360Spider$ block_them
Deny from env=block_them

diesen bot noch versucht, ihn zu töten mein VPS und protokolliert, die in access logs.

verwenden .htaccess oder nginx rewrite-Modul, robots.txt blockieren Sie nicht alles sein nur eine Liste von Regeln
wie um es zu blockieren, mit .htaccess wenn nicht ein Geheimnis? 🙂

InformationsquelleAutor kovpack | 2012-09-06

Schreibe einen Kommentar