wie ban crawler 360Spider mit robots.txt oder .htaccess?
Ich habe eine Probleme, weil 360Spider: dieser bot macht zu viele requests pro Sekunde auf meinem VPS und verlangsamt Sie (die CPU-Auslastung wird 10-70%, aber ich habe in der Regel 1-2%). Ich schaute in die httpd-logs und sah, dass es solche Zeilen:
182.118.25.209 - - [06/Sep/2012:19:39:08 +0300] "GET /slovar/znachenie-slova/42957-polovity.html HTTP/1.1" 200 96809 "http://www.hrinchenko.com/slovar/znachenie-slova/42957-polovity.html" "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11) Gecko/20070312 Firefox/1.5.0.11; 360Spider
182.118.25.208 - - [06/Sep/2012:19:39:08 +0300] "GET /slovar/znachenie-slova/52614-rospryskaty.html HTTP/1.1" 200 100239 "http://www.hrinchenko.com/slovar/znachenie-slova/52614-rospryskaty.html" "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11) Gecko/20070312 Firefox/1.5.0.11; 360Spider
etc.
Wie kann ich verhindern, diese Spinne komplett über robots.txt? Nun meine robots.txt sieht wie folgt aus:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
User-agent: YoudaoBot
Disallow: /
User-agent: sogou spider
Disallow: /
Habe ich Hinzugefügt, Zeilen:
User-agent: 360Spider
Disallow: /
aber das scheint nicht zu funktionieren. Wie kann ich die Sperrung dieses angry bot?
Wenn Sie bieten, um es zu blockieren, über .htaccess, so bedenkt, dass es sieht jetzt so aus:
# Turn on URL rewriting
RewriteEngine On
# Installation directory
RewriteBase /
SetEnvIfNoCase Referer ^360Spider$ block_them
Deny from env=block_them
# Protect hidden files from being viewed
<Files .*>
Order Deny,Allow
Deny From All
</Files>
# Protect application and system files from being viewed
RewriteRule ^(?:application|modules|system)\b.* index.php/$0 [L]
# Allow any files or directories that exist to be displayed directly
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
# Rewrite all other URLs to index.php/URL
RewriteRule .* index.php/$0 [PT]
Und, trotz der Anwesenheit von
SetEnvIfNoCase Referer ^360Spider$ block_them
Deny from env=block_them
diesen bot noch versucht, ihn zu töten mein VPS und protokolliert, die in access logs.
.htaccess
oder nginx
rewrite-Modul, robots.txt
blockieren Sie nicht alles sein nur eine Liste von Regelnwie um es zu blockieren, mit
.htaccess
wenn nicht ein Geheimnis? 🙂
InformationsquelleAutor kovpack | 2012-09-06
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ihre robots.txt richtig scheint. Einige bots ignorieren Sie es einfach (bösartige bots Crawlen von einer beliebigen IP-Adresse aus irgendeinem botnet von Hunderten von Millionen von infizierten Geräten aus der ganzen Welt), in diesem Fall können Sie begrenzen die Anzahl der Anfragen pro Sekunde, mit mod_security - Modul für apache 2.X
Config Beispiel hier: http://blog.cherouvim.com/simple-dos-protection-with-mod_security/
[BEARBEITEN] Auf linux, iptables erlaubt auch die Beschränkung tcp:port-verbindungen per (x) die Sekunde(s) pro ip, die Bereitstellung von conntrack-Funktionen aktiviert sind, die auf den kernel. Siehe: https://serverfault.com/questions/378357/iptables-dos-limit-for-all-ports
Ja, das war die Antwort für meine zweite Frage, ich hatte keine Zeit zu Fragen 🙂 Danke 🙂
InformationsquelleAutor NotGaeL
In Ihr .htaccess-Datei einfach Folgendes hinzufügen :
Diese fangen ALLE bots ins Leben gerufen von der 182.118.2 xx.xxx-Bereich und senden Sie zurück zu sich selbst...
Beschissen 360 bot ausgelöst wird, die von Servern in China... so lange es dich nicht stört, sagen bye bye zu beschissen chinesischen Verkehr von dieser IP-Bereich, diese wird garantiert, machen diese Welpen verschwinden aus erreichen Sie alle Dateien auf Ihre Website.
Den beiden folgenden Zeilen in Ihre .htaccess-Datei wird auch Holen Sie es einfach aus indem Sie es blöd genug, um stolz setzen 360spider in seine user-agent-string. Dies könnte nützlich sein, wenn Sie andere IP-Bereiche, die dann die 182.118.2 xx.xxx
Und ja... ich hasse Sie auch !
InformationsquelleAutor Sloth
Können Sie stellen folgenden Regeln in Ihrer
.htaccess
DateiHinweis: Apache-Modul
mod_setenvif
aktiviert werden soll, in der server-KonfigurationSetEnvIfNoCase Referer ^360Spider$ block_them Deny from env=block_them
, aber immer noch sehen, dass die Spinne in den logs. Übrigens, ich habe auch block<Files .*> Order Deny,Allow Deny From All </Files>
und auch einige rewriting-Regeln nach.SetEnvIfNoCase user-agent 360Spider$ block_them
. "360Spider" ist am Ende der user-agent-header.InformationsquelleAutor Alexander Larikov
Die person, die den crawler sein könnte zu ignorieren robots.txt. Man könnte Sie blockieren per IP
order deny, allow
deny from 216.86.192.196
in .htaccess
in seinem Beispiel war es nur mit 2..
Das war nur ein Teil der log 🙂
InformationsquelleAutor d4v3y0rk
SetEnvIfNoCase User-agent 360Spider blockiert
InformationsquelleAutor Doug Wilson
Ich habe die Zeilen in meine
.htaccess
- Datei wie folgt zu block bad bots:Schickt er den status-code
402 Payment Required
alle blacklisted IPs /user-agents.Sie können alles, was, die Sie anzeigen möchten, um den bot in
forbidden.php
.Es ist sehr effektiv.
InformationsquelleAutor uınbɐɥs
Musste ich einfach blockieren 360Spider. Gelöst mit StreamCatcher auf IIS (IIS7), war das zum Glück schon installiert, so dass nur eine kleine änderung der Konfiguration nötig war. Details zu http://needs-be.blogspot.com/2013/02/how-to-block-spider360.html
InformationsquelleAutor user424855
Verwende ich die folgenden, und es hilft eine Menge! Überprüfen Sie die HTTP_USER_AGENT für bad bots
InformationsquelleAutor justyy