wie bekannt web-crawler und blockieren von Spam und schädlichen Roboter aus Scannen asp.net website
Wie kann ich bei der Konfiguration meiner Website zu ermöglichen, kriechen aus bekannten Roboter
wie google, bing, yahoo, alexa, etc. und halt andere schädliche Spammer, Roboter
sollte ich blockieren bestimmte IP? bitte diskutieren Sie vor -, Nachteile
Etwas zu tun, im web.config oder IIS?
Kann ich Sie in der server-weite, Wenn ich vps mit root-Zugang?
Dank.
- Tun Sie ehrlich denken, dass dies ein problem gelöst ist, und die Menschen sind einfach nur fahrlässig, nicht der Wechsel auf den "block Spammer" - option auf Ihren Websites?
- es gibt ein paar einfache Dinge, die man tun kann, um block über 99,9% der Spammer und es dauert sehr wenig Aufwand. Für die anderen 0.09% gibt es ein paar mehr fortgeschrittenen Stufe, die ein bisschen mehr beteiligt. Sie können nicht schützen Sie sich vor 100% der Spammer, aber wenn man zu 99,99% nicht, dann sollten Sie ziemlich gut.
- Wie erwähnt Lirik es geht darum, in der Nähe von 100%, das hilft sicherlich.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich würde empfehlen, dass Sie sich die Antwort, die ich gebucht, um eine ähnliche Frage: Wie zu erkennen, web-crawler?
Robots.txt
Die robots.txt ist nützlich für höfliche bots, aber die Spammer sind in der Regel nicht höflich, so dass Sie neigen dazu zu ignorieren, die robots.txt; es ist toll, wenn Sie robots.txt da kann es helfen, die höflich bots. Achten Sie jedoch darauf, nicht zu blockieren, für den falschen Weg, da es blockiert die guten bots Crawlen von Inhalten, die Sie wirklich wollen, Sie zu Crawlen.
User-Agent
Sperrung von user-agent ist nicht fool-proof, da Spammer Häufig die impersonate-Browser und andere populäre user-agents (wie die Google-bots). Als eine Angelegenheit von der Tat, den user-agent-spoofing ist eine der einfachsten Sache, dass ein spammer tun kann.
Bot-Traps
Dies ist wahrscheinlich der beste Weg, schützen Sie sich vor bots, die sind nicht höflich und nicht richtig identifizieren sich mit der Benutzer-Agent. Es gibt mindestens zwei Arten von fallen:
Einen versteckten link ist ein link nicht zu sehen ist, zu einer person, wie ein Anker-tag ohne text:
<a href="http://www.mysite.com/path/to/bot/trap"></a>
. Alternativ können Sie text in den Anker-tag, aber man kann die Schrift wirklich klein, und ändern Sie die Schriftfarbe entsprechend der Hintergrundfarbe, so dass die Menschen können nicht sehen, den link. Der versteckte link-Falle fangen kann, alle nicht-menschlichen bot, so würde ich empfehlen, dass Sie es kombinieren mit der robots.txt Falle, so dass Sie nur fangen die schlechten bots.Überprüfen Bots
Die oben genannten Schritte werden wahrscheinlich Ihnen helfen, loszuwerden, die zu 99,9% der Spammer, aber es gibt vielleicht eine Handvoll von schlechten bots, die die Identität eines beliebten bot (wie der Googlebot) UND halten Sie Ihre robots.txt; diejenigen, die bots können Essen, bis die Anzahl der Anfragen, die Sie haben reserviert für den Googlebot und kann dazu führen, dass Sie vorübergehend verbieten Sie Google das Crawlen Ihrer website. In diesem Fall haben Sie eine weitere option und das ist, um zu überprüfen, die Identität des bot. Die meisten großen Crawlern (dass Sie wollen, um zu gecrawlt werden) eine Art und Weise, die Sie identifizieren können, die Ihre bots, hier ist die Google-Empfehlung zur überprüfung Ihrer bot: http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html
Jeden bot, die Identität eines anderen großen bot-und scheitert überprüfung gesperrt werden können durch IP. Das sollte wahrscheinlich kommen Sie näher, um zu verhindern 99,99% der bad bots Crawlen Ihrer Website.
Blockierung von IP kann nützlich sein, aber die Methode, die ich benutze, ist die Sperrung von Benutzer-agent, so dass Sie abfangen können viele verschiedene IPs mit apps, die Sie nicht wollen, vor allem Website-Grabber. Ich wird nicht auf unserer Liste, da müssen Sie konzentrieren sich auf diejenigen, die Sie beeinflussen. Für unsere Anwendung haben wir festgestellt, mehr als 130 Anwendungen, die nicht web-Browser und nicht die Suchmaschinen, die wir nicht wollen Zugriff auf unsere web. Aber Sie beginnen mit einer web-Suche auf Benutzer-Agenten für die Website kopieren.
der einfachste Weg, dies zu tun, ist die Verwendung einer robots.txt Datei in das root-Verzeichnis der website.
Die syntax der robots.txt die Datei ist wie folgt:
die effektiv verbietet alle Roboter, die die robots.txt übereinkommen der angegebenen Seiten.
Die Sache zu erinnern ist aber nicht alle web-crawler, der Achtung dieses übereinkommens.
Kann es sehr nützlich sein, verhindert, dass bots vom schlagen der server eine wahnsinnige Anzahl von Zeiten, und es kann auch nützlich sein zur Verhinderung von bots, die Sie lieber nicht berühren Sie die Website, um alle, aber es ist leider kein Allheilmittel. Wie bereits erwähnt, es gibt keine solche Tier -, spam ist eine Konstante Kopfschmerzen.
Für mehr info, schauen Sie auf http://www.robotstxt.org/
Möchte ich .htaccess-Datei, sobald Sie haben eine Liste der bekannten bots hinzufügen dieser Zeilen an das Ende Ihrer Datei.
RewriteCond %{HTTP_REFERER} ^http(s)?://([^.]+.)suspectIP.$ [NC,ODER]
RewriteCond %{HTTP_REFERER} ^http(s)?://([^.]+.)suspectURL.com.$ [NC]
RewriteRule (.*) - [F]