Wie kann man erkennen, ein crawler / spider mit PHP?

Wie kann man erkennen, ein crawler /spider mit PHP?

Derzeit arbeite ich an einem Projekt, wo ich brauche, um zu halten verfolgen von jeder crawler besuchen.

Ich weiß, dass Sie verwenden sollten, HTTP_USER_AGENT, aber ich bin mir nicht wirklich sicher, wie Sie Sie formatieren Sie den code für diesen Zweck, und ich weiß, dass der USER-AGENT geändert werden können sehr leicht, so ich würde auch gerne wissen ob es möglich ist, fügen Sie einige weitere Parameter, die zur Vermeidung von spoofing?

Beispielcode von dem, was ich versuche zu tun..

<?php
$user_agent = $_SERVER['HTTP_USER_AGENT'];
if (strpos( $user_agent, 'Google') !== false)
{
echo "Googlebot is here";
}
?>

Danke

  • Sie können leicht finden, crawler, wenn Sie überprüfen Sie die Webserver-logfiles und suchen für viele Anfragen in kurzer Zeit von einer einzigen IP-Adresse oder Subnetz. Die meisten Suchmaschinen nicht ändern, Ihr crawler zu handeln, als wären Sie mit einem browser
  • Das ist nicht wahr, da konnte man kombinieren HTTP_USER_AGENT mit REMOTE_ADDR, beispielsweise den googlebot immer kriechen über den Hostnamen googlebot.com. Aber wie ich setup ein Skript, weiß ich nicht. Grüße Dennis
  • Wenn Sie nicht möchten, dass die Seite gecrawlt, nutzen Sie die robots.txt de.wikipedia.org/wiki/Robots_Exclusion_Standard zumindest einige crawler respektieren robots.txt
  • Ich will, dass die Seite gecrawlt werden, ich will einfach den überblick behalten 🙂
InformationsquelleAutor Squeeze | 2013-11-14
Schreibe einen Kommentar