Wie kann man erkennen, ein crawler / spider mit PHP?

Wie kann man erkennen, ein crawler /spider mit PHP?

Derzeit arbeite ich an einem Projekt, wo ich brauche, um zu halten verfolgen von jeder crawler besuchen.

Ich weiß, dass Sie verwenden sollten, HTTP_USER_AGENT, aber ich bin mir nicht wirklich sicher, wie Sie Sie formatieren Sie den code für diesen Zweck, und ich weiß, dass der USER-AGENT geändert werden können sehr leicht, so ich würde auch gerne wissen ob es möglich ist, fügen Sie einige weitere Parameter, die zur Vermeidung von spoofing?

Beispielcode von dem, was ich versuche zu tun..

<?php
$user_agent = $_SERVER['HTTP_USER_AGENT'];
if (strpos( $user_agent, 'Google') !== false)
{
echo "Googlebot is here";
}
?>

Danke

Sie können leicht finden, crawler, wenn Sie überprüfen Sie die Webserver-logfiles und suchen für viele Anfragen in kurzer Zeit von einer einzigen IP-Adresse oder Subnetz. Die meisten Suchmaschinen nicht ändern, Ihr crawler zu handeln, als wären Sie mit einem browser
Das ist nicht wahr, da konnte man kombinieren HTTP_USER_AGENT mit REMOTE_ADDR, beispielsweise den googlebot immer kriechen über den Hostnamen googlebot.com. Aber wie ich setup ein Skript, weiß ich nicht. Grüße Dennis
Wenn Sie nicht möchten, dass die Seite gecrawlt, nutzen Sie die robots.txt de.wikipedia.org/wiki/Robots_Exclusion_Standard zumindest einige crawler respektieren robots.txt
Ich will, dass die Seite gecrawlt werden, ich will einfach den überblick behalten 🙂

InformationsquelleAutor Squeeze | 2013-11-14

php user-agent

12

Laut Überprüfen Googlebot:

Können Sie überprüfen, dass ein bot-Zugriff auf Ihren server ist wirklich Googlebot (oder ein anderer Google-user-agent) unter Verwendung eines reverse-DNS-lookup, prüfen, ob der name in der googlebot.com domain, und dann tut ein forward-DNS-lookup verwenden, dass googlebot Namen. Dies ist nützlich, wenn Sie befürchten, dass Spammer und andere Störenfriede auf Ihre Website zugreifen, während Sie behaupten, um den Googlebot.

Beispiel:

host 66.249.66.1

1.66.249.66.in-addr.arpa domain name pointer

crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Google ist nicht erlaubt, eine öffentliche Liste der IP-Adressen für Webmaster, um die whitelist. Dies ist, weil diese IP-Adressbereiche ändern können, verursacht Probleme für alle Webmaster, die hart codiert Sie. Der beste Weg, um Zugriffe von Googlebot ist die Verwendung des user-Agents (Googlebot).

Können Sie tun, ein reverse-DNS-lookup:
```
function validateGoogleBotIP($ip) {
    $hostname = gethostbyaddr($ip); //"crawl-66-249-66-1.googlebot.com"
    return preg_match('/\.googlebot\.com$/i', $hostname);
}

if (strpos($_SERVER['HTTP_USER_AGENT'], 'Google') !== false) {
    if (validateGoogleBotIP($_SERVER['REMOTE_ADDR'])) {
        echo 'It is ACTUALLY google';
    } else {
        echo 'Someone\'s faking it!';
    }
} else {
    echo 'Nothing to do with Google';
}
```
- Genau das, was ich suchte. Vielen Dank für deine Zeit und hilft mir!
- Du bist herzlich willkommen. Es sollte funktionieren (wenn nicht, ist Ihr host kann nicht erlauben, DNS-lookups). ZB. codepad.org ließ mich nicht schaffen eine demo von diesem, wie es konnte nicht nachschlagen von Hostnamen. Das könnte allerdings nur Ihre sandbox.
- Ich bin derzeit hosting meiner website auf einem VPS-also, wenn es irgendeinen Fehler mit der DNS-lookup-ich habe keine Schuld, aber mein selbst :p Danke nochmal 🙂
InformationsquelleAutor h2ooooooo

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.