Facebook und Crawl-delay in Robots.txt?

Tut Facebook das webcrawling bots Achtung der Crawl-delay: Richtlinie in robots.txt Dateien?

Ich war mir nicht bewusst, dass facebook bots hatte... interessant!
facebookexternalhit/* wo * ist die Versionsnummer. Siehe: facebook.com/externalhit_uatext.php und developers.facebook.com/docs/best-practices/...
Nicht Facebook nur kriechen einen Artikel einmal, wenn es Hinzugefügt? Ich erinnere mich an mehrere Fälle, in denen musste man explizit Facebook zu kriechen ein Element wieder, um es zu aktualisieren, es zu kopieren.
Das ist nicht Crawl-delay. Crawl-delay verwandt ist, wie schnell ein web-crawler-Besuche urls für eine Website. Also, wenn Sie haben 100 urls, sagen wir, auf Ihrer Website, Crawl delay, dass alle diese urls nicht bekommen, seine gleichzeitig. Vielmehr erhalten Sie Treffer, in einem Intervall von dem, was der crawl-delay gibt. Also für 100 Seiten bei 15 Sekunden zwischen, wird es eine 25 minütige "rest" - Zeit. Die Absicht ist es, nicht erdrücken, eine Website.

InformationsquelleAutor artlung | 2011-10-10

1

Haben wir nicht einen crawler. Wir haben einen Spachtel, die Kratzer meta-Daten auf Seiten mit like-buttons/geteilt auf FB.
- "Es hängt davon ab, was die Bedeutung des Wortes 'ist' ist." Danke für die nicht-Antwort. Ziehen Sie 100 Seiten in ein paar Sekunden ist ein kriechen, was auch immer Sie es nennen wollen. Deutlich wird dieser "scraper" geht apenuts und beginnt nach unten ziehen VIELE Seiten, die haben nichts zu tun mit dem link veröffentlicht werden können. Oder die FB ist heimlich Erstellung eines such-Konkurrent von Google. Oder vielleicht jemand anderes crawler ausgeführt wird, WIE externe Tasten? Etwas verrücktes ist passiert.
- Ich entfernte open graph und das facebookexternalhit/1.1 gestoppt vermasselt meine Datenbank-Verbindung auf beiden Seiten, glatt über die Bühne, die auf zwei verschiedenen hosts für 8 Jahre.
- Dies ist keine besonders hilfreiche Antwort. Wir haben gesehen, eine erhebliche Menge von crawler/spider-like-Verhalten von facebook-Servern. Die Anfragen werden gemacht, was könnte man als beleidigend rate, wodurch die Datenbank zu sperren etc.
- Nach Ihren eigenen Unterlagen, die Sie haben eine crawler: developers.facebook.com/docs/sharing/webmasters/crawler
- Bitte beachten Sie diese langjährige und abscheulich Fehler im Facebook system, das sendet sowohl kratzen Verkehr ohne UA (BRUTTO) und auch überschwemmungen von kratzen Verkehr, kann nehmen Sie Ihre Website developers.facebook.com/bugs/1654459311255613
- Und auch grobe Antwort hier 1) nicht angeben, Ihre Rolle in der FB die Antwort ein, da du sagst "wir". 2) Erbsenzählerei über die Sprache, Sie konnte das geklärt haben, ohne abweisend. 3) Nicht die Beantwortung der Frage an, da klar die info benötigt, ob der "scraper" Respekt crawl-delay. Wenn Sie denken, dass die Antwort über crawl-delay ist nicht wichtig, weil es eine "scraper" du bist die Art von Facebook-Mitarbeiter, das macht den Umgang mit diesen Facebook-bots ein Alptraum.
InformationsquelleAutor Jeff Sherlock
12

Nein, tut es nicht, Respekt robots.txt

Im Gegensatz zu anderen Antworten hier, facebookexternalhit verhält sich wie der gemeinste von Crawlern. Ob die urls von requests aus Durchforstung oder aus wie Schaltflächen, spielt keine Rolle, so viel, wenn es geht durch jeden von denjenigen, die an eine wahnsinnige Quote.

Wir haben manchmal mehrere hundert hits pro Sekunde, wie es geht durch fast jede url auf unserer Website. Es tötet unseren Servern zu jeder Zeit. Das lustige an der Sache ist, dass, wenn das passiert, können wir sehen, dass der Googlebot bremst und wartet, bis die Dinge beruhigen, bevor Sie langsam anfahren sichern. facebookexternalhit, auf der anderen hand, nur weiter zu Pfund unseren Servern, oft härter als der erste Kampf, der uns getötet.

Wir haben zu viel beefier Servern, als wir eigentlich brauchen Sie für unseren Verkehr, nur weil der facebookexternalhit. Wir haben getan, Tonnen suchen und kann nicht einen Weg finden, Sie zu verlangsamen.

Wie ist, dass eine gute user experience, Facebook?
- Man wünscht sich, Sie zurück zu zahlen mit einem reverse-slow-loris, wenn man ein solches Verhalten... aber mit Ihrer Infrastruktur, die Sie würde nicht einmal bemerken.
- Aus irgendeinem Grund, SO wird nicht lassen Sie mich Kommentar auf eine andere Antwort, aber Hank ' s Antwort ist Super und ähnlich dem, was wir umgesetzt (aber mit einer custom-Django-middleware).
InformationsquelleAutor Branton Davis
5

Für eine ähnliche Frage, Ich bot eine technische Lösung, die einfach rate-limits laden, auf Grundlage des user-agent.

Code wiederholt hier for convenience:

Da kann man nicht Appell an Ihre Hybris, und DROP ' Ing Ihre IP-block ist ziemlich Drakonisch, hier ist meine technische Lösung.

In PHP, führen Sie den folgenden code so schnell wie möglich für jede Anforderung.
```
define( 'FACEBOOK_REQUEST_THROTTLE', 2.0 ); //Number of seconds permitted between each hit from facebookexternalhit

if( !empty( $_SERVER['HTTP_USER_AGENT'] ) && preg_match( '/^facebookexternalhit/', $_SERVER['HTTP_USER_AGENT'] ) ) {
    $fbTmpFile = sys_get_temp_dir().'/facebookexternalhit.txt';
    if( $fh = fopen( $fbTmpFile, 'c+' ) ) {
        $lastTime = fread( $fh, 100 );
        $microTime = microtime( TRUE );
        //check current microtime with microtime of last access
        if( $microTime - $lastTime < FACEBOOK_REQUEST_THROTTLE ) {
            //bail if requests are coming too quickly with http 503 Service Unavailable
            header( $_SERVER["SERVER_PROTOCOL"].' 503' );
            die;
        } else {
            //write out the microsecond time of last access
            rewind( $fh );
            fwrite( $fh, $microTime );
        }
        fclose( $fh );
    } else {
        header( $_SERVER["SERVER_PROTOCOL"].' 503' );
        die;
    }
}
```
- Ich bin ein total idiot mit PHP. Gibt es eine kurze Anleitung, wo zu kleben. Meine Seite ist eine php-Website mit einem CMS und smarty. Es hat eine index.php Datei aufrufen der plugins. So Mach ich das include-und das nennen Sie es?
- wenn Sie mit einem PHP-CMS, verfügt es wahrscheinlich über eine PHP-Konfigurations-Datei (ie - 'config.php') definiert-Datenbank-Verbindung-Variablen. Ich würde Sie in die Datei, das ist wahrscheinlich nicht überschrieben werden, während upgrades, etc.
- WARNUNG: Wenn eine URL erst geteilt auf FB, es hat eine anfängliche kratzen der open-graph meta-tags und schnappt sich eine Kopie des og:image (featured image) für die URL. Wenn Sie blockieren diese ersten Anforderungen, Ihre FB-sharing-Vorschau gebrochen, ein Zustand die letzten Tage/Wochen in vielen Situationen. Sie WIRKLICH nicht wollen, versehentlich blockieren diese Anforderungen, was bedeutet, dass ein rate-limiting-Lösung wie die, die in diese Antwort ist gefährlich, da es keine Möglichkeit zu wissen, wenn es eine erste-kratzen oder eine re-kratzen der URL. FACEBOOK SAUGT für was uns in dieser situation.
- es ist wahr, was Sie sagen, aber welche alternative gibt es, außer weiterhin die Hervorhebung der Probleme, die hier und im bug-report hier: developers.facebook.com/support/bugs/1654459311255613
- Hey Sol. Ja das ist es eben, wir haben keine andere Wahl, als sich zu beschweren. Alles, was wir verwenden, um zu blockieren, ist es wahrscheinlich, um zu töten, unsere Facebook-Aktien. Ich will einfach nur die Leute zu warnen, dass die kluge blockiert wird, haben überraschende Nebenwirkungen.
InformationsquelleAutor Stickley
2

Facebook nutzt eigentlich dieses Algorithmus ist, dass Sie können prüfen, ob sich hier:

http://developers.facebook.com/tools/debug

Facebook-cache Lebensdauer dieser Daten ist variabel, aber es ist zwischen 24-48 Stunden aus meiner Erfahrung.

Können Sie jedoch den cache "entkräften", wenn Sie hinzufügen ein Teil Ihrer url, so dass die Nutzer teilen sich die neuen ein, ODER Sie können bit.ly (und wie) links, die die gleiche Wirkung haben wird.

Da es nicht wirklich krabbeln, Sie können nicht erzwingen, dass es zu Verzögerung einen kratzen (und Sie sollten nicht als schlechte user-experience - Sie würde eine Weile warten, für die Spachtel zu beenden, und Sie würden mit einem shareable link, der ist nicht schön). Sie können jedoch manuell auslösen das kratzen in Intervallen, so wie, um eine bessere user experience (Sie würden nicht warten, Daten werden zwischengespeichert) und server-load-balancing.
- Nicht wirklich, die Frage zu beantworten, oder geben Ihnen jede Hilfe, Umgang mit überlastung der Facebook-Verkehr. Facebook in der Dokumentation Ihre bot-Verhalten und dem tatsächlichen Verhalten abweichen, Massiv. Finden Sie in diesem bug-report für die Beispiele developers.facebook.com/bugs/1654459311255613
InformationsquelleAutor Mihalis Bagos
0

wenn Sie mit ubuntu-server, und Sie sind mit ufw-firewall können Sie versuchen,

ufw limit proto tcp from 31.13.24.0/21 port 80 auf jede

für alle diese IP-Adressen:
31.13.24.0/21
31.13.64.0/18
66.220.144.0/20
69.63.176.0/20
69.171.224.0/19
74.119.76.0/22
103.4.96.0/22
173.252.64.0/18
204.15.20.0/22

wie hier gezeigt:
Was ist der IP-Adressbereich von Facebook ' s Open Graph crawler?

InformationsquelleAutor user2241415

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.