Ist es möglich, die Steuerung der crawl-Geschwindigkeit von robots.txt?

Können wir sagen, bots Crawlen oder nicht durchforsten unserer website robot.txt. Auf der anderen Seite, wir können Steuern, die crawling-Geschwindigkeit in den Google-Webmaster (wie viel Google-bot crawlt die website). Ich Frage mich, ob es möglich ist, zu begrenzen die crawler-Aktivitäten durch robots.txt

Ich meine Annahme bots zum Crawlen von Seiten, sondern beschränken Ihre Anwesenheit durch Zeit oder die Seiten oder die Größe!

InformationsquelleAutor Googlebot | 2011-10-16

1

Nicht, dass ich gefunden habe. Robots.txt ist ein Ort, um Verzeichnisse oder Dateien, die Sie möchten, bots oder ausschließen. Wenn es einen Weg gibt, es ist nicht standard aber. Denken Sie daran, dass, wer schafft die bots wählt, ob oder nicht zu respektieren robots.txt nicht alle bots ("bad bots") Achtung diese Datei.

Derzeit, wenn es Einstellungen zu reduzieren crawl-Geschwindigkeit, Zeit auf der Baustelle, etc. es wäre ein bot, von bot-basis und nicht standardisiert in robots.txt Werte.

Mehr info: http://www.robotstxt.org/robotstxt.html
- Diese Antwort ist von 2011. Bitte berücksichtigen Sie dies. @Googlebot, vernünftig zu Lesen und akzeptieren Sie die bessere Antwort.
- Dies ist immer noch wahr. Es gibt eine Menge von bots, die nicht respektieren robots.txt und haben wir umgesetzt benutzerdefinierte rate limiting auf nginx zu verlangsamen die Geschwindigkeit, mit bekannten bots.
InformationsquelleAutor Gibron
11

Gibt es eine Richtlinie, die Sie verwenden können robots.txt es ist "Crawl-delay".

Crawl-delay: 5

Bedeutung Roboter sollen kriechen, nicht mehr als eine Seite pro 5 Sekunden.
Aber diese Richtlinie ist nicht offiziell unterstützt robots.txt soweit wie ich weiß.

Da gibt es auch einige Roboter, die nicht wirklich zählt robots.txt Datei überhaupt.
Also selbst wenn Sie nicht zugelassen haben Zugang zu einigen Seiten, die Sie noch bekommen kann, kroch durch einige Roboter, natürlich nicht die größten sind wie Google.

Baidu zum Beispiel könnte ignorieren robots.txt aber das ist nicht sicher.

Habe ich keine offizielle Quelle für diese info, so dass Sie können Google es einfach.
- Zuletzt hörte ich, Googlebot ignoriert Crawl-delay, so wird dies nicht wirklich helfen, für Google. Wird bei einigen anderen bots, aber. Ohne info, welche bots es funktioniert für, diese Antwort ist eher unvollständig.
- Mehr über Crawl-Delay sehen dies SO Frage: stackoverflow.com/questions/17377835/...
- Crawl-delay ist nicht Teil des Standards, aber einige bots, die es zu respektieren: en.wikipedia.org/wiki/...
- Nach diesem, Yahoo! Bing und Yandex alle respektieren es. Bing ist die schwerste crawler sowieso, also das ist eine gute Nachricht. yoast.com/ultimate-guide-robots-txt/#crawl-delay
- richtig ist, die meisten crawler Respekt Crawl-delay; Google-crawler ist so gut (wirklich, es ist so gut), dass es bestimmt die optimale crawl-rate automatisch so diese Einstellung ist nicht notwendig in Ihrem Fall. Bing zum Beispiel auf kleinen Websites, Millionen von Zeiten ein Monat ohne diese Richtlinie. Wir haben gesehen, wie er viele Male mit den Kunden.
InformationsquelleAutor ZurabWeb
1

Nein, die robots.txt - Datei kann nur angeben, welche Seiten Sie nicht indiziert werden sollen und welche user-agents diese Regeln gelten auch. Sie kann nichts anderes mit der Datei.

Einige Webseiten verwenden die Allow und Sitemap Richtlinien, aber Sie haben nicht zu sein scheinen gültigen Richtlinien laut der offiziellen website, obwohl einige crawler können diese auch respektieren.

InformationsquelleAutor animuson
1

Ich weiß, das ist eine wirklich alte Frage, aber ich wollte noch hinzufügen, dass laut der google-Dokumentation hier ist die offizielle Antwort:

Können Sie generell einstellen, die crawl-rate-Einstellung in Ihrem Google -
Webmaster-Tools-Konto.

pro: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

Innerhalb der webmaster-tools können Sie gehen Sie folgendermaßen vor:
1. Auf die Suche Console-Startseite auf die Website, die Sie wollen.
2. Klicken Sie auf das ZAHNRAD-Symbol , dann klicken Sie auf Site-Einstellungen.
3. In der Crawl-rate-Abschnitt, wählen Sie die option Sie wollen, und dann begrenzen Sie die crawl-rate wie gewünscht.
Den neuen crawl-Kurs für 90 Tage gültig.

ref: google-support-Frage
- ich habe gerade die crawl-rate und sagt es Ihr in einem Monat gültig, nicht 90 Tage
- du meinst Google nicht halten Sie Ihre docs aktualisiert? 🙂
InformationsquelleAutor john

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.