Ist es möglich, die Steuerung der crawl-Geschwindigkeit von robots.txt?
Können wir sagen, bots Crawlen oder nicht durchforsten unserer website robot.txt. Auf der anderen Seite, wir können Steuern, die crawling-Geschwindigkeit in den Google-Webmaster (wie viel Google-bot crawlt die website). Ich Frage mich, ob es möglich ist, zu begrenzen die crawler-Aktivitäten durch robots.txt
Ich meine Annahme bots zum Crawlen von Seiten, sondern beschränken Ihre Anwesenheit durch Zeit oder die Seiten oder die Größe!
Du musst angemeldet sein, um einen Kommentar abzugeben.
Nicht, dass ich gefunden habe. Robots.txt ist ein Ort, um Verzeichnisse oder Dateien, die Sie möchten, bots oder ausschließen. Wenn es einen Weg gibt, es ist nicht standard aber. Denken Sie daran, dass, wer schafft die bots wählt, ob oder nicht zu respektieren robots.txt nicht alle bots ("bad bots") Achtung diese Datei.
Derzeit, wenn es Einstellungen zu reduzieren crawl-Geschwindigkeit, Zeit auf der Baustelle, etc. es wäre ein bot, von bot-basis und nicht standardisiert in robots.txt Werte.
Mehr info: http://www.robotstxt.org/robotstxt.html
Gibt es eine Richtlinie, die Sie verwenden können robots.txt es ist "Crawl-delay".
Crawl-delay: 5
Bedeutung Roboter sollen kriechen, nicht mehr als eine Seite pro 5 Sekunden.
Aber diese Richtlinie ist nicht offiziell unterstützt robots.txt soweit wie ich weiß.
Da gibt es auch einige Roboter, die nicht wirklich zählt robots.txt Datei überhaupt.
Also selbst wenn Sie nicht zugelassen haben Zugang zu einigen Seiten, die Sie noch bekommen kann, kroch durch einige Roboter, natürlich nicht die größten sind wie Google.
Baidu zum Beispiel könnte ignorieren robots.txt aber das ist nicht sicher.
Habe ich keine offizielle Quelle für diese info, so dass Sie können Google es einfach.
Crawl-Delay
sehen dies SO Frage: stackoverflow.com/questions/17377835/...Crawl-delay
; Google-crawler ist so gut (wirklich, es ist so gut), dass es bestimmt die optimale crawl-rate automatisch so diese Einstellung ist nicht notwendig in Ihrem Fall. Bing zum Beispiel auf kleinen Websites, Millionen von Zeiten ein Monat ohne diese Richtlinie. Wir haben gesehen, wie er viele Male mit den Kunden.Nein, die
robots.txt
- Datei kann nur angeben, welche Seiten Sie nicht indiziert werden sollen und welche user-agents diese Regeln gelten auch. Sie kann nichts anderes mit der Datei.Einige Webseiten verwenden die
Allow
undSitemap
Richtlinien, aber Sie haben nicht zu sein scheinen gültigen Richtlinien laut der offiziellen website, obwohl einige crawler können diese auch respektieren.Ich weiß, das ist eine wirklich alte Frage, aber ich wollte noch hinzufügen, dass laut der google-Dokumentation hier ist die offizielle Antwort:
Innerhalb der webmaster-tools können Sie gehen Sie folgendermaßen vor:
Auf die Suche Console-Startseite auf die Website, die Sie wollen.
Klicken Sie auf das ZAHNRAD-Symbol , dann klicken Sie auf Site-Einstellungen.
In der Crawl-rate-Abschnitt, wählen Sie die option Sie wollen, und dann begrenzen Sie die crawl-rate wie gewünscht.
Den neuen crawl-Kurs für 90 Tage gültig.
ref: google-support-Frage