Wie konfiguriert man robots.txt um alles zu erlauben?
Meine robots.txt
in den Google Webmaster-Tools zeigt die folgenden Werte:
User-agent: *
Allow: /
Was bedeutet es? Ich habe nicht genug wissen über Sie, so suchen Sie für Ihre Hilfe. Ich will, dass alle Roboter zu Crawlen meiner website, ist dies die richtige Konfiguration?
InformationsquelleAutor der Frage Raajpoot | 2010-11-25
Du musst angemeldet sein, um einen Kommentar abzugeben.
Diese Datei ermöglicht es allen Crawlern der Zugriff
Diese im Grunde können alle user-agents ( * ), um alle Teile der Website ( /).
InformationsquelleAutor der Antwort Jim
Wenn Sie zulassen möchten, dass jeder bot zum Crawlen von allem, ist dies der beste Weg, um geben Sie es in Ihrem robots.txt:
Beachten Sie, dass die
Disallow
Feld Wert leer, was bedeutet, dass nach der Spezifikation:Ihren Weg (mit
Allow: /
stattDisallow:
) funktioniert auch, aberAllow
ist nicht Teil der original robots.txt Spezifikationso dass es nicht unterstützt wird von allen bots (viele populäre Unterstützung, obwohl, wie der Googlebot). Das heißt, nicht erkannte Felder werden ignoriert, und für bots, die nicht erkennenAllow
das Ergebnis wäre das gleiche in diesem Fall jedenfalls: wenn nichts verboten ist, die gecrawlt werden (mitDisallow
), ist alles erlaubt gecrawlt werden.Aber formell (gemäß der ursprünglichen Spezifikation) es ist ein Ungültiger Eintrag, da mindestens eine
Disallow
Feld ist erforderlich:InformationsquelleAutor der Antwort unor
Es bedeutet, dass Sie zulassen, dass jeder (
*
) Benutzer-agent/crawler, um Zugriff auf die root (/
) Ihrer Website. Du bist okay.InformationsquelleAutor der Antwort Jordi
Ich verstehe, dass dies ist eine ziemlich alte Frage und hat einige ziemlich gute Antworten. Aber hier ist meine zwei Cent für das der Vollständigkeit halber.
Als nach den offiziellen Dokumentationgibt es vier Möglichkeiten, können Sie den kompletten Zugriff für robots den Zugang zu Ihrer Website.
Sauber :
Festlegen eines globalen matcher mit einem "disallow" - segment wie erwähnt von @unor. So Ihr
/robot.txt
sieht wie folgt aus.Den hack :
Erstellen Sie eine
/robot.txt
Datei ohne Inhalt. Die standardmäßig ermöglichen alle für alle Art vonBots
.I don ' T care so :
Nicht erstellen Sie eine
/robot.txt
insgesamt. Die Rendite die genauen gleichen Ergebnisse, als die beiden oben genannten.Die hässlich :
Aus der Roboter-Dokumentation für meta-tagskönnen Sie den folgenden meta-tag auf allen Seiten Ihrer Website zu lassen, die
Bots
wissen, dass diese Seiten sollen nicht indexiert werden.Damit diese angewendet werden, um Ihre gesamte Website, müssen Sie hinzufügen dieses meta-Tags für alle Seiten. Und dieser tag sollte streng gestellt werden unter Ihrem
HEAD
- tag der Seite. Mehr über diesen meta-tag hier.InformationsquelleAutor der Antwort Raja Anbazhagan