Wie konfiguriert man robots.txt um alles zu erlauben?

Meine robots.txt in den Google Webmaster-Tools zeigt die folgenden Werte:

User-agent: *
Allow: /

Was bedeutet es? Ich habe nicht genug wissen über Sie, so suchen Sie für Ihre Hilfe. Ich will, dass alle Roboter zu Crawlen meiner website, ist dies die richtige Konfiguration?

InformationsquelleAutor der Frage Raajpoot | 2010-11-25

robots.txt

126

Diese Datei ermöglicht es allen Crawlern der Zugriff
```
User-agent: *
Allow: /
```
Diese im Grunde können alle user-agents ( * ), um alle Teile der Website ( /).

InformationsquelleAutor der Antwort Jim
27

Wenn Sie zulassen möchten, dass jeder bot zum Crawlen von allem, ist dies der beste Weg, um geben Sie es in Ihrem robots.txt:
```
User-agent: *
Disallow:
```
Beachten Sie, dass die Disallow Feld Wert leer, was bedeutet, dass nach der Spezifikation:

Einen leeren Wert, der angibt, dass alle URLs abgerufen werden können.

Ihren Weg (mit Allow: / statt Disallow:) funktioniert auch, aber Allow ist nicht Teil der original robots.txt Spezifikationso dass es nicht unterstützt wird von allen bots (viele populäre Unterstützung, obwohl, wie der Googlebot). Das heißt, nicht erkannte Felder werden ignoriert, und für bots, die nicht erkennen Allowdas Ergebnis wäre das gleiche in diesem Fall jedenfalls: wenn nichts verboten ist, die gecrawlt werden (mit Disallow), ist alles erlaubt gecrawlt werden.

Aber formell (gemäß der ursprünglichen Spezifikation) es ist ein Ungültiger Eintrag, da mindestens eine Disallow Feld ist erforderlich:

Mindestens ein Disallow Feld muss vorhanden sein, die in einem Datensatz.

InformationsquelleAutor der Antwort unor
7

Es bedeutet, dass Sie zulassen, dass jeder (*) Benutzer-agent/crawler, um Zugriff auf die root (/) Ihrer Website. Du bist okay.

InformationsquelleAutor der Antwort Jordi
5

Ich verstehe, dass dies ist eine ziemlich alte Frage und hat einige ziemlich gute Antworten. Aber hier ist meine zwei Cent für das der Vollständigkeit halber.

Als nach den offiziellen Dokumentationgibt es vier Möglichkeiten, können Sie den kompletten Zugriff für robots den Zugang zu Ihrer Website.

Sauber :

Festlegen eines globalen matcher mit einem "disallow" - segment wie erwähnt von @unor. So Ihr /robot.txt sieht wie folgt aus.
```
User-agent: *
Disallow:
```
Den hack :

Erstellen Sie eine /robot.txt Datei ohne Inhalt. Die standardmäßig ermöglichen alle für alle Art von Bots.

I don ' T care so :

Nicht erstellen Sie eine /robot.txt insgesamt. Die Rendite die genauen gleichen Ergebnisse, als die beiden oben genannten.

Die hässlich :

Aus der Roboter-Dokumentation für meta-tagskönnen Sie den folgenden meta-tag auf allen Seiten Ihrer Website zu lassen, die Bots wissen, dass diese Seiten sollen nicht indexiert werden.
```
<META NAME="ROBOTS" CONTENT="NOINDEX">
```
Damit diese angewendet werden, um Ihre gesamte Website, müssen Sie hinzufügen dieses meta-Tags für alle Seiten. Und dieser tag sollte streng gestellt werden unter Ihrem HEAD - tag der Seite. Mehr über diesen meta-tag hier.

InformationsquelleAutor der Antwort Raja Anbazhagan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Sauber :

Den hack :

I don ' T care so :

Die hässlich :