Robots.txt - Was ist das richtige format für einen Crawl-Delay für mehrere user-agents?

Unten ist ein Beispiel robots.txt Datei zu Ermöglichen mehrere user-agents mit mehrere kriechen Verzögerungen für jeden Benutzer-agent. Die Crawl-delay-Werte sind zur Veranschaulichung und wird anders sein in einem echten robots.txt Datei.

Ich habe gesucht alle über das Internet für die richtigen Antworten, konnte aber keinen finden. Es gibt auch viele gemischte Vorschläge, und ich weiß nicht, welches das richtige /richtige Methode.

Fragen:

(1) Kann jeden Benutzer-agent über einen eigenen crawl-delay? (Ich nehme an ja)

(2) Wo stellst du die crawl-delay Zeile für jeden Benutzer-agent, vor oder nach dem Erlauben /Dissallow Linie?

(3) muss ein Leerzeichen sein, wie zwischen den einzelnen user-agent-Gruppe.

Referenzen:

http://www.seopt.com/2013/01/robots-text-file/

http://help.yandex.com/webmaster/?id=1113851#1113858

Grundsätzlich, ich bin auf der Suche, um herauszufinden, wie die Letzte robots.txt Datei suchen sollten, mit den Werten, die in der Probe unten.

Vielen Dank im Voraus.

# Allow only major search spiders    
User-agent: Mediapartners-Google
Disallow:
Crawl-delay: 11

User-agent: Googlebot
Disallow:
Crawl-delay: 12

User-agent: Adsbot-Google
Disallow:
Crawl-delay: 13

User-agent: Googlebot-Image
Disallow:
Crawl-delay: 14

User-agent: Googlebot-Mobile
Disallow:
Crawl-delay: 15

User-agent: MSNBot
Disallow:
Crawl-delay: 16

User-agent: bingbot
Disallow:
Crawl-delay: 17

User-agent: Slurp
Disallow:
Crawl-delay: 18

User-agent: Yahoo! Slurp
Disallow:
Crawl-delay: 19

# Block all other spiders
User-agent: *
Disallow: /

# Block Directories for all spiders
User-agent: *
Disallow: /ads/
Disallow: /cgi-bin/
Disallow: /scripts/

(4) Wenn ich will, um alle user-agents zu haben crawl-delay von 10 Sekunden, wäre das folgende richtig?

# Allow only major search spiders
User-agent: *
Crawl-delay: 10

User-agent: Mediapartners-Google
Disallow:

User-agent: Googlebot
Disallow:

User-agent: Adsbot-Google
Disallow:

User-agent: Googlebot-Image
Disallow:

User-agent: Googlebot-Mobile
Disallow:

User-agent: MSNBot
Disallow:

User-agent: bingbot
Disallow:

User-agent: Slurp
Disallow:

User-agent: Yahoo! Slurp
Disallow:

# Block all other spiders
User-agent: *
Disallow: /

# Block Directories for all spiders
User-agent: *
Disallow: /ads/
Disallow: /cgi-bin/
Disallow: /scripts/

InformationsquelleAutor der Frage Sammy | 2013-06-29

Schreibe einen Kommentar