block google Roboter für URLS, die ein bestimmtes Wort enthalten

mein client hat eine Last von Seiten, die Sie nicht wollen, von google indexiert - Sie alle sind aufgerufen,

http://example.com/page-xxx

so sind Sie /Seite-123 oder /Seite-2 oder /Seite-25 etc

Gibt es eine Möglichkeit zu stoppen Sie google-Indizierung jede Seite beginnt mit /Seite-xxx verwenden robots.txt

wäre etwas ike diese Arbeit?

Disallow: /page-*

Dank

also ich habe entdeckt das oben funktioniert nicht, irgendwelche Vorschläge anyone?

InformationsquelleAutor JorgeLuisBorges | 2011-07-28

14

In Erster Linie, eine Linie, die sagt Disallow: /post-* wird nicht alles tun, um zu verhindern, dass das Crawlen von Seiten der form "/Seite-xxx". Meinten Sie "Seite" in Ihr "Disallow" - Zeile, statt "post"?

Verbieten, sagt, im wesentlichen, "disallow-urls beginnen mit diesem text". Also dein Beispiel Zeile verbieten jede url, die beginnt mit "/post-". (Das heißt, die Datei wird in das root-Verzeichnis und der name beginnt mit "post-".) Der Stern ist in diesem Fall überflüssig, da es impliziert.

Ihre Frage ist unklar, wie und wo die Seiten sind. Wenn Sie alle im root-Verzeichnis, dann eine einfache Disallow: /page- arbeiten. Wenn Sie sind verstreut in den Verzeichnissen, die in vielen verschiedenen Orten, dann sind die Dinge ein bisschen schwieriger.

Als @user728345 darauf hingewiesen, dass der einfachste Weg (aus einer robots.txt Standpunkt) zu handhaben, ist die Sammlung aller Seiten, die Sie nicht wollen, kroch in ein Verzeichnis, und verbieten den Zugriff auf, die. Aber ich verstehe, wenn Sie sich nicht bewegen kann alle diese Seiten.

Googlebot speziell, und andere bots, die Unterstützung der gleichen wildcard-Semantik (es gibt eine erstaunliche Anzahl von Ihnen, einschließlich mir), sollten die folgenden arbeiten:

Disallow: /*page-

Entsprechen, wird enthält alles, was auf "Seite" überall. Es wird jedoch auch verhindern, dass so etwas wie "/test/thispage-123.html". Wenn Sie das verhindern wollen, dann denke ich (ich bin mir nicht sicher, ich habe es nicht ausprobiert), dass dies funktionieren wird:

Disallow: */page-

Hi - ja die Seite/post-Ding war nur ein Tippfehler. Dies ist in der Fernen Vergangenheit so nicht überprüfen Sie Ihre Lösung, aber ich bekam eine Benachrichtigung, dass die Menschen immer noch an diese, so dass ich dachte, ich würde korrigieren Sie die Tippfehler. Wenn jemand bestätigen kann Jim ' s Lösung kann ich daneben als richtig.

InformationsquelleAutor Jim Mischel
1

Sieht es aus wie die * funktioniert wie ein Google-Joker, so Ihre Antwort halten Sie von Google Crawlen, aber die Platzhalter werden nicht unterstützt, die von anderen Spinnen. Sie können eine Suche auf google nach robot.txt Platzhalter für weitere Infos. Ich würde sehen, http://seogadget.co.uk/wildcards-in-robots-txt/ für weitere Informationen.

Dann zog ich diese aus dem Google-Dokumentation:

Pattern-matching

Googlebot (aber nicht alle Suchmaschinen) respektiert einige pattern-matching.

Entsprechen einer Sequenz von Zeichen, verwenden Sie ein Sternchen (*). Zum Beispiel, blockiert den Zugriff auf alle >Unterverzeichnisse, die beginnen mit privaten:

User-agent: Googlebot
Disallow: /private*/

Blockieren des Zugriffs auf alle URLs mit einem Fragezeichen (?) (genauer gesagt, der jede URL, die beginnt mit Ihrem domain-Namen, gefolgt von einer beliebigen Zeichenfolge, gefolgt von einem Fragezeichen, gefolgt von einer beliebigen Zeichenfolge):

User-agent: Googlebot
Disallow: /*?

Abgleichen mit dem Ende einer URL,$. Zum Beispiel, Zugriff auf alle URLs sperren, die Ende mit .xls:

User-agent: Googlebot
Disallow: /*.xls$

Können Sie dieses Muster-matching in Kombination mit der "Allow" - Richtlinie. Zum Beispiel, wenn ein ? gibt eine session-ID, können Sie ausschließen möchten alle URLs, die Sie enthalten, zu gewährleisten Googlebot nicht Crawlen doppelte Seiten. Aber URLs, die enden mit ? kann die version der Seite, die einbezogen werden soll. Für diese situation können Sie Ihre robots.txt Datei wie folgt:

User-agent: *
Allow: /?$
Disallow: /?

Disallow: /*? Richtlinie blockiert alle URLs, die ein ? (genauer gesagt, es wird blockieren jede URL beginnt mit dem Namen Ihrer domain, gefolgt von einer beliebigen Zeichenfolge, gefolgt von einem Fragezeichen, gefolgt von einer beliebigen Zeichenfolge).

Den Allow: /*?$ die Richtlinie wird damit jede URL endet mit einem ? (genauer gesagt, es wird jede URL, die beginnt mit Ihrem domain-Namen, gefolgt von einer Zeichenfolge, gefolgt von einem? keine Zeichen nach dem ?).

Speichern Sie Ihre robots.txt Datei durch das herunterladen der Datei, oder kopieren Sie den Inhalt in eine text-Datei und speichern als robots.txt. Speichern Sie die Datei in das Verzeichnis der höchsten Ebene Ihrer Website. Die robots.txt die Datei muss sich im Stammverzeichnis der domain und muss benannt werden "robots.txt". Ein robots.txt die Datei liegt in einem Unterverzeichnis ist nicht gültig, da bots nur prüfen, ob diese Datei in der root der domain. Zum Beispiel, http://www.example.com/robots.txt ist ein Gültiger Pfad ist, aber http://www.example.com/mysite/robots.txt nicht.

Hinweis: Von was ich gelesen habe ist dies ein Google-Ansatzes. Offiziell gibt es keine Platzhalter erlaubt robots.txt für verbieten.

Ich habe überprüft, dass aus - scheint nicht zu funktionieren. geprüft mit dieser - und wasn;t allowed zu fügen Sie es in googles robots.txt generator
Dass es nicht funktioniert, haben Sie entweder die Möglichkeit, die Blockierung ein Verzeichnis (wenn Sie alle drin sind) oder zu versuchen, hinzufügen von meta-content/link-Inhalt dynamisch mit Hilfe von PHP -, Javascript-oder ein anderes Ihrer Wahl.
Ich würde vorschlagen, PHP oder etwas ähnliches wie Google wird wahrscheinlich nicht laden Sie die Javascript.
Hinweis: Googlebot-syntax wird nicht passieren die Validierung des Tests. Sie müssen testen, die gegen Googles eigene tools, ich glaube, man muss es manuell hinzufügen. Lesen Sie hier mehr google.com/support/webmasters/bin/answer.py?answer=156449, klicken Sie einfach auf den manuellen Teil.
scheint ein bisschen seltsam, dass die google webmaster-tools nicht überprüfen, dass die Methode! In der endi ich habe mich für eine Methode, fügt der Roboter den Unterricht in den meta von jeder Seite durch das cms.

InformationsquelleAutor Travis Pessetto
0

Könnte Sie alle Seiten, die Sie nicht wollen, zu bekommen, besucht in einem Ordner und verwenden Sie dann verbieten zu sagen, bots nicht zu besuchen, die Seiten in diesem Ordner.

Disallow: /private/

Ich weiß nicht sehr viel über robots.txt also ich bin mir nicht sicher, wie Sie Platzhalter verwenden möchten,
Hier heißt es "Sie nicht verwenden können, Platzhaltern oder regulären Ausdrücken in beiden User-agent" und "Disallow" - Zeilen."
http://www.robotstxt.org/faq/robotstxt.html

leider, die manuell zu verschieben um die 1000 Dateien!

InformationsquelleAutor obesechicken13

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.