block google Roboter für URLS, die ein bestimmtes Wort enthalten
mein client hat eine Last von Seiten, die Sie nicht wollen, von google indexiert - Sie alle sind aufgerufen,
http://example.com/page-xxx
so sind Sie /Seite-123 oder /Seite-2 oder /Seite-25 etc
Gibt es eine Möglichkeit zu stoppen Sie google-Indizierung jede Seite beginnt mit /Seite-xxx verwenden robots.txt
wäre etwas ike diese Arbeit?
Disallow: /page-*
Dank
also ich habe entdeckt das oben funktioniert nicht, irgendwelche Vorschläge anyone?
InformationsquelleAutor JorgeLuisBorges | 2011-07-28
Du musst angemeldet sein, um einen Kommentar abzugeben.
In Erster Linie, eine Linie, die sagt
Disallow: /post-*
wird nicht alles tun, um zu verhindern, dass das Crawlen von Seiten der form "/Seite-xxx". Meinten Sie "Seite" in Ihr "Disallow" - Zeile, statt "post"?Verbieten, sagt, im wesentlichen, "disallow-urls beginnen mit diesem text". Also dein Beispiel Zeile verbieten jede url, die beginnt mit "/post-". (Das heißt, die Datei wird in das root-Verzeichnis und der name beginnt mit "post-".) Der Stern ist in diesem Fall überflüssig, da es impliziert.
Ihre Frage ist unklar, wie und wo die Seiten sind. Wenn Sie alle im root-Verzeichnis, dann eine einfache
Disallow: /page-
arbeiten. Wenn Sie sind verstreut in den Verzeichnissen, die in vielen verschiedenen Orten, dann sind die Dinge ein bisschen schwieriger.Als @user728345 darauf hingewiesen, dass der einfachste Weg (aus einer robots.txt Standpunkt) zu handhaben, ist die Sammlung aller Seiten, die Sie nicht wollen, kroch in ein Verzeichnis, und verbieten den Zugriff auf, die. Aber ich verstehe, wenn Sie sich nicht bewegen kann alle diese Seiten.
Googlebot speziell, und andere bots, die Unterstützung der gleichen wildcard-Semantik (es gibt eine erstaunliche Anzahl von Ihnen, einschließlich mir), sollten die folgenden arbeiten:
Disallow: /*page-
Entsprechen, wird enthält alles, was auf "Seite" überall. Es wird jedoch auch verhindern, dass so etwas wie "/test/thispage-123.html". Wenn Sie das verhindern wollen, dann denke ich (ich bin mir nicht sicher, ich habe es nicht ausprobiert), dass dies funktionieren wird:
Disallow: */page-
InformationsquelleAutor Jim Mischel
Sieht es aus wie die * funktioniert wie ein Google-Joker, so Ihre Antwort halten Sie von Google Crawlen, aber die Platzhalter werden nicht unterstützt, die von anderen Spinnen. Sie können eine Suche auf google nach robot.txt Platzhalter für weitere Infos. Ich würde sehen, http://seogadget.co.uk/wildcards-in-robots-txt/ für weitere Informationen.
Dann zog ich diese aus dem Google-Dokumentation:
Hinweis: Von was ich gelesen habe ist dies ein Google-Ansatzes. Offiziell gibt es keine Platzhalter erlaubt robots.txt für verbieten.
Dass es nicht funktioniert, haben Sie entweder die Möglichkeit, die Blockierung ein Verzeichnis (wenn Sie alle drin sind) oder zu versuchen, hinzufügen von meta-content/link-Inhalt dynamisch mit Hilfe von PHP -, Javascript-oder ein anderes Ihrer Wahl.
Ich würde vorschlagen, PHP oder etwas ähnliches wie Google wird wahrscheinlich nicht laden Sie die Javascript.
Hinweis: Googlebot-syntax wird nicht passieren die Validierung des Tests. Sie müssen testen, die gegen Googles eigene tools, ich glaube, man muss es manuell hinzufügen. Lesen Sie hier mehr google.com/support/webmasters/bin/answer.py?answer=156449, klicken Sie einfach auf den manuellen Teil.
scheint ein bisschen seltsam, dass die google webmaster-tools nicht überprüfen, dass die Methode! In der endi ich habe mich für eine Methode, fügt der Roboter den Unterricht in den meta von jeder Seite durch das cms.
InformationsquelleAutor Travis Pessetto
Könnte Sie alle Seiten, die Sie nicht wollen, zu bekommen, besucht in einem Ordner und verwenden Sie dann verbieten zu sagen, bots nicht zu besuchen, die Seiten in diesem Ordner.
Disallow: /private/
Ich weiß nicht sehr viel über robots.txt also ich bin mir nicht sicher, wie Sie Platzhalter verwenden möchten,
Hier heißt es "Sie nicht verwenden können, Platzhaltern oder regulären Ausdrücken in beiden User-agent" und "Disallow" - Zeilen."
http://www.robotstxt.org/faq/robotstxt.html
InformationsquelleAutor obesechicken13