Google: Deaktivieren Sie bestimmte querystring in robots.txt
http://www.site.com/shop/maxi-dress?colourId=94&optId=694
http://www.site.com/shop/maxi-dress?colourId=94&optId=694&product_type=sale
Habe ich Tausende von URLs wie oben. Verschiedene Kombinationen und Namen.
Ich habe auch Duplikate von URLs, die den query-string product_type=sale
Möchte ich deaktivieren Sie die Google-Indexierung nichts mit product_type=sale
Ist dies möglich robots.txt
InformationsquelleAutor der Frage TheBlackBenzKid | 2013-10-01
Du musst angemeldet sein, um einen Kommentar abzugeben.
Google unterstützt wildcards in robots.txt. Die folgende Richtlinie in robots.txt wird verhindern, dass der Googlebot crawlt eine beliebige Seite, die hat keine Parameter:
Dies wird nicht verhindern, dass viele andere Spider Crawlen dieser URLs, weil wildcards sind nicht Teil des standard robots.txt.
Google kann sich Zeit nehmen zum entfernen der URLs, die Sie blockiert haben, aus dem Suchindex. Die zusätzlichen URLs können noch indiziert werden, die für Monate. Sie können den Prozess beschleunigen, indem die "URLs Entfernen" - Funktion in den webmaster-tools nachdem Sie gesperrt wurden. Aber das ist ein manueller Prozess, in dem Sie haben, um die paste in jede einzelne URL, die Sie entfernt haben möchten.
Kann es auch verletzt, Ihre Website Google-rankings zur Nutzung dieser robots.txt Regel in dem Fall, dass Googlbot nicht die version von der URL ohne Parameter. Wenn Sie Häufig link zu den Versionen mit Parametern, die Sie wahrscheinlich nicht wollen, blockieren Sie Sie in robots.txt. Es wäre besser, verwenden Sie eine der anderen Optionen unten.
Eine bessere option ist die Verwendung der rel canonical-meta-tag auf jeder Ihrer Seiten.
Also sowohl dein Beispiel-URLs würden Sie Folgendes in den head-Abschnitt:
Erzählt, dass der Googlebot nicht zu index so viele Variationen von der Seite, nur den index der "kanonische" version der URL, die Sie wählen. Im Gegensatz zur Verwendung von robots.txt Googlebot noch in der Lage sein zu kriechen alle Ihre Seiten und einen Wert zuweisen, um Sie, auch wenn Sie verwenden eine Vielzahl von URL-Parametern.
Andere Möglichkeit ist der log-in Google Webmaster-Tools und verwenden Sie die "URL-Parameter" - Funktion ist in der "Crawl" - Abschnitt.
Einmal dort, klicken Sie auf "parameter Hinzufügen". Sie können "product_type", um "sich nicht auf die Seite, die Inhalte", so dass Google nicht Crawlen und indizieren von Seiten, die mit diesem parameter.
Tun das gleiche für jeden der Parameter, die Sie verwenden, die nicht die Seite wechseln.
InformationsquelleAutor der Antwort Stephen Ostermiller
Ja, das ist ganz gerade nach vorne zu tun. Fügen Sie die folgende Zeile in Ihre robots.txt Datei:
Den vorherigen wild card (*) bedeutet, dass alle URLs mit
product_type=sale
wird nicht mehr von Google gecrawlt.Obwohl Sie bleiben noch im index von Google, wenn Sie es bisher nicht, aber Google nicht mehr Crawlen Sie, und bei der Anzeige in einer Google-Suche wird sagen : Eine Beschreibung für dieses Ergebnis ist nicht verfügbar, weil dieser Website robots.txt – erfahren Sie mehr.
Weiter Lesen hier: Robots.txt Spezifikationen
InformationsquelleAutor der Antwort moobot