Verbieten oder Noindex auf Subdomain mit robots.txt
Habe ich dev.example.com und www.example.com gehostet auf verschiedenen subdomains. Ich will crawler löschen Sie alle Datensätze der dev
subdomain, sondern Sie bleiben auf www
. Ich bin mit git zum speichern der code für beide, also idealerweise möchte ich beide Seiten verwenden das gleiche robots.txt Datei.
Ist es möglich, verwenden Sie eine robots.txt Datei und haben es crawler ausgeschlossen von der dev
subdomain?
InformationsquelleAutor Kirk Ouimet | 2011-02-05
Du musst angemeldet sein, um einen Kommentar abzugeben.
Sorry, dies ist wahrscheinlich nicht möglich. Die Allgemeine Regel ist, dass jede sub-Domäne separat behandelt werden, und damit würde beiden müssen robots.txt -Dateien.
Oft subdomains umgesetzt werden Unterordner mit url-rewriting statt, der die Zuordnung, in dem Sie teilen möchten, zu einem einzigen robots.txt Datei über subdomains. Hier ist eine gute Diskussion, wie dies zu tun: http://www.webmasterworld.com/apache/4253501.htm.
Aber in Ihrem Fall will man anderes Verhalten für jede subdomain, welche auf erfordern eine separate Dateien.
InformationsquelleAutor toddles2000
Könnten Sie Apache rewrite-Logik zu dienen, einen anderen
robots.txt
auf die Entwicklung domain:Dann erstellen Sie eine separate
robots-dev.txt
:robots.txt
Datei OP wahrscheinlicher ist, re-vorstellen, das unerwünschte Verhalten, wenn die app ist umgezogen auf einen neuen host oder bei Modifikationen an den server-Einstellungen.InformationsquelleAutor Christian Davén
Beachten Sie, dass, wenn Sie blockieren die Google-Indexierung der Seiten unter der subdomain, die Sie nicht (in der Regel) sofort fallen aus dem Google-index. Es bloß hält Google von re-Indizierung dieser Seiten.
Wenn die dev subdomain ist nicht lanciert noch nicht, stellen Sie sicher, es hat seinen eigenen robots.txt verbieten alles.
Allerdings, wenn das dev subdomain bereits indexierten Seiten, dann müssen Sie die robots noindex-meta-tags, die erste (erfordert Google zum Crawlen der Seiten zuerst zu Lesen dieser Anfrage), richten Sie dann die robots.txt Datei für die dev subdomain wenn die Seiten gefallen haben aus dem Google-index (einrichten eines Google-Webmaster-Tools-Konto - hilft es, diese Arbeit heraus).
InformationsquelleAutor user3505611
Wenn die dev-site bereits indiziert wurden, zurückgeben 404 oder 410 Fehler für crawler zu delist Inhalt.
Wenn Ihr code ist vollkommen statisch, was Sie suchen, für die nicht-standard -
host
- Direktive:Aber wenn man eine Template-Sprache ist es möglich, halten Sie alles in eine einzelne Datei:
InformationsquelleAutor Josh Habdas