Verbieten oder Noindex auf Subdomain mit robots.txt

Habe ich dev.example.com und www.example.com gehostet auf verschiedenen subdomains. Ich will crawler löschen Sie alle Datensätze der dev subdomain, sondern Sie bleiben auf www. Ich bin mit git zum speichern der code für beide, also idealerweise möchte ich beide Seiten verwenden das gleiche robots.txt Datei.

Ist es möglich, verwenden Sie eine robots.txt Datei und haben es crawler ausgeschlossen von der dev subdomain?

InformationsquelleAutor Kirk Ouimet | 2011-02-05

robots.txt

4

Sorry, dies ist wahrscheinlich nicht möglich. Die Allgemeine Regel ist, dass jede sub-Domäne separat behandelt werden, und damit würde beiden müssen robots.txt -Dateien.

Oft subdomains umgesetzt werden Unterordner mit url-rewriting statt, der die Zuordnung, in dem Sie teilen möchten, zu einem einzigen robots.txt Datei über subdomains. Hier ist eine gute Diskussion, wie dies zu tun: http://www.webmasterworld.com/apache/4253501.htm.

Aber in Ihrem Fall will man anderes Verhalten für jede subdomain, welche auf erfordern eine separate Dateien.

InformationsquelleAutor toddles2000
27

Könnten Sie Apache rewrite-Logik zu dienen, einen anderen robots.txt auf die Entwicklung domain:
```
<IfModule mod_rewrite.c>
    RewriteEngine on
    RewriteCond %{HTTP_HOST} ^dev\.qrcodecity\.com$
    RewriteRule ^robots\.txt$ robots-dev.txt
</IfModule>
```
Dann erstellen Sie eine separate robots-dev.txt:
```
User-agent: *
Disallow: /
```
Weil die Logik, die hier gepflegt wird, die außerhalb des robots.txt Datei OP wahrscheinlicher ist, re-vorstellen, das unerwünschte Verhalten, wenn die app ist umgezogen auf einen neuen host oder bei Modifikationen an den server-Einstellungen.

InformationsquelleAutor Christian Davén
3

Beachten Sie, dass, wenn Sie blockieren die Google-Indexierung der Seiten unter der subdomain, die Sie nicht (in der Regel) sofort fallen aus dem Google-index. Es bloß hält Google von re-Indizierung dieser Seiten.

Wenn die dev subdomain ist nicht lanciert noch nicht, stellen Sie sicher, es hat seinen eigenen robots.txt verbieten alles.

Allerdings, wenn das dev subdomain bereits indexierten Seiten, dann müssen Sie die robots noindex-meta-tags, die erste (erfordert Google zum Crawlen der Seiten zuerst zu Lesen dieser Anfrage), richten Sie dann die robots.txt Datei für die dev subdomain wenn die Seiten gefallen haben aus dem Google-index (einrichten eines Google-Webmaster-Tools-Konto - hilft es, diese Arbeit heraus).

InformationsquelleAutor user3505611
0

Ich möchten, dass Google zum löschen aller Datensätze der dev subdomain aber halten Sie die www.

Wenn die dev-site bereits indiziert wurden, zurückgeben 404 oder 410 Fehler für crawler zu delist Inhalt.

Ist es möglich, eine zu haben robots.txt Datei, schließt eine subdomain?

Wenn Ihr code ist vollkommen statisch, was Sie suchen, für die nicht-standard - host - Direktive:
```
User-agent: *
Host: www.example.com
```
Aber wenn man eine Template-Sprache ist es möglich, halten Sie alles in eine einzelne Datei:
```
User-agent: *
# if ENVIRONMENT variable is false robots will be disallowed.
{{ if eq (getenv "ENVIRONMENT") "production" }}
  Disallow: admin/
  Disallow:
{{ else }}
  Disallow: /
{{ end }}
```
InformationsquelleAutor Josh Habdas

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.