Wie nicht zulassen, eine mirror-Website (sub-domain) mit robots.txt?
Ich habe eine website, nämlich :
http://domain.com/
Spiegel auf
http://cdn.domain.com/
Ich will nicht cdn
indiziert werden. Wie kann ich schreiben robots.txt
Regel zu vermeiden, die cdn
indiziert ohne meine Gegenwart robots.txt
ausschließt.
Meiner jetzigen robots.txt
schließt :
User-agent: *
Disallow: /abc.php
Wie kann ich vermeiden cdn.domain.com
indiziert ?
User-agent: *
Disallow: /abc.php
Try this
: Ich denke, Sie könnten ein separates robots.txt Datei in der sub-domain und machen Sie Ihre AUSSCHLÜSSE von dort. Können Sie blockieren eine ganze subdomain via robots.txt aber Sie müssen, um einen robots.txt Datei und legen Sie Sie in das root der subdomain, dann fügen Sie den code, um direkt die bots fern zu bleiben, die gesamte sub-Domain-Inhalte.User-agent: *
-Disallow: /
- Konsultieren Sie stackoverflow.com/questions/4904642/...
- Sie könnten einen robots-cdn.txt und indescriminately umschreiben robots.txt auf die von den sub-Domain-virtural-host.
- Kann-nicht anders
robots.txt
da es ein cdn und kann-nicht über andere codebase. - Ich bin nicht vorschlagen, dass ... ich bin, was eine zusätzliche Datei robots genannt robots-cdn.txt das wird, von der Magie der Neufassung serviert werden auf den cdn anstelle der robots.txt
- Jetzt läuft es auf
what have you tried?
. - Es ist im Grunde die nicht-akzeptierte Antwort auf die Frage, die @Fred verwiesen
- Ich bin fast Angst zu
post it as an answer
lol! Wir wissen nicht, was der OP versucht, oder noch nicht ausprobiert. - gehen für Sie ... Sie fanden docs... ich war zu erraten 🙂
- Gehen für es. Cheers
- Danke @Orangepill. Jungs vielen Dank für eine große Anstrengung. Alle diejenigen, die mis-verstanden die Fragen stimmten Sie nieder.
Du musst angemeldet sein, um einen Kommentar abzugeben.
in Ihrer Wurzel .htaccess-Datei fügen Sie die folgende
Erstellen und dann einen separaten robots-cdn.txt:
Wenn auf Sie zugegriffen wird, werden über http://cdn.domain.com/robots.txt zurückkehren wird, die Inhalte der robots-cdn.txt Datei... sonst wird das umschreiben nicht kick und die wahre robots.txt wird kick in.
Diese Weise sind Sie frei, um den Spiegel der gesamten Website (einschließlich, der .htaccess-Datei) mit dem erwarteten Verhalten
Update :
HTTP_USER_AGENT
hat es da Amazon es verwendet, beim Abfragen von jedem beliebigen Ort aus.HTTP_USER_AGENT
arbeitete stattdessen füramazon
. Ich habe die erforderlichen änderungen in die Antwort. Danke.Wenn die codebase, die gleichen sind, können Sie generieren Ihre
robots.txt
dynamisch und ändern Sie dessen Inhalt je nach den gewünschten (sub -) domain.