Tag: robots.txt

Robots.txt (die Robots Exclusion Protocol) ist eine Textdatei, die im Stammverzeichnis einer Website-Domäne, Anweisungen zu geben, um kompatible web-Roboter (wie Suchmaschinen-crawler) über die Seiten zu Crawlen und nicht kriechen, wie auch andere Informationen, wie eine XML-Sitemap Lage. In modernen frameworks kann es sinnvoll sein, die programmgesteuert generieren Sie die Datei. Allgemeine Fragen zu Suchmaschinen-Optimierung besser geeignet sind auf die Webmaster StackExchange Seite.

robots.txt, um alle Seiten bis auf eine zu sperren? Überschreiben und kaskadieren sie?

Anzahl der Antworten 4 Antworten
Ich möchte eine Seite von meiner Website, die gecrawlt werden und keine andere. Auch, wenn es anders als in der Antwort oben, ich würde auch gerne wissen, die syntax für die Nichtanerkennung alles, aber der Stamm (index)

Robots.txt: erlaube nur große SE

Anzahl der Antworten 4 Antworten
Gibt es eine Möglichkeit, konfigurieren Sie die robots.txt so dass die Website akzeptiert NUR Besuche von Google, Yahoo! und MSN Spinnen? InformationsquelleAutor der Frage | 2009-03-22

robots.txt und .htaccess Syntax markieren

Anzahl der Antworten 1 Antworten
Gibt es eine Möglichkeit, colorcode/highlight robots.txt und .htaccess syntax? E. g. mit einem SublimeText2 plug-in. Ich fand diese, aber kann nicht herausfinden, wie es zu installieren: https://github.com/shellderp/sublime-robot-plugin InformationsquelleAutor der Frage Geo | 2013-01-04

Wie kann ich verhindern, dass Google mein Github-Repository indexiert?

Anzahl der Antworten 4 Antworten
Benutze ich Github zu speichern, den text von einer meiner Webseiten, aber das problem ist, dass Google die Indizierung der text in Github als gut. Also der gleiche text wird zeigen, bis beide auf meiner Website und

Wie konfiguriere ich Nginx, um auf eine URL für robots.txt & amp; sitemap.xml

Anzahl der Antworten 6 Antworten
Ich bin mit nginx 0.6.32 als proxy-front-end für couchdb. Ich habe meine robots.txt in der Datenbank, zu erreichen http://www.example.com/prod/_design/mydesign/robots.txt. Ich habe auch meine sitemap.xml die dynamisch generiert werden, auf eine ähnliche url. Ich versucht habe die folgende