Tag: robots.txt

Robots.txt (die Robots Exclusion Protocol) ist eine Textdatei, die im Stammverzeichnis einer Website-Domäne, Anweisungen zu geben, um kompatible web-Roboter (wie Suchmaschinen-crawler) über die Seiten zu Crawlen und nicht kriechen, wie auch andere Informationen, wie eine XML-Sitemap Lage. In modernen frameworks kann es sinnvoll sein, die programmgesteuert generieren Sie die Datei. Allgemeine Fragen zu Suchmaschinen-Optimierung besser geeignet sind auf die Webmaster StackExchange Seite.

robots.txt, um alle Seiten bis auf eine zu sperren? Überschreiben und kaskadieren sie?

4 Antworten

Ich möchte eine Seite von meiner Website, die gecrawlt werden und keine andere. Auch, wenn es anders als in der Antwort oben, ich würde auch gerne wissen, die syntax für die Nichtanerkennung alles, aber der Stamm (index)

robots.txt

Robots.txt: erlaube nur große SE

4 Antworten

Gibt es eine Möglichkeit, konfigurieren Sie die robots.txt so dass die Website akzeptiert NUR Besuche von Google, Yahoo! und MSN Spinnen? InformationsquelleAutor der Frage | 2009-03-22

robots.txt web-crawler

robots.txt und .htaccess Syntax markieren

1 Antworten

Gibt es eine Möglichkeit, colorcode/highlight robots.txt und .htaccess syntax? E. g. mit einem SublimeText2 plug-in. Ich fand diese, aber kann nicht herausfinden, wie es zu installieren: https://github.com/shellderp/sublime-robot-plugin InformationsquelleAutor der Frage Geo | 2013-01-04

.htaccess robots.txt sublimetext2

Wie kann ich verhindern, dass Google mein Github-Repository indexiert?

4 Antworten

Benutze ich Github zu speichern, den text von einer meiner Webseiten, aber das problem ist, dass Google die Indizierung der text in Github als gut. Also der gleiche text wird zeigen, bis beide auf meiner Website und

github robots.txt

Wie konfiguriere ich Nginx, um auf eine URL für robots.txt & amp; sitemap.xml

6 Antworten

Ich bin mit nginx 0.6.32 als proxy-front-end für couchdb. Ich habe meine robots.txt in der Datenbank, zu erreichen http://www.example.com/prod/_design/mydesign/robots.txt. Ich habe auch meine sitemap.xml die dynamisch generiert werden, auf eine ähnliche url. Ich versucht habe die folgende

nginx robots.txt