Tag: robots.txt
Robots.txt (die Robots Exclusion Protocol) ist eine Textdatei, die im Stammverzeichnis einer Website-Domäne, Anweisungen zu geben, um kompatible web-Roboter (wie Suchmaschinen-crawler) über die Seiten zu Crawlen und nicht kriechen, wie auch andere Informationen, wie eine XML-Sitemap Lage. In modernen frameworks kann es sinnvoll sein, die programmgesteuert generieren Sie die Datei. Allgemeine Fragen zu Suchmaschinen-Optimierung besser geeignet sind auf die Webmaster StackExchange Seite.
4
Antworten
Ich möchte eine Seite von meiner Website, die gecrawlt werden und keine andere. Auch, wenn es anders als in der Antwort oben, ich würde auch gerne wissen, die syntax für die Nichtanerkennung alles, aber der Stamm (index)
4
Antworten
Gibt es eine Möglichkeit, konfigurieren Sie die robots.txt so dass die Website akzeptiert NUR Besuche von Google, Yahoo! und MSN Spinnen? InformationsquelleAutor der Frage | 2009-03-22
1
Antworten
Gibt es eine Möglichkeit, colorcode/highlight robots.txt und .htaccess syntax? E. g. mit einem SublimeText2 plug-in. Ich fand diese, aber kann nicht herausfinden, wie es zu installieren: https://github.com/shellderp/sublime-robot-plugin InformationsquelleAutor der Frage Geo | 2013-01-04
4
Antworten
Benutze ich Github zu speichern, den text von einer meiner Webseiten, aber das problem ist, dass Google die Indizierung der text in Github als gut. Also der gleiche text wird zeigen, bis beide auf meiner Website und
6
Antworten
Ich bin mit nginx 0.6.32 als proxy-front-end für couchdb. Ich habe meine robots.txt in der Datenbank, zu erreichen http://www.example.com/prod/_design/mydesign/robots.txt. Ich habe auch meine sitemap.xml die dynamisch generiert werden, auf eine ähnliche url. Ich versucht habe die folgende