Tag: robots.txt
Robots.txt (die Robots Exclusion Protocol) ist eine Textdatei, die im Stammverzeichnis einer Website-Domäne, Anweisungen zu geben, um kompatible web-Roboter (wie Suchmaschinen-crawler) über die Seiten zu Crawlen und nicht kriechen, wie auch andere Informationen, wie eine XML-Sitemap Lage. In modernen frameworks kann es sinnvoll sein, die programmgesteuert generieren Sie die Datei. Allgemeine Fragen zu Suchmaschinen-Optimierung besser geeignet sind auf die Webmaster StackExchange Seite.
1
Antworten
Ich brauchen, um zu bauen die kleine Suchmaschine wie Google verwenden ASP.NET MVC-3. Für diese hier habe ich auch zum erstellen der web-crawler, die füllen Sie die Daten für die Suchmaschine. In Zusammenfassung, die ich benötigen die
5
Antworten
Tut Facebook das webcrawling bots Achtung der Crawl-delay: Richtlinie in robots.txt Dateien? Ich war mir nicht bewusst, dass facebook bots hatte... interessant! facebookexternalhit/* wo * ist die Versionsnummer. Siehe: facebook.com/externalhit_uatext.php und developers.facebook.com/docs/best-practices/... Nicht Facebook nur kriechen einen
3
Antworten
Ich bin mit einer Website, die erlaubt Benutzern das erstellen von subdomains. Ich würde gerne diese user-subdomains, um Suchmaschinen über XML-sitemaps. Allerdings, nach dem sitemaps-Protokoll (und den Google Webmaster-Tools), eine einzelne XML-sitemap können URLs nur von einem
1
Antworten
Wie zu verbieten, alle für alle user-agents mit einer Ausnahme-user-agent? Zum Beispiel verbieten, alle für alle user agent, aber für den Googlebot nur? Diese Frage ist so etwas wie eine doppelte: stackoverflow.com/questions/671491/... InformationsquelleAutor Kirzilla | 2015-11-09
2
Antworten
Ich möchte ermöglicht das durchforsten von Dateien in: /directory/ aber nicht das Crawlen von Dateien in: /directory/subdirectory/ Ist die richtige robots.txt Anleitung: User-agent: * Disallow: /subdirectory/ Ich habe Angst, dass wenn ich nicht zulässig /Verzeichnis/Unterverzeichnis/ ich würde
2
Antworten
Tut, diese zu blockieren oder erlauben den Google-bot Zugriff? User-Agent: Googlebot Allow: /*.js* Allow: /*.css* Weiß niemand, oben robots.txt format ist blockiert oder die Möglichkeit den Google-Bot Zugriff? InformationsquelleAutor S S | 2015-07-29
1
Antworten
Ich habe ein problem mit try_files nicht erscheinen, pass off Anfragen für nicht vorhandene Dateien auf den zuletzt angegebenen Wert, in meinem Fall index.php. Ich bin mit WordPress und der XML-Sitemap-generator-plugin verwende ich virtuelle XML-Dateien und ein
2
Antworten
Ich versuche zu Bearbeiten robots.txt Datei in wordpress. Kann ich dies manuell tun. Gibt es eine Möglichkeit in wordpress (ohne plugins installieren) Bearbeiten robots.txt oder man installiert ein plugin für diesen Zweck? Gerne werde ich die Frage
2
Antworten
erlebt ein seltsames Problem mit einem wordpress-Seiten meta-robots-tag. Alle Seiten haben das folgende meta-tag, und wir kann nicht scheinen, um es zu entfernen <meta name="robots" content="noindex,follow"/> Haben wir deaktiviert "Entmutigen Suchmaschinen von der Indizierung dieser Website" in
2
Antworten
Ich kann nicht scheinen, um diese zu arbeiten, aber es scheint wirklich basic. Möchte ich die root-domain gecrawlt werden http://www.example.com Aber sonst nichts durchsucht und alle Unterverzeichnisse werden dynamisch http://www.example.com/* Versuchte ich User-agent: * Allow: / Disallow:
2
Antworten
wie zu verbieten, alle dynamischen urls in robots.txt Disallow: /?q=admin/ Disallow: /?q=aggregator/ Disallow: /?q=comment/reply/ Disallow: /?q=contact/ Disallow: /?q=logout/ Disallow: /?q=node/add/ Disallow: /?q=search/ Disallow: /?q=user/password/ Disallow: /?q=user/register/ Disallow: /?q=user/login/ möchte ich, dass alle Dinge, die mit /?q= Nach
2
Antworten
Ich habe eine website, nämlich : http://domain.com/ Spiegel auf http://cdn.domain.com/ Ich will nicht cdn indiziert werden. Wie kann ich schreiben robots.txt Regel zu vermeiden, die cdn indiziert ohne meine Gegenwart robots.txt ausschließt. Meiner jetzigen robots.txt schließt :
2
Antworten
Meine website ist partyhousepong.com und es ist ein "opencart" - Website. Ich sah einige SEO-Erfolg, aber da das hinzufügen dieser robot.txt Datei mein Ranking ist gefallen, und nicht alle von meiner Website maps indiziert werden. Meinst du
1
Antworten
Ich habe ein web-crawler, die bekommt alle links, bis die 1. Ebene der Seite und von Ihnen bekommt es jeder link und text plus imagelinks und alt. hier ist der ganze code: import urllib import re import
2
Antworten
Lese ich ein wenig über robots.txt und ich habe gelesen, ich sollte nicht zulassen, alle Ordner in meinem web-Anwendung, aber ich würde gern erlauben bots zu Lesen, Hauptseite und eine Ansicht (url ist zum Beispiel: www.mywebapp/searchresults -
6
Antworten
Ersten Nein, ich bin nicht zu Fragen, Sie um mich zu lehren, hacking, ich bin einfach nur neugierig über diese Datei und Ihr Inhalt. Meine Reise Wenn ich tauchte ein in die neue HTML5 Boilerplate ich kam
2
Antworten
Google Chrome 17 wurde eine neue feature die Vorspannkraft einer Webseite zur Verbesserung der rendering-Geschwindigkeit bei der tatsächlich die Anforderung (drücken der EINGABETASTE in der omnibar). Zwei Fragen: Gibt es einen HTTP-header zu erkennen, wie eine Anfrage
1
Antworten
Ich möchte, dass Roboter durchforstet beliebigen Ordner an einer beliebigen position in die url mit den Namen: this-folder. Beispiele disallow: http://mysite.com/this-folder/ http://mysite.com/houses/this-folder/ http://mysite.com/some-other/this-folder/ http://mysite.com/no-robots/this-folder/ Dies ist mein Versuch: Disallow: /.*this-folder/ Wird das funktionieren? InformationsquelleAutor Michael Robinson |
1
Antworten
Ich weiß, diese Frage wurde viele Male gefragt, aber ich möchte, um genauer zu sein. Ich eine Entwicklung domain-und zog die Seite auf einen Unterordner. Lassen Sie uns sagen, aus: http://www.example.com/ Zu: http://www.example.com/backup So, ich möchte die
6
Antworten
Aus irgendeinem Grund, will ich dienen mein robots.txt über ein PHP-script. Ich habe das setup von apache, so dass die robots.txt Datei-Anfrage (infact alle Datei-Zugriffe) kommen, um ein einziges PHP-Skript. Den code, den ich benutze zum Rendern
1
Antworten
Ich versuche, meine robots.txt aber ich bin nicht sicher über die regexps. Habe ich vier verschiedene Seiten, die alle in drei verschiedenen Sprachen. Anstelle der Liste auf jeder Seite 3 mal, ich dachte, ich könnte mit einem
3
Antworten
Ich einfach immer eine Nachricht über "In den letzten 24 Stunden, Googlebot festgestellt 1 Fehler beim Zugriff auf Ihr robots.txt. Um sicherzustellen, dass wir nicht kriechen, werden alle Seiten aufgelistet, die in dieser Datei, verschoben wir unsere
4
Antworten
Können wir sagen, bots Crawlen oder nicht durchforsten unserer website robot.txt. Auf der anderen Seite, wir können Steuern, die crawling-Geschwindigkeit in den Google-Webmaster (wie viel Google-bot crawlt die website). Ich Frage mich, ob es möglich ist, zu
1
Antworten
Wenn ich Suche meine website in google, es zeigt, wie den ersten Platz mit meiner domain, aber die Beschreibung ist "Keine Informationen für diese Seite verfügbar ist." in Ordnung, korrigierte ich meinen robots.txt wie diese User-agent: *
4
Antworten
Habe ich die folgenden .htaccess-Datei in meinem root: Options +FollowSymlinks RewriteEngine on RewriteBase / RewriteRule ^(.*)\/(\?.*)?$ $1$2 [R=301,L] RewriteRule ^([^/]*)$ index.php?page=$1 [NC] Dieser funktioniert wie es sollte für die Verkürzung alle meine URLs zu website.com/something Das problem
4
Antworten
[UPDATE 2013] Ich kann nicht finden, eine autorisierende Seite mit einem format für robots.txt Datei für WordPress. Ich habe Versprechen zu halten auf meiner Seite, aber ich möchte hier auf stack overflow. Wenn Sie wissen, was Ihr
2
Antworten
meine website ist oft down, weil eine Spinne ist accessying zu viele Ressourcen. Dies ist, was die hosting sagte mir. Sie sagte mir zu verbieten diese IP-Adresse: 46.229.164.98 46.229.164.100 46.229.164.101 Aber ich habe keine Ahnung, wie dies
3
Antworten
Ich bin mit Tomcat 7 als host für meine Anwendung. Ich habe eine ROOT.xml Datei unter tomcat-home\conf\Catalina\localhost <Context docBase="C:\Program Files\Apache Software Foundation\Tomcat 7.0\mywebapp\MyApplication" path="" reloadable="true" /> Dies ist zum laden meiner webapp in den root-Kontext. Aber jetzt
3
Antworten
Wir implementiert ein rating-system auf einer Website eine Weile zurück, dass beinhaltet einen link zu einem Skript. Jedoch, mit der überwiegenden Mehrheit der Bewertungen auf der Website bei 3/5 und die Bewertungen sehr auch über 1-5 wir
3
Antworten
Muss ich verbieten http://example.com/startup?page=2 Suche Seiten indiziert. Möchte ich http://example.com/startup indiziert werden, aber nicht http://example.com/startup?page=2 und page3 und so weiter. Auch, Hochfahren kann zufällig sein, z.B., http://example.com/XXXXX?page InformationsquelleAutor pmarreddy | 2009-10-04
2
Antworten
Habe ich www.domainname.com, origin.domainname.com auf das gleiche Codebasis. Gibt es eine Möglichkeit, ich kann verhindern, dass alle urls von basename origin.domainname.com aus immer indiziert. Gibt es einige Regel in robot.txt um es zu tun. Beide urls zeigen
4
Antworten
Ist es möglich, in robots.txt zum geben einer Anweisung auf mehrere bots ohne sich wiederholt haben, es zu erwähnen? Beispiel: User-agent: googlebot yahoobot microsoftbot Disallow: /boringstuff/ Ich habe eine sehr ähnliche Frage an Webmaster.stackexchange, da dachte ich,
8
Antworten
Ich habe eine Probleme, weil 360Spider: dieser bot macht zu viele requests pro Sekunde auf meinem VPS und verlangsamt Sie (die CPU-Auslastung wird 10-70%, aber ich habe in der Regel 1-2%). Ich schaute in die httpd-logs und
3
Antworten
mein client hat eine Last von Seiten, die Sie nicht wollen, von google indexiert - Sie alle sind aufgerufen, http://example.com/page-xxx so sind Sie /Seite-123 oder /Seite-2 oder /Seite-25 etc Gibt es eine Möglichkeit zu stoppen Sie google-Indizierung
4
Antworten
Wo setzen sollte robots.txt? domainname.com/robots.txt oder domainname/public_html/robots.txt Legte ich die Datei im domainname.com/robots.txt, aber es nicht öffnen wenn ich diese im browser. alt-text http://shup.com/Shup/358900/11056202047-My-Desktop.png InformationsquelleAutor Jitendra Vyas | 2010-06-06
4
Antworten
Habe ich dev.example.com und www.example.com gehostet auf verschiedenen subdomains. Ich will crawler löschen Sie alle Datensätze der dev subdomain, sondern Sie bleiben auf www. Ich bin mit git zum speichern der code für beide, also idealerweise möchte
1
Antworten
Ich bin den Start einer Rails-app, und als die Letzte Aufgabe, ich wan ' T, um die robots.txt Datei. Ich konnte nicht finden Informationen, wie die Pfade sollten richtig geschrieben werden, für eine Rails-app. Ist der Start-Pfad
5
Antworten
Wenn ich will, dass nur crawler-Zugriff index.php wird das funktionieren? User-agent: * Disallow: / Allow: /index.php Ich bin neugierig, warum würden Sie wollen, dies zu tun...würden Sie es nicht wollen-crawler zu indizieren viel mehr von Ihrer Website?
4
Antworten
Ich bin Schaffung von zwei Seiten auf meiner Website, die sehr ähnlich sind, aber unterschiedlichen Zwecken dienen. Man ist zu danken, die Benutzer für das verlassen einen Kommentar und die andere ist um die Benutzer zu ermutigen
3
Antworten
Kann jemand bitte erklären Sie das richtige Robots.txt Befehl für das folgende Szenario. Möchte ich den Zugriff erlauben: /Verzeichnis/Unterverzeichnis/.. Aber ich möchte auch Zugriff auf /Verzeichnis/ nicht standhalten die obige Ausnahme. InformationsquelleAutor der Frage QFDev | 2011-09-30
3
Antworten
Bingbot geändert auf meine Website ziemlich hart für ein paar Stunden jeden Tag, und wird extrem leicht für den rest der Zeit. Ich würde entweder gerne zu glätten Ihren kriecht, reduzieren Sie die Geschwindigkeit zu begrenzen oder
3
Antworten
Ich aufhören wollen Suchmaschinen das Crawlen meiner gesamten website. Ich habe eine web-Anwendung für die Mitglieder eines Unternehmens zu verwenden. Diese wird auf einem Webserver gehostet, so dass die Mitarbeiter des Unternehmens zugreifen können. Niemand sonst (in
1
Antworten
Unten ist ein Beispiel robots.txt Datei zu Ermöglichen mehrere user-agents mit mehrere kriechen Verzögerungen für jeden Benutzer-agent. Die Crawl-delay-Werte sind zur Veranschaulichung und wird anders sein in einem echten robots.txt Datei. Ich habe gesucht alle über das
3
Antworten
Möchte ich für google zu ignorieren, urls wie diese: http://www.mydomain.com/new-printers?dir=asc&order=price&p=3 Alle urls, die Parameter der dir, der Ordnung und der Preis sollte ignoriert werden, aber I dont haben Erfahrung mit Robots.txt. Irgendeine Idee? InformationsquelleAutor der Frage Luis
5
Antworten
Sagen, ich habe eine Website, auf http://example.com. Ich würde wirklich gerne, so dass bots finden Sie auf der Homepage, aber auch jede andere Seite blockiert, da es sinnlos ist spider. In anderen Worten http://example.com & http://example.com/ erlaubt
3
Antworten
Habe ich die Suche mit Google, aber ich kann nicht finden, eine Antwort auf diese Frage. A robots.txt die Datei enthält die folgende Zeile: Sitemap: http://www.mysite.com/sitemapindex.xml ist es jedoch möglich, geben Sie mehrere sitemap-Indexdateien in den robots.txt
4
Antworten
Zur Zeit arbeite ich an einer Anwendung gebaut, mit Express - (Node.js) und ich will wissen, was ist der Klügste Weg, um die Handhabung der verschiedenen robots.txt für verschiedene Umgebungen (Entwicklung, Produktion). Dies ist, was ich jetzt
4
Antworten
Meine robots.txt in den Google Webmaster-Tools zeigt die folgenden Werte: User-agent: * Allow: / Was bedeutet es? Ich habe nicht genug wissen über Sie, so suchen Sie für Ihre Hilfe. Ich will, dass alle Roboter zu Crawlen
1
Antworten
In robots.txt kann ich schreiben Sie die folgende relative URL für die sitemap-Datei? sitemap: /sitemap.ashx Oder muss ich die komplette (absolute) URL für das XML-sitemap-Datei, wie: sitemap: http://subdomain.domain.com/sitemap.ashx Deshalb Frage ich: Habe ich eine neue blog-service, www.domain.com,,
9
Antworten
Ist es besser, wenn Sie meta-tags verwenden* oder die robots.txt Datei für die Unterrichtung Spinnen/Raupen-oder ausschließen einer Seite? Gibt es irgendwelche Probleme mit der Verwendung sowohl die meta-tags und der robots.txt? *Eg: <#META name="robots" content="index, follow"> InformationsquelleAutor