Tag: robots.txt

Robots.txt (die Robots Exclusion Protocol) ist eine Textdatei, die im Stammverzeichnis einer Website-Domäne, Anweisungen zu geben, um kompatible web-Roboter (wie Suchmaschinen-crawler) über die Seiten zu Crawlen und nicht kriechen, wie auch andere Informationen, wie eine XML-Sitemap Lage. In modernen frameworks kann es sinnvoll sein, die programmgesteuert generieren Sie die Datei. Allgemeine Fragen zu Suchmaschinen-Optimierung besser geeignet sind auf die Webmaster StackExchange Seite.

wie bauen web-crawler verwenden asp.net mvc3 und c#?

Anzahl der Antworten 1 Antworten
Ich brauchen, um zu bauen die kleine Suchmaschine wie Google verwenden ASP.NET MVC-3. Für diese hier habe ich auch zum erstellen der web-crawler, die füllen Sie die Daten für die Suchmaschine. In Zusammenfassung, die ich benötigen die

Facebook und Crawl-delay in Robots.txt?

Anzahl der Antworten 5 Antworten
Tut Facebook das webcrawling bots Achtung der Crawl-delay: Richtlinie in robots.txt Dateien? Ich war mir nicht bewusst, dass facebook bots hatte... interessant! facebookexternalhit/* wo * ist die Versionsnummer. Siehe: facebook.com/externalhit_uatext.php und developers.facebook.com/docs/best-practices/... Nicht Facebook nur kriechen einen

Sitemap für eine Website mit einer großen Anzahl von dynamischen subdomains

Anzahl der Antworten 3 Antworten
Ich bin mit einer Website, die erlaubt Benutzern das erstellen von subdomains. Ich würde gerne diese user-subdomains, um Suchmaschinen über XML-sitemaps. Allerdings, nach dem sitemaps-Protokoll (und den Google Webmaster-Tools), eine einzelne XML-sitemap können URLs nur von einem

Disallow alle für alle user-agents mit einer Ausnahme-user-agent?

Anzahl der Antworten 1 Antworten
Wie zu verbieten, alle für alle user-agents mit einer Ausnahme-user-agent? Zum Beispiel verbieten, alle für alle user agent, aber für den Googlebot nur? Diese Frage ist so etwas wie eine doppelte: stackoverflow.com/questions/671491/... InformationsquelleAutor Kirzilla | 2015-11-09

Robots.txt: Disallow subdirectory, erlauben aber-Verzeichnis

Anzahl der Antworten 2 Antworten
Ich möchte ermöglicht das durchforsten von Dateien in: /directory/ aber nicht das Crawlen von Dateien in: /directory/subdirectory/ Ist die richtige robots.txt Anleitung: User-agent: * Disallow: /subdirectory/ Ich habe Angst, dass wenn ich nicht zulässig /Verzeichnis/Unterverzeichnis/ ich würde

Ermöglicht Javascript und CSS-Dateien gecrawlt werden

Anzahl der Antworten 2 Antworten
Tut, diese zu blockieren oder erlauben den Google-bot Zugriff? User-Agent: Googlebot Allow: /*.js* Allow: /*.css* Weiß niemand, oben robots.txt format ist blockiert oder die Möglichkeit den Google-Bot Zugriff? InformationsquelleAutor S S | 2015-07-29

Nginx try_files nicht trigger-response von index.php

Anzahl der Antworten 1 Antworten
Ich habe ein problem mit try_files nicht erscheinen, pass off Anfragen für nicht vorhandene Dateien auf den zuletzt angegebenen Wert, in meinem Fall index.php. Ich bin mit WordPress und der XML-Sitemap-generator-plugin verwende ich virtuelle XML-Dateien und ein

Bearbeiten robots.txt in wordpress ohne plugin und ohne manuelle änderungen

Anzahl der Antworten 2 Antworten
Ich versuche zu Bearbeiten robots.txt Datei in wordpress. Kann ich dies manuell tun. Gibt es eine Möglichkeit in wordpress (ohne plugins installieren) Bearbeiten robots.txt oder man installiert ein plugin für diesen Zweck? Gerne werde ich die Frage

WordPress entfernen Robots-Meta-Tag noindex

Anzahl der Antworten 2 Antworten
erlebt ein seltsames Problem mit einem wordpress-Seiten meta-robots-tag. Alle Seiten haben das folgende meta-tag, und wir kann nicht scheinen, um es zu entfernen <meta name="robots" content="noindex,follow"/> Haben wir deaktiviert "Entmutigen Suchmaschinen von der Indizierung dieser Website" in

robots.txt erlauben nur root, verbieten, alles andere?

Anzahl der Antworten 2 Antworten
Ich kann nicht scheinen, um diese zu arbeiten, aber es scheint wirklich basic. Möchte ich die root-domain gecrawlt werden http://www.example.com Aber sonst nichts durchsucht und alle Unterverzeichnisse werden dynamisch http://www.example.com/* Versuchte ich User-agent: * Allow: / Disallow:

wie zu verbieten, alle dynamischen urls robots.txt

Anzahl der Antworten 2 Antworten
wie zu verbieten, alle dynamischen urls in robots.txt Disallow: /?q=admin/ Disallow: /?q=aggregator/ Disallow: /?q=comment/reply/ Disallow: /?q=contact/ Disallow: /?q=logout/ Disallow: /?q=node/add/ Disallow: /?q=search/ Disallow: /?q=user/password/ Disallow: /?q=user/register/ Disallow: /?q=user/login/ möchte ich, dass alle Dinge, die mit /?q= Nach

Wie nicht zulassen, eine mirror-Website (sub-domain) mit robots.txt?

Anzahl der Antworten 2 Antworten
Ich habe eine website, nämlich : http://domain.com/ Spiegel auf http://cdn.domain.com/ Ich will nicht cdn indiziert werden. Wie kann ich schreiben robots.txt Regel zu vermeiden, die cdn indiziert ohne meine Gegenwart robots.txt ausschließt. Meiner jetzigen robots.txt schließt :

Robot.txt Datei für opencart

Anzahl der Antworten 2 Antworten
Meine website ist partyhousepong.com und es ist ein "opencart" - Website. Ich sah einige SEO-Erfolg, aber da das hinzufügen dieser robot.txt Datei mein Ranking ist gefallen, und nicht alle von meiner Website maps indiziert werden. Meinst du

Python-Mechanize - Antrag verbietet robots.txt auch nach set_handle_robots und add_headers

Anzahl der Antworten 1 Antworten
Ich habe ein web-crawler, die bekommt alle links, bis die 1. Ebene der Seite und von Ihnen bekommt es jeder link und text plus imagelinks und alt. hier ist der ganze code: import urllib import re import

robots.txt in codeigniter - lassen Sie Ansicht/Funktion

Anzahl der Antworten 2 Antworten
Lese ich ein wenig über robots.txt und ich habe gelesen, ich sollte nicht zulassen, alle Ordner in meinem web-Anwendung, aber ich würde gern erlauben bots zu Lesen, Hauptseite und eine Ansicht (url ist zum Beispiel: www.mywebapp/searchresults -

Was ist der nutzen der hackers.txt Datei?

Anzahl der Antworten 6 Antworten
Ersten Nein, ich bin nicht zu Fragen, Sie um mich zu lehren, hacking, ich bin einfach nur neugierig über diese Datei und Ihr Inhalt. Meine Reise Wenn ich tauchte ein in die neue HTML5 Boilerplate ich kam

HTTP-header zu erkennen, dass eine preload-Anforderung von Google Chrome

Anzahl der Antworten 2 Antworten
Google Chrome 17 wurde eine neue feature die Vorspannkraft einer Webseite zur Verbesserung der rendering-Geschwindigkeit bei der tatsächlich die Anforderung (drücken der EINGABETASTE in der omnibar). Zwei Fragen: Gibt es einen HTTP-header zu erkennen, wie eine Anfrage

Robots.txt Verbieten Bestimmte Ordner Namen

Anzahl der Antworten 1 Antworten
Ich möchte, dass Roboter durchforstet beliebigen Ordner an einer beliebigen position in die url mit den Namen: this-folder. Beispiele disallow: http://mysite.com/this-folder/ http://mysite.com/houses/this-folder/ http://mysite.com/some-other/this-folder/ http://mysite.com/no-robots/this-folder/ Dies ist mein Versuch: Disallow: /.*this-folder/ Wird das funktionieren? InformationsquelleAutor Michael Robinson |

wie beschränken Sie die Website indiziert

Anzahl der Antworten 1 Antworten
Ich weiß, diese Frage wurde viele Male gefragt, aber ich möchte, um genauer zu sein. Ich eine Entwicklung domain-und zog die Seite auf einen Unterordner. Lassen Sie uns sagen, aus: http://www.example.com/ Zu: http://www.example.com/backup So, ich möchte die

Rendering plain text durch PHP

Anzahl der Antworten 6 Antworten
Aus irgendeinem Grund, will ich dienen mein robots.txt über ein PHP-script. Ich habe das setup von apache, so dass die robots.txt Datei-Anfrage (infact alle Datei-Zugriffe) kommen, um ein einziges PHP-Skript. Den code, den ich benutze zum Rendern

Regexp für robots.txt

Anzahl der Antworten 1 Antworten
Ich versuche, meine robots.txt aber ich bin nicht sicher über die regexps. Habe ich vier verschiedene Seiten, die alle in drei verschiedenen Sprachen. Anstelle der Liste auf jeder Seite 3 mal, ich dachte, ich könnte mit einem

Wie kann ich das beheben "Googlebot keinen Zugriff auf Ihre Website" - Problem?

Anzahl der Antworten 3 Antworten
Ich einfach immer eine Nachricht über "In den letzten 24 Stunden, Googlebot festgestellt 1 Fehler beim Zugriff auf Ihr robots.txt. Um sicherzustellen, dass wir nicht kriechen, werden alle Seiten aufgelistet, die in dieser Datei, verschoben wir unsere

Ist es möglich, die Steuerung der crawl-Geschwindigkeit von robots.txt?

Anzahl der Antworten 4 Antworten
Können wir sagen, bots Crawlen oder nicht durchforsten unserer website robot.txt. Auf der anderen Seite, wir können Steuern, die crawling-Geschwindigkeit in den Google-Webmaster (wie viel Google-bot crawlt die website). Ich Frage mich, ob es möglich ist, zu

Google-Suche Beschreibung: Keine Informationen für diese Seite verfügbar

Anzahl der Antworten 1 Antworten
Wenn ich Suche meine website in google, es zeigt, wie den ersten Platz mit meiner domain, aber die Beschreibung ist "Keine Informationen für diese Seite verfügbar ist." in Ordnung, korrigierte ich meinen robots.txt wie diese User-agent: *

.htaccess nicht lassen robot.txt durch

Anzahl der Antworten 4 Antworten
Habe ich die folgenden .htaccess-Datei in meinem root: Options +FollowSymlinks RewriteEngine on RewriteBase / RewriteRule ^(.*)\/(\?.*)?$ $1$2 [R=301,L] RewriteRule ^([^/]*)$ index.php?page=$1 [NC] Dieser funktioniert wie es sollte für die Verkürzung alle meine URLs zu website.com/something Das problem

Wie einrichten robots.txt Datei für WordPress

Anzahl der Antworten 4 Antworten
[UPDATE 2013] Ich kann nicht finden, eine autorisierende Seite mit einem format für robots.txt Datei für WordPress. Ich habe Versprechen zu halten auf meiner Seite, aber ich möchte hier auf stack overflow. Wenn Sie wissen, was Ihr

Ban robots von website

Anzahl der Antworten 2 Antworten
meine website ist oft down, weil eine Spinne ist accessying zu viele Ressourcen. Dies ist, was die hosting sagte mir. Sie sagte mir zu verbieten diese IP-Adresse: 46.229.164.98 46.229.164.100 46.229.164.101 Aber ich habe keine Ahnung, wie dies

Wo zu setzen robots.txt in tomcat 7?

Anzahl der Antworten 3 Antworten
Ich bin mit Tomcat 7 als host für meine Anwendung. Ich habe eine ROOT.xml Datei unter tomcat-home\conf\Catalina\localhost <Context docBase="C:\Program Files\Apache Software Foundation\Tomcat 7.0\mywebapp\MyApplication" path="" reloadable="true" /> Dies ist zum laden meiner webapp in den root-Kontext. Aber jetzt

verbieten bestimmte url in robots.txt

Anzahl der Antworten 3 Antworten
Wir implementiert ein rating-system auf einer Website eine Weile zurück, dass beinhaltet einen link zu einem Skript. Jedoch, mit der überwiegenden Mehrheit der Bewertungen auf der Website bei 3/5 und die Bewertungen sehr auch über 1-5 wir

Wie zu verbieten, Suche Seiten aus robots.txt

Anzahl der Antworten 3 Antworten
Muss ich verbieten http://example.com/startup?page=2 Suche Seiten indiziert. Möchte ich http://example.com/startup indiziert werden, aber nicht http://example.com/startup?page=2 und page3 und so weiter. Auch, Hochfahren kann zufällig sein, z.B., http://example.com/XXXXX?page InformationsquelleAutor pmarreddy | 2009-10-04

Wie block Suchmaschinen von der Indizierung alle urls beginnen mit origin.domainname.com

Anzahl der Antworten 2 Antworten
Habe ich www.domainname.com, origin.domainname.com auf das gleiche Codebasis. Gibt es eine Möglichkeit, ich kann verhindern, dass alle urls von basename origin.domainname.com aus immer indiziert. Gibt es einige Regel in robot.txt um es zu tun. Beide urls zeigen

Ist es möglich, mehrere user-agents in eine Zeile?

Anzahl der Antworten 4 Antworten
Ist es möglich, in robots.txt zum geben einer Anweisung auf mehrere bots ohne sich wiederholt haben, es zu erwähnen? Beispiel: User-agent: googlebot yahoobot microsoftbot Disallow: /boringstuff/ Ich habe eine sehr ähnliche Frage an Webmaster.stackexchange, da dachte ich,

wie ban crawler 360Spider mit robots.txt oder .htaccess?

Anzahl der Antworten 8 Antworten
Ich habe eine Probleme, weil 360Spider: dieser bot macht zu viele requests pro Sekunde auf meinem VPS und verlangsamt Sie (die CPU-Auslastung wird 10-70%, aber ich habe in der Regel 1-2%). Ich schaute in die httpd-logs und

block google Roboter für URLS, die ein bestimmtes Wort enthalten

Anzahl der Antworten 3 Antworten
mein client hat eine Last von Seiten, die Sie nicht wollen, von google indexiert - Sie alle sind aufgerufen, http://example.com/page-xxx so sind Sie /Seite-123 oder /Seite-2 oder /Seite-25 etc Gibt es eine Möglichkeit zu stoppen Sie google-Indizierung

Wo zu setzen robots.txt Datei?

Anzahl der Antworten 4 Antworten
Wo setzen sollte robots.txt? domainname.com/robots.txt oder domainname/public_html/robots.txt Legte ich die Datei im domainname.com/robots.txt, aber es nicht öffnen wenn ich diese im browser. alt-text http://shup.com/Shup/358900/11056202047-My-Desktop.png InformationsquelleAutor Jitendra Vyas | 2010-06-06

Verbieten oder Noindex auf Subdomain mit robots.txt

Anzahl der Antworten 4 Antworten
Habe ich dev.example.com und www.example.com gehostet auf verschiedenen subdomains. Ich will crawler löschen Sie alle Datensätze der dev subdomain, sondern Sie bleiben auf www. Ich bin mit git zum speichern der code für beide, also idealerweise möchte

Schienen robots.txt Ordner

Anzahl der Antworten 1 Antworten
Ich bin den Start einer Rails-app, und als die Letzte Aufgabe, ich wan ' T, um die robots.txt Datei. Ich konnte nicht finden Informationen, wie die Pfade sollten richtig geschrieben werden, für eine Rails-app. Ist der Start-Pfad

Wie kann man Crawlern den Zugang zu index.php nur, mit robots.txt?

Anzahl der Antworten 5 Antworten
Wenn ich will, dass nur crawler-Zugriff index.php wird das funktionieren? User-agent: * Disallow: / Allow: /index.php Ich bin neugierig, warum würden Sie wollen, dies zu tun...würden Sie es nicht wollen-crawler zu indizieren viel mehr von Ihrer Website?

Wie kann ich verbieten bestimmte Seite aus robots.txt

Anzahl der Antworten 4 Antworten
Ich bin Schaffung von zwei Seiten auf meiner Website, die sehr ähnlich sind, aber unterschiedlichen Zwecken dienen. Man ist zu danken, die Benutzer für das verlassen einen Kommentar und die andere ist um die Benutzer zu ermutigen

Robots.txt Erlauben sub-Ordner, aber nicht die Eltern

Anzahl der Antworten 3 Antworten
Kann jemand bitte erklären Sie das richtige Robots.txt Befehl für das folgende Szenario. Möchte ich den Zugriff erlauben: /Verzeichnis/Unterverzeichnis/.. Aber ich möchte auch Zugriff auf /Verzeichnis/ nicht standhalten die obige Ausnahme. InformationsquelleAutor der Frage QFDev | 2011-09-30

Wie kann ich verhindern, dass Bing swamping meine Website mit Verkehr unregelmäßig?

Anzahl der Antworten 3 Antworten
Bingbot geändert auf meine Website ziemlich hart für ein paar Stunden jeden Tag, und wird extrem leicht für den rest der Zeit. Ich würde entweder gerne zu glätten Ihren kriecht, reduzieren Sie die Geschwindigkeit zu begrenzen oder

So beenden Sie die Suchmaschinen Crawlen die ganze website?

Anzahl der Antworten 3 Antworten
Ich aufhören wollen Suchmaschinen das Crawlen meiner gesamten website. Ich habe eine web-Anwendung für die Mitglieder eines Unternehmens zu verwenden. Diese wird auf einem Webserver gehostet, so dass die Mitarbeiter des Unternehmens zugreifen können. Niemand sonst (in

Robots.txt - Was ist das richtige format für einen Crawl-Delay für mehrere user-agents?

Anzahl der Antworten 1 Antworten
Unten ist ein Beispiel robots.txt Datei zu Ermöglichen mehrere user-agents mit mehrere kriechen Verzögerungen für jeden Benutzer-agent. Die Crawl-delay-Werte sind zur Veranschaulichung und wird anders sein in einem echten robots.txt Datei. Ich habe gesucht alle über das

Ignoriere URLs in der robot.txt mit bestimmten Parametern?

Anzahl der Antworten 3 Antworten
Möchte ich für google zu ignorieren, urls wie diese: http://www.mydomain.com/new-printers?dir=asc&order=price&p=3 Alle urls, die Parameter der dir, der Ordnung und der Preis sollte ignoriert werden, aber I dont haben Erfahrung mit Robots.txt. Irgendeine Idee? InformationsquelleAutor der Frage Luis

So richten Sie eine robot.txt ein, die nur die Standardseite einer Site zulässt

Anzahl der Antworten 5 Antworten
Sagen, ich habe eine Website, auf http://example.com. Ich würde wirklich gerne, so dass bots finden Sie auf der Homepage, aber auch jede andere Seite blockiert, da es sinnlos ist spider. In anderen Worten http://example.com & http://example.com/ erlaubt

Mehrere Sitemap: Einträge in robots.txt?

Anzahl der Antworten 3 Antworten
Habe ich die Suche mit Google, aber ich kann nicht finden, eine Antwort auf diese Frage. A robots.txt die Datei enthält die folgende Zeile: Sitemap: http://www.mysite.com/sitemapindex.xml ist es jedoch möglich, geben Sie mehrere sitemap-Indexdateien in den robots.txt

Was ist der beste Weg, um mit robots.txt in Express umzugehen?

Anzahl der Antworten 4 Antworten
Zur Zeit arbeite ich an einer Anwendung gebaut, mit Express - (Node.js) und ich will wissen, was ist der Klügste Weg, um die Handhabung der verschiedenen robots.txt für verschiedene Umgebungen (Entwicklung, Produktion). Dies ist, was ich jetzt

Wie konfiguriert man robots.txt um alles zu erlauben?

Anzahl der Antworten 4 Antworten
Meine robots.txt in den Google Webmaster-Tools zeigt die folgenden Werte: User-agent: * Allow: / Was bedeutet es? Ich habe nicht genug wissen über Sie, so suchen Sie für Ihre Hilfe. Ich will, dass alle Roboter zu Crawlen

Kann eine relative Sitemap-URL in einer robots.txt verwendet werden?

Anzahl der Antworten 1 Antworten
In robots.txt kann ich schreiben Sie die folgende relative URL für die sitemap-Datei? sitemap: /sitemap.ashx Oder muss ich die komplette (absolute) URL für das XML-sitemap-Datei, wie: sitemap: http://subdomain.domain.com/sitemap.ashx Deshalb Frage ich: Habe ich eine neue blog-service, www.domain.com,,

Meta-Tag gegen robots.txt

Anzahl der Antworten 9 Antworten
Ist es besser, wenn Sie meta-tags verwenden* oder die robots.txt Datei für die Unterrichtung Spinnen/Raupen-oder ausschließen einer Seite? Gibt es irgendwelche Probleme mit der Verwendung sowohl die meta-tags und der robots.txt? *Eg: <#META name="robots" content="index, follow"> InformationsquelleAutor