Wie man die Liste der URLs für eine domain
Ich würde gerne eine Liste erstellen von URLs für eine domain, aber ich würde eher sparen Bandbreite, indem Sie nicht Crawlen der domain selbst. So ist es ein Weg, um vorhandene gecrawlten Daten?
Einer Lösung, die ich dachte, wäre eine Yahoo-site-Suche, die es mir erlaubt, laden Sie die ersten 1000 Ergebnisse im TSV-format. Allerdings, um alle Datensätze, die ich haben würde, zu kratzen, die Ergebnisse der Suche. Google unterstützt auch die site-Suche, aber nicht bieten eine einfache Möglichkeit, um die Daten herunterzuladen.
Können Sie denken, einen besseren Weg, das würde funktionieren mit den meisten (wenn nicht alle) websites?
Dank,
Richard
InformationsquelleAutor hoju | 2009-06-28
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie eine Liste von bis zu 500 URLs kostenlos über das online-tool:
XML-Sitemap-Generator
...Nur wählen Sie "text-Liste", nachdem das tool crawlt Ihre Website.
InformationsquelleAutor
Einige Webmaster bieten Sitemaps, die im wesentlichen XML-Listen der jede URL auf die domain. Es gibt jedoch keine Allgemeinen Lösung außer Crawlen. Wenn Sie verwenden ein crawler, bitte beachten robots.txt.
Dem muss ich widersprechen, dass es zumindest eine Allgemeine Lösung, die ich erklärt habe, ist mit den gecrawlten Ergebnisse von einer Suchmaschine. Dies geschieht mit Hilfe site:foo.org.
Richard Suchmaschinen nicht index jede domain, und Ihre Inserate beinhalten nicht alle Seite auf die Domänen, die Sie indizieren. Das ist, warum site:foo.org ist nicht eine Allgemeine Lösung.
InformationsquelleAutor Matthew Flaschen
Scheint, gibt es keine royal Weg, um web-crawling, also werde ich nur stick zu meinem aktuellen Ansatz...
Außerdem fand ich die meisten Suchmaschinen enthüllen nur die ersten 1000 Ergebnisse sowieso.
InformationsquelleAutor hoju