Wie man die Liste der URLs für eine domain

Ich würde gerne eine Liste erstellen von URLs für eine domain, aber ich würde eher sparen Bandbreite, indem Sie nicht Crawlen der domain selbst. So ist es ein Weg, um vorhandene gecrawlten Daten?

Einer Lösung, die ich dachte, wäre eine Yahoo-site-Suche, die es mir erlaubt, laden Sie die ersten 1000 Ergebnisse im TSV-format. Allerdings, um alle Datensätze, die ich haben würde, zu kratzen, die Ergebnisse der Suche. Google unterstützt auch die site-Suche, aber nicht bieten eine einfache Möglichkeit, um die Daten herunterzuladen.

Können Sie denken, einen besseren Weg, das würde funktionieren mit den meisten (wenn nicht alle) websites?

Dank,
Richard

InformationsquelleAutor hoju | 2009-06-28

Schreibe einen Kommentar