Das automatische herunterladen von Dateien von einer bestimmten website
Ich bin ein sehr neuer Programmierer.. Eine website bietet eine Menge von zip-Dateien, die ich brauchte. Es wird aktualisiert/neu aufgespielt zip-Dateien wöchentlich. Was ich tun müssen, ist schreiben Sie ein Programm/Skript zu tun, automatischer Download von der web-wöchentlich.. das ist zum Beispiel der web-link http://www.google.com/googlebooks/uspto-patents-applications-yellowbook.html ( Sie können sehen, eine Menge von zip-Dateien gibt )
also meine Frage ist
-
Skript, was ich zu schreiben habe(ich habe keine Erfahrung im schreiben von Skript, also, was können Sie vorschlagen?) so kann ich laden Sie die zip-Datei programmgesteuert?
-
Wenn die 1. Frage gestellt, gelöst, dann wie soll ich es zum download der neuen zip-Datei hochgeladen in der Woche?
Ist es, ich habe mit DOM...unix? wenn ja, werde ich tun, einige der Forschung auf tat, damit es funktioniert.
- Tun, um die Namen der zip Dateien, die sich jede Woche ändern, oder sind Sie konstant?
- DOM hat nichts zu tun mit UNIX.
- thx für die antworteten, drlouie und Michael... google.com/googlebooks/... als link, kann u sehen, die zip-Dateien da.. der name wird geändert werden, basierend auf dem Datum hochgeladen..
Du musst angemeldet sein, um einen Kommentar abzugeben.
Warum wget? Sie können HtmlAgilityPack, um eine Analyse der website und extrahiert alle links. Dann einfach eine Schleife über alle urls und laden Sie die Datei mit C# den ganzen Weg durch. Sie können auch öffnen Sie ein wget-Prozess von c#, wenn Sie so tun möchten.
Auf der anderen Seite, dies kann leicht getan werden mit Hilfe der bash und sed/awk und grep in Kombination mit wget.
Entweder Weg, müssen Sie noch cron den job einplanen, der auf einer wöchentlichen basis.
Habe ich auch verwendet JSoup (http://jsoup.org/) sehr effektiv in der Java - /Scala-Anwendungen zu kratzen, Daten aus web-Seiten.
Wenn Sie auf Linux/UNIX, verwenden Sie 'wget' in einem Skript für das herunterladen von Dateien, und 'cron' einen Zeitplan für das herunterladen von Skript.
wget
ersten.