Download alle links, die(zugehörigen Dokumente) auf eine Webseite mit Python

Habe ich zum download eine Menge von Dokumenten, von einer Webseite. Sie sind wmv-Dateien, PDF -, BMP etc. Natürlich, Sie haben alle die links zu Ihnen. Also jedes mal, ich habe zu RMC eine Datei, wählen Sie "Link Speichern unter", Dann speichern Sie dann als Dateityp Alle Dateien. Ist es möglich, dies zu tun in Python? Ich Suche die DB SO und die Leute haben geantwortet Frage, wie man die links von der Webseite. Ich möchte zum herunterladen der eigentlichen Dateien. Vielen Dank im Voraus. (Dies ist nicht eine HW-Frage :)).

InformationsquelleAutor Sumod | 2011-05-12

python

Hier ist ein Beispiel, wie könnten Sie zum download einige ausgewählte Dateien aus http://pypi.python.org/pypi/xlwt

können, benötigen Sie den mechanisieren erste: http://wwwsearch.sourceforge.net/mechanize/download.html

import mechanize
from time import sleep
#Make a Browser (think of this as chrome or firefox etc)
br = mechanize.Browser()

#visit http://stockrt.github.com/p/emulating-a-browser-in-python-with-mechanize/
#for more ways to set up your br browser object e.g. so it look like mozilla
#and if you need to fill out forms with passwords.

# Open your site
br.open('http://pypi.python.org/pypi/xlwt')

f=open("source.html","w")
f.write(br.response().read()) #can be helpful for debugging maybe

filetypes=[".zip",".exe",".tar.gz"] #you will need to do some kind of pattern matching on your files
myfiles=[]
for l in br.links(): #you can also iterate through br.forms() to print forms on the page!
    for t in filetypes:
        if t in str(l): #check if this link has the file extension we want (you may choose to use reg expressions or something)
            myfiles.append(l)


def downloadlink(l):
    f=open(l.text,"w") #perhaps you should open in a better way & ensure that file doesn't already exist.
    br.click_link(l)
    f.write(br.response().read())
    print l.text," has been downloaded"
    #br.back()

for l in myfiles:
    sleep(1) #throttle so you dont hammer the site
    downloadlink(l)

Hinweis: In einigen Fällen möchten Sie vielleicht zu ersetzen br.click_link(l) mit br.follow_link(l). Der Unterschied ist, dass click_link gibt ein Request-Objekt in der Erwägung, dass follow_link direkt den link zu öffnen. Sehen Mechanisieren Unterschied zwischen br.click_link() und br.follow_link()

+1 für mechanisieren!
+1 für voll funktionierenden code!
robert kink, führe ich den code für nur ein download-zip-Dateien - der code ohne Fehler ausgeführt, aber in der chrom-download-Ordner ich die Dateien nicht angezeigt
hmm ich denke die Datei wird heruntergeladen und in den Ordner, den Sie lief das python-Skript aus. siehe stackoverflow.com/questions/5137497/...

InformationsquelleAutor robert king

5
- Folgen Sie den Python-codes in diesem link: wget-vs-urlretrieve-von-python.
- Sie können dies auch sehr leicht mit Wget. Versuchen --limit, --recursive und --accept Befehl-Linien in Wget. Zum Beispiel:
  wget --accept wmv,doc --limit 2 --recursive http://www.example.com/files/
InformationsquelleAutor gsbabil

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.