Herunterladen und entpacken ein .zip-Datei ohne schreiben auf die Festplatte

Habe ich es geschafft, mein erstes python-Skript zu arbeiten, die downloads eine Liste .ZIP-Dateien von einer URL und geht dann zum extrahieren der ZIP-Dateien und schreibt Sie auf Festplatte.

Ich bin jetzt an einem Verlust zu erreichen, ist der nächste Schritt.

Mein primäres Ziel ist es, download und entpacken Sie die zip-Datei und übergeben Sie den Inhalt (CSV-Daten) über einen TCP-stream. Ich würde es vorziehen, nicht, um tatsächlich schreiben Sie die zip-oder extrahierten Dateien auf die Festplatte, wenn ich könnte mit ihm Weg erhalten.

Hier ist mein Aktuelles script, das funktioniert, aber leider hat das schreiben der Dateien auf die Festplatte.

import urllib, urllister
import zipfile
import urllib2
import os
import time
import pickle

# check for extraction directories existence
if not os.path.isdir('downloaded'):
    os.makedirs('downloaded')

if not os.path.isdir('extracted'):
    os.makedirs('extracted')

# open logfile for downloaded data and save to local variable
if os.path.isfile('downloaded.pickle'):
    downloadedLog = pickle.load(open('downloaded.pickle'))
else:
    downloadedLog = {'key':'value'}

# remove entries older than 5 days (to maintain speed)

# path of zip files
zipFileURL = "http://www.thewebserver.com/that/contains/a/directory/of/zip/files"

# retrieve list of URLs from the webservers
usock = urllib.urlopen(zipFileURL)
parser = urllister.URLLister()
parser.feed(usock.read())
usock.close()
parser.close()

# only parse urls
for url in parser.urls: 
    if "PUBLIC_P5MIN" in url:

        # download the file
        downloadURL = zipFileURL + url
        outputFilename = "downloaded/" + url

        # check if file already exists on disk
        if url in downloadedLog or os.path.isfile(outputFilename):
            print "Skipping " + downloadURL
            continue

        print "Downloading ",downloadURL
        response = urllib2.urlopen(downloadURL)
        zippedData = response.read()

        # save data to disk
        print "Saving to ",outputFilename
        output = open(outputFilename,'wb')
        output.write(zippedData)
        output.close()

        # extract the data
        zfobj = zipfile.ZipFile(outputFilename)
        for name in zfobj.namelist():
            uncompressed = zfobj.read(name)

            # save uncompressed data to disk
            outputFilename = "extracted/" + name
            print "Saving extracted file to ",outputFilename
            output = open(outputFilename,'wb')
            output.write(uncompressed)
            output.close()

            # send data via tcp stream

            # file successfully downloaded and extracted store into local log and filesystem log
            downloadedLog[url] = time.time();
            pickle.dump(downloadedLog, open('downloaded.pickle', "wb" ))

Warum nicht verwenden Sie temporäre Dateien?
ZIP-format ist nicht darauf ausgelegt gestreamt werden. Es nutzt Fußzeilen, das heißt, Sie müssen am Ende der Datei, um herauszufinden, wo die Dinge gehören, ist es innen, was bedeutet, Sie brauchen, um die gesamte Datei, bevor Sie irgendetwas tun können, mit einer Teilmenge davon.

InformationsquelleAutor user714415 | 2011-04-19

python unzip

50

Mein Vorschlag wäre, die Nutzung einer StringIO Objekt. Sie emulieren Dateien, befinden sich aber in Erinnerung. So konnte man etwas wie das hier tun:
```
# get_zip_data() gets a zip archive containing 'foo.txt', reading 'hey, foo'

from StringIO import StringIO
zipdata = StringIO()
zipdata.write(get_zip_data())
myzipfile = zipfile.ZipFile(zipdata)
foofile = myzipfile.open('foo.txt')
print foofile.read()

# output: "hey, foo"
```
Oder mehr einfach (Entschuldigung an Vishal):
```
myzipfile = zipfile.ZipFile(StringIO(get_zip_data()))
for name in myzipfile.namelist():
    [ ... ]
```
In Python 3 verwenden BytesIO statt StringIO.
- "Das StringIO Objekt annehmen kann, entweder Unicode oder 8-bit-strings" bedeutet das nicht, dass, wenn die Anzahl der bytes, die Sie erwarten, zu schreiben, ist nicht kongruent zu 0 mod 8, dann werden Sie entweder eine Ausnahme oder schreiben Sie fehlerhafte Daten?
- Überhaupt nicht-warum würde Sie nur in der Lage sein zu schreiben 8 Byte auf einmal? Umgekehrt, wenn Sie jemals schreiben weniger als 8 bits gleichzeitig?
- Ah, natürlich, dumme Frage meinerseits.
- Sie scheinen Angst ein problem, wenn die Anzahl der bytes, die erwartet werden, geschrieben ist, ist nicht ein Vielfaches von 8. Das ist nicht ableitbar aus der Aussage über StringIO und ist ganz unbegründet. Das problem mit StringIO ist, wenn der Benutzer mischt unicode Objekte mit str Objekte, die nicht decodable durch das system default encoding (in der Regel ascii).
- Kleiner Kommentar auf den obigen code: wenn Sie das Lesen mehrerer Dateien aus der .zip, stellen Sie sicher, Lesen Sie die Daten aus eins nach dem anderen, weil die Berufung zipfile.öffnen Sie zwei mal wird Sie den Verweis in der ersten.
- Beachten Sie, dass ab Python 3 verwenden Sie die from io import StringIO
- wie speichern Sie die Datei, die Sie heruntergeladen?
InformationsquelleAutor senderle
63

Unten ist ein code-snippet, das ich verwendet, um zu Holen gezippte csv-Datei, bitte haben Sie einen Blick:

Python 2:
```
from StringIO import StringIO
from zipfile import ZipFile
from urllib import urlopen

resp = urlopen("http://www.test.com/file.zip")
zipfile = ZipFile(StringIO(resp.read()))
for line in zipfile.open(file).readlines():
    print line
```
Python 3:
```
from io import BytesIO
from zipfile import ZipFile
from urllib.request import urlopen
# or: requests.get(url).content

resp = urlopen("http://www.test.com/file.zip")
zipfile = ZipFile(BytesIO(resp.read()))
for line in zipfile.open(file).readlines():
    print(line.decode('utf-8'))
```
Hier file ist ein string. Um die tatsächliche Zeichenfolge, die Sie übergeben möchten, können Sie zipfile.namelist(). Zum Beispiel,
```
resp = urlopen('http://mlg.ucd.ie/files/datasets/bbc.zip')
zipfile = ZipFile(BytesIO(resp.read()))
zipfile.namelist()
# ['bbc.classes', 'bbc.docs', 'bbc.mtx', 'bbc.terms']
```
- +1: das ist, warum ich Liebe python... Suche ich nach etwas, und es gibt ein python-Weg, es zu tun in 3 Linien.
- Ich zähle 6 Zeilen.
- Sie sollten klären, was Sie bedeuten, indem Sie "Datei" im obigen code. Ansonsten tolle, prägnante Beispiel.
- So-Datei in der for-Schleife verweist auf den Namen der Datei entpackt. Gibt es eine Möglichkeit, programmgesteuert seinen Namen erhalten?
- Und wie speichern Sie die Datei nach dem entpacken?
- Verwenden namelist: docs.python.org/2/library/zipfile.html#zipfile.ZipFile.namelist
- " >das urllib.Anfrage.urlopen() für Python ist3
- Dies funktioniert nicht für python 3.6. *** TypeError: initial_value must be str or None, not bytes
- für diesen Fehler BytesIO statt StringIO. Siehe stackoverflow.com/questions/31064981/...
- Für Python ist3 Importe variieren: verwenden Sie from urllib.request import urlopen und from io import BytesIO
InformationsquelleAutor Vishal
18

Würde ich gerne eine aktualisierte Python-3-version von Vishal ausgezeichnete Antwort, die war mit Python 2, zusammen mit einer Erläuterung der Anpassungen /änderungen, die möglicherweise bereits erwähnt.
```
from io import BytesIO
from zipfile import ZipFile
import urllib.request

    url = urllib.request.urlopen("http://www.unece.org/fileadmin/DAM/cefact/locode/loc162txt.zip")

    with ZipFile(BytesIO(url.read())) as my_zip_file:
        for contained_file in my_zip_file.namelist():
            # with open(("unzipped_and_read_" + contained_file + ".file"), "wb") as output:
            for line in my_zip_file.open(contained_file).readlines():
                print(line)
                # output.write(line)
```
Notwendigen änderungen:
- Es gibt keine StringIO in Python 3. Stattdessen verwende ich io und von es ich importieren BytesIO, weil wir Umgang mit einem bytestream -- Docs, auch dieser thread.
- urlopen:
  - "Das Vermächtnis das urllib.urlopen Funktion von Python 2.6 und früher wurde eingestellt; das urllib.Anfrage.urlopen() entspricht dem alten urllib2.urlopen.", Docs.
- das urllib import.Anfrage:
  - Dieser thread.
Hinweis:
- In Python 3, die gedruckten Zeilen der Ausgabe wird ungefähr so Aussehen: b'some text'. Dies ist erwartet, da Sie nicht Streicher - erinnern Sie sich, wir Lesen einem bytestream. Haben Sie einen Blick auf Dan04 ausgezeichnete Antwort.
Ein paar kleine änderungen habe ich vorgenommen:
- Ich benutze with ... as statt zipfile = ... nach die Docs.
- Das Skript verwendet nun namelist() Durchlaufen Sie alle Dateien im zip-und print-Inhalte.
- Zog ich die Erstellung der ZipFile Objekt in der with-Anweisung, obwohl ich bin mir nicht sicher, ob das besser ist.
- Ich Hinzugefügt (und auskommentiert) eine option zu schreiben, die bytestream-Datei (pro-Datei in der zip), in Reaktion auf NumenorForLife Kommentar; es fügt "unzipped_and_read_" an den Anfang des Dateinamens und ein ".file" Erweiterung (ich bevorzuge nicht zu verwenden ".txt" für Dateien mit bytestrings). Die Einrückungen der code natürlich angepasst werden müssen, wenn Sie es verwenden möchten.
  - Müssen hier vorsichtig sein -- denn wir haben eine byte-Zeichenfolge, die wir verwenden, Binär-Modus, so "wb"; ich habe das Gefühl, dass schreiben binäre öffnet eine Dose Würmer sowieso...
- Bin ich mit einer Beispiel-Datei, die UN/LOCODE-text-Archiv:
Was ich nicht tun:
- NumenorForLife gefragt, speichern Sie das zip auf die Festplatte. Ich bin mir nicht sicher, was er meinte, indem er -- Download der zip-Datei? Das ist eine andere Aufgabe; siehe Oleh Prypin ausgezeichnete Antwort.
Hier ist ein Weg:
```
import urllib.request
import shutil

with urllib.request.urlopen("http://www.unece.org/fileadmin/DAM/cefact/locode/2015-2_UNLOCODE_SecretariatNotes.pdf") as response, open("downloaded_file.pdf", 'w') as out_file:
    shutil.copyfileobj(response, out_file)
```
- Wenn Sie wollen, schreiben Sie alle Dateien auf die Festplatte der einfachere Weg ist die Verwendung my_zip_file.extractall('my_target')` anstatt einer Schleife. Aber das ist toll!
InformationsquelleAutor Zubo
15

schreiben in eine temporäre Datei, welche sich im RAM

es stellt sich heraus, das tempfile Modul ( http://docs.python.org/library/tempfile.html ) hat nur die Sache ist die:

tempfile.SpooledTemporaryFile([max_size=0[,
mode='w+b'[, bufsize=-1[, suffix="[,
prefix='tmp'[, dir=None]]]]]])

Diese
Funktion arbeitet genau so, wie
TemporaryFile() nicht, außer, dass die Daten
gespoolt wird im Speicher, bis die Datei
Größe übersteigt, max_size, oder bis der
Datei fileno () - Methode aufgerufen wird, bei
die zeigen die Inhalte geschrieben werden
auf der Festplatte und der Betrieb geht wie mit
TemporaryFile().

Die resultierende Datei hat eine zusätzliche
Methode rollover(), die bewirkt, dass die
Datei, über zu Rollen, um eine Datei auf der Festplatte
unabhängig von Ihrer Größe.

Das zurückgegebene Objekt ist eine Datei-wie
Objekt, dessen " Datei-Attribut ist entweder
ein StringIO-Objekt oder eine echte Datei
Objekt, je nachdem, ob
rollover() aufgerufen wurde. Diese
file-like-Objekt kann verwendet werden in einem mit
Erklärung, die genau wie eine normale Datei.

Neu in version 2.6.

oder wenn Sie faul sind und Sie haben ein tmpfs mounted /tmp auf Linux, können Sie einfach eine Datei da, aber Sie haben, um es zu löschen sich selbst und befassen sich mit der Benennung
- +1 -- wusste nicht, über SpooledTemporaryFile. Meine Neigung wäre noch zu verwenden StringIO explizit, aber das ist gut zu wissen.
InformationsquelleAutor ninjagecko

Ich möchte noch hinzufügen, dass meine Python ist3 Antwort der Vollständigkeit halber:

from io import BytesIO
from zipfile import ZipFile
import requests

def get_zip(file_url):
    url = requests.get(file_url)
    zipfile = ZipFile(BytesIO(url.content))
    zip_names = zipfile.namelist()
    if len(zip_names) == 1:
        file_name = zip_names.pop()
        extracted_file = zipfile.open(file_name)
        return extracted_file
    return [zipfile.open(file_name) for file_name in zip_names]

InformationsquelleAutor lababidi

11

Hinzufügen auf die anderen Antworten mit Anfragen:
```
 # download from web

 import requests
 url = 'http://mlg.ucd.ie/files/datasets/bbc.zip'
 content = requests.get(url)

 # unzip the content
 from io import BytesIO
 from zipfile import ZipFile
 f = ZipFile(BytesIO(content.content))
 print(f.namelist())

 # outputs ['bbc.classes', 'bbc.docs', 'bbc.mtx', 'bbc.terms']
```
Verwenden Hilfe(f) zu bekommen, mehr Funktionen, mehr details für z.B. extractall (), die extrahiert den Inhalt in der zip-Datei, die später verwendet werden können, mit mit offenen.
- Dies sollte die akzeptierten Antworten 🙂
- Ich Stimme mit tadejsv; dies sollte die akzeptierte Antwort.
- Zum Lesen von CSV, do: with f.open(f.namelist()[0], 'r') as g: df = pd.read_csv(g)
InformationsquelleAutor Akson

War es nicht offensichtlich in Herby ' s Antwort, was der name der Datei sollte in Fällen, in denen es keine Datei auf der Festplatte. Ich habe geändert, seine Antwort zu arbeiten, ohne änderungen für die meisten Bedürfnisse.

from StringIO import StringIO
from zipfile import ZipFile
from urllib import urlopen

def unzip_string(zipped_string):
    unzipped_string = ''
    zipfile = ZipFile(StringIO(zipped_string))
    for name in zipfile.namelist():
        unzipped_string += zipfile.open(name).read()
    return unzipped_string

InformationsquelleAutor plowman

Vishal Beispiel, aber große, verwirrt, wenn es um den Namen der Datei, und ich sehe nicht das Verdienst der redefing 'zipfile'.

Hier ist mein Beispiel, dass downloads ein zip enthält einige Dateien, von denen eine csv-Datei, die ich anschließend Lesen Sie sich in ein pandas DataFrame:

from StringIO import StringIO
from zipfile import ZipFile
from urllib import urlopen
import pandas

url = urlopen("https://www.federalreserve.gov/apps/mdrm/pdf/MDRM.zip")
zf = ZipFile(StringIO(url.read()))
for item in zf.namelist():
    print("File in zip: "+  item)
# find the first matching csv file in the zip:
match = [s for s in zf.namelist() if ".csv" in s][0]
# the first line of the file contains a string - that line shall de ignored, hence skiprows
df = pandas.read_csv(zf.open(match), low_memory=False, skiprows=[0])

(Anmerkung, ich benutze Python 2.7.13)

Dies ist genau die Lösung, die für mich gearbeitet. Ich habe gerade optimiert es ein wenig für die Python 3 version durch entfernen von StringIO und das hinzufügen von IO-Bibliothek

Python-3-Version

from io import BytesIO
from zipfile import ZipFile
import pandas
import requests

url = "https://www.nseindia.com/content/indices/mcwb_jun19.zip"
content = requests.get(url)
zf = ZipFile(BytesIO(content.content))

for item in zf.namelist():
    print("File in zip: "+  item)

# find the first matching csv file in the zip:
match = [s for s in zf.namelist() if ".csv" in s][0]
# the first line of the file contains a string - that line shall de     ignored, hence skiprows
df = pandas.read_csv(zf.open(match), low_memory=False, skiprows=[0])

InformationsquelleAutor Martien Lubberink

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.