das hochladen und komprimieren Datei zu s3

Ich habe vor kurzem begonnen arbeiten mit S3 und haben sich über diese Notwendigkeit, um das hochladen und komprimieren große Dateien (10 gb +-) auf s3.
Die aktuelle Umsetzung mit dem ich arbeite, ist das erstellen einer temp-komprimierte Datei lokal und dann hochladen auf s3 und schließlich das löschen der temp-Datei. Die Sache ist, für eine 10 gb Datei, ich habe fast 20 gb lokal gespeichert, bis der upload fertig ist. Ich brauche einen Weg, um die übertragung der Datei zu s3 und dann komprimieren es.
Ist dieser Ansatz tragfähig? Wenn ja,wie soll ich den anderen das? Wenn nicht, gibt es eine Möglichkeit, kann ich das minimieren der lokalen Speicherplatz benötigt?
Ich habe jemanden gesehen, sugesting, dass die Datei konnten hochgeladen werden, S3, heruntergeladen, um eine EC2-in der gleichen region, es komprimiert und dann hochgeladen, zurück zu den S3 beim löschen der ersten Kopie auf S3. Dies könnte funktionieren, aber es scheint mir, dass 2 uploads für geting eine Datei wäre nicht von Vorteil costwise.

Ich habe versucht, laden Sie eine Komprimierung-stream ohne Erfolg, aber ich habe gerade entdeckt, s3 unterstützt keine Komprimierung und streaming jetzt bin ich ratlos wie es weitergehen soll.

Ich bin mit dem gzip-Bibliothek auf .NET

InformationsquelleAutor VmLino | 2014-06-05

10

In der linux-shell, über aws-cli, dies wurde Hinzugefügt, etwa 3 Monate nachdem Sie die Frage gestellt 🙂

Hinzugefügt wurde die Fähigkeit zum streamen von Daten mit cp

So dass die beste Sie tun können, denke ich, ist die pipe die Ausgabe von gzip zu aws cli:

Hochladen von stdin:

gzip -c big_file | aws s3 cp - s3://bucket/folder/big_file.gz

Download auf stdout:

aws s3 cp s3://bucket/folder/big_file.gz - | gunzip -c ...
- war sehr hilfreich
InformationsquelleAutor Ferdinand.kraft
5

Wenn Raum an einer Prämie an die Stelle, wo Sie zunächst die Datei, dann das hochladen der Datei zu S3, und anschließend herunterladen, entpacken und wieder hochladen der Datei auf S3 auf einer EC2-instance in derselben region wie das S3-bucket ist eigentlich eine sehr sinnvolle (wenn scheinbar counter-intuitive) Vorschlag, aus einem einfachen Grund:

AWS keine Gebühren für Bandbreite zwischen EC2 und S3 in der gleichen region.

Dies ist ein Idealer job für eine spot-instance... und ein guter use-case für SQS zu sagen, der spot Maschine, was getan werden muss.

Auf der anderen Seite..., Sie verbringen mehr von Ihrer lokalen Bandbreite Upload, dass die Datei, wenn Sie nicht komprimieren ersten.

Wenn Sie ein Programmierer sind, sollten Sie in der Lage sein Handwerk, ein Dienstprogramm, ähnlich der, die ich geschrieben habe, für den internen Gebrauch (dies ist kein plug; es ist zurzeit nicht verfügbar zum release), die komprimiert (über externe tools) und uploads von Dateien auf S3 on-the-fly.

Funktioniert es so etwas wie dieser pseudocode Beispiel-Befehlszeile:
```
cat input_file | gzip -9c | stream-to-s3 --bucket 'the-bucket' --key 'the/path'
```
Das ist ein Vereinfachtes Beispiel, um das Konzept zu zeigen. Natürlich, mein "stream-to-s3" - Programm akzeptiert eine Reihe von anderen Argumenten, einschließlich der x-amz-meta-Metadaten, die aws access key und secret, aber Sie bekommen die Idee, vielleicht.

Gängigen Kompressions-Tools wie gzip, pigz, bzip2 pbzip2, xz, und pixz alle Lesen können, die Quelle-Datei aus STDIN und schreiben der komprimierten Daten, um STDOUT ohne jemals schreiben wird die komprimierte version der Datei auf der Festplatte.

Den utility verwende ich die Datei liest die Daten aus Ihren STDIN über die pipeline, und mit S3-Multipart-Upload (auch bei kleinen Dateien, die nicht technisch müssen Sie, weil die S3-Multipart-Upload geschickt müssen Sie nicht wissen, die Größe der Datei im Voraus), es hält nur das senden von Daten an S3 bis EOF auf den Eingabe-stream. Dann schließt es die multipart-upload und sorgt dafür, dass alles gelungen ist.

Ich dieses Dienstprogramm verwenden, um erstellen und hochladen komplette tarballs, mit Kompression, ohne jemals das berühren eines einzigen block von Speicherplatz. Wieder war es nicht besonders schwer zu schreiben, und hätte getan werden können in einer Reihe von Sprachen. Ich habe nicht einmal irgendwelche S3-SDK, ich rollte meine eigenen von Grund auf, mit einem standard-HTTP-user-agent und die S3-API-Dokumentation.
- OP sagt: "S3 unterstützt keine Komprimierung streaming." Ich bin mir nicht sicher, was das wirklich bedeutet, aber ich weiß meine Antwort ist nicht theoretisch. Ich stream Dutzende von GB stark komprimierten Daten auf S3 on-the-fly auf einer täglichen basis. S3 unterstützt, was effektiv ist "streaming" über multipart-uploads und ist Agnostiker auf die compressedness, was hochgeladen wird.
- Was ich meinte ist, dass ich nicht komprimieren beim hochladen. Eine Datei, die komprimiert uploads just fine. Also, wenn ich es richtig gelesen, der code tatsächlich gelingt, Lesen Sie ein filestream, es komprimieren und hochladen mit multipart (ich bin vertraut mit dieser Funktion), ohne jemals mit einer temp-Datei?
- Ich sehe. Und das ist, was ich Tue, das hochladen einer Datei, die komprimiert ist, aber ich mache es wie die Kompressions-Algorithmus, füttert mich komprimierten Daten auf dem Rohr.
- Ich habe versucht, zu komprimieren und zu füttern multipart mit einem stream mit komprimierten Daten. Die Sache ist, habe ich es nicht geschafft halten Sie den Fluss am laufen und endete mit 3 beschädigt .gz-Dateien, Ursache multipart geschlossen jeden Teil als eine Datei. Vielleicht habe ich verhunzt den code an einem gewissen Punkt. Und nachdem ich meinen Chef an, mir zu erzählen, wie Sie können nicht komprimieren, teilweise die Datei und dann legen Sie es alle zusammen, ich dachte, ich könnte hier helfen. Es ist neugierig zu sehen, etwas, das so ähnlich wie mein Erster Ansatz.
- Ein multipart-upload würde immer nur möglicherweise erstellen Sie eine Datei (Objekt) in S3, so dass, wenn Sie irgendwie endete mit 3 Dateien, das wäre ein Fehler in der Implementierung, als vielmehr in dem Allgemeinen Prinzip von dem, was Sie versuchten.
- Also, wenn mein multipart-Funktion ist in einer externen Methode, und ich nannte es in einem loop, der füttert es mit einem stream mit teilen meiner original-Datei komprimiert werden, damit es funktioniert möchte ich es füttern, mit der Antwort-Id als parameter bei jedem Aufruf? Das war mein persoenliches weiter versuchen, bevor ich wurde gesagt, es würde nicht funktionieren.
- Ja, Sie wirklich brauchen, um zu füttern die upload-id und die Teilenummer, die er senden soll... und sammeln, von ETag zurückgegeben, die durch die put-Teil nennen. Sie haben zu kombinieren, diese etags zusammen mit dem upload-id beim Aufruf komplett-multipart-upload. Jedes Teil, das Sie hochladen (außer der letzten) muss mindestens 5 MB groß. Wenn Sie split, die komprimierte Ausgabe auf den Grenzen von, sagen wir, 5 MB und das hochladen jeweils 5MB Brocken, S3 baut die Teile in genau der original-Daten.
InformationsquelleAutor Michael - sqlbot
1

Ich brauche einen Weg, um die übertragung der Datei zu s3 und dann komprimieren es. Ist dieser Ansatz tragfähig?

Dieser Ansatz ist nicht tragfähig/nicht optional. Die Kompression nimmt eine Menge der CPU-Ressourcen, und Amazon S3 ist in das Geschäft der Speicherung von Daten, die nicht durchführen heavy duty Verarbeitung Ihrer Dateien.

Mit S3 sind Sie auch bezahlen Bandbreite für das, was Sie hochladen, so dass Sie verschwenden Geld senden mehr Daten müssen dann werden.

Habe ich jemanden gesehen, sugesting, dass die Datei konnten hochgeladen werden, S3, heruntergeladen, um eine EC2-in der gleichen region, komprimiert es und dann
hochgeladen zurück zur S3, während das löschen der ersten Kopie auf S3.

Was Sie tun können, ist ein upload direkt zu EC2, komprimieren Sie es, und laden Sie dann zu S3 von dort. Aber jetzt haben Sie sich Ihre 20-GB-problem von der lokalen Maschine, auf der EC2-Instanz.

Der beste Ansatz ist weiterhin mit Ihrem aktuellen Ansatz der lokal komprimieren und dann hochladen.

InformationsquelleAutor Martin Konecny
0

Wenn Sie mit .NETTO könnte man einen char stream, aber Sie müssten auch noch einige lokale Speicher, die größer als 20 GB.

Zusätzlich werden die überbringer schlechter Nachrichten S3 von amazon ist nur die Lagerung. Müssen Sie möglicherweise zu drehen, bis ein anderer Dienst (aws) als ein Programm ausführen kann, das komprimieren kann auf die Lagerung. Damit Ihre app hochgeladen und komprimiert mit dem S3-Speicher.

Wenn euer Projekt kleiner ist, möchten Sie vielleicht zu prüfen, eine IaaS-Anbieter eher als PaaS. So Speicher-und app kann werden auf den gleichen Servern.

InformationsquelleAutor Kyle_at_NU
0

Ein sehr wichtiger S3-Funktion für den upload-Durchsatz parallele hochladen. Es gibt mehrere tools, die das tut, wie aws cli, s3cmd oder crossftp. Aus einer .NET-API, das gleiche kann erreicht werden durch die TransferUtility Klasse

Wenn Sie wirklich brauchen, Kompression, werfen Sie einen Blick auf S3DistCP, ein tool, das tun können, übertragungen über mehrere Maschinen parallel und komprimieren on-the-fly.

InformationsquelleAutor faermanj

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.