Boto3, um alle Dateien von einem S3-Bucket herunterzuladen

Ich bin mit boto3, um Dateien von s3-bucket. Ich brauche eine ähnliche Funktionalität wie aws s3 sync

Mein Aktueller code ist

#!/usr/bin/python
import boto3
s3=boto3.client('s3')
list=s3.list_objects(Bucket='my_bucket_name')['Contents']
for key in list:
    s3.download_file('my_bucket_name', key['Key'], key['Key'])

Dies ist in Ordnung, solange der Eimer hat nur Dateien.
Wenn ein Ordner vorhanden ist, in den Eimer, dessen Ausgabe einer Fehlermeldung

Traceback (most recent call last):
  File "./test", line 6, in <module>
    s3.download_file('my_bucket_name', key['Key'], key['Key'])
  File "/usr/local/lib/python2.7/dist-packages/boto3/s3/inject.py", line 58, in download_file
    extra_args=ExtraArgs, callback=Callback)
  File "/usr/local/lib/python2.7/dist-packages/boto3/s3/transfer.py", line 651, in download_file
    extra_args, callback)
  File "/usr/local/lib/python2.7/dist-packages/boto3/s3/transfer.py", line 666, in _download_file
    self._get_object(bucket, key, filename, extra_args, callback)
  File "/usr/local/lib/python2.7/dist-packages/boto3/s3/transfer.py", line 690, in _get_object
    extra_args, callback)
  File "/usr/local/lib/python2.7/dist-packages/boto3/s3/transfer.py", line 707, in _do_get_object
    with self._osutil.open(filename, 'wb') as f:
  File "/usr/local/lib/python2.7/dist-packages/boto3/s3/transfer.py", line 323, in open
    return open(filename, mode)
IOError: [Errno 2] No such file or directory: 'my_folder/.8Df54234'

Ist dies eine richtige Weg zum download einer kompletten s3-bucket mit boto3. Wie zum download Ordner.

InformationsquelleAutor der Frage Shan | 2015-08-10

Ich habe die gleichen Bedürfnisse und erstellen Sie die folgende Funktion, die das herunterladen rekursiv die Dateien.
Die Verzeichnisse sind lokal erzeugten, nur, wenn Sie Dateien enthalten.

import boto3
import os

def download_dir(client, resource, dist, local='/tmp', bucket='your_bucket'):
    paginator = client.get_paginator('list_objects')
    for result in paginator.paginate(Bucket=bucket, Delimiter='/', Prefix=dist):
        if result.get('CommonPrefixes') is not None:
            for subdir in result.get('CommonPrefixes'):
                download_dir(client, resource, subdir.get('Prefix'), local, bucket)
        if result.get('Contents') is not None:
            for file in result.get('Contents'):
                if not os.path.exists(os.path.dirname(local + os.sep + file.get('Key'))):
                     os.makedirs(os.path.dirname(local + os.sep + file.get('Key')))
                resource.meta.client.download_file(bucket, file.get('Key'), local + os.sep + file.get('Key'))

Die Funktion aufgerufen wird, die Art und Weise:

def _start():
    client = boto3.client('s3')
    resource = boto3.resource('s3')
    download_dir(client, resource, 'clientconf/', '/tmp')

InformationsquelleAutor der Antwort glefait

28

Amazon S3 keine Ordner/Verzeichnisse. Es ist ein flat-file-Struktur.

Pflegen das Erscheinungsbild der Verzeichnisse, Pfadnamen gespeichert werden als Teil des objektschlüssels (mit dem Namen). Zum Beispiel:
- images/foo.jpg
In diesem Fall können Sie ganze Schlüssel images/foo.jpg anstatt nur foo.jpg.

Ich vermute, dass dein problem ist, dass boto ist wieder eine Datei namens my_folder/.8Df54234 und wird versuchen, Sie zu speichern auf das lokale Dateisystem. Aber Ihrem lokalen Dateisystem interpretiert die my_folder/ Teil als directory-name, und das Verzeichnis existiert nicht auf Ihrem lokalen Dateisystem.

Können Sie entweder abschneiden den Dateinamen zu speichern nur die .8Df54234 Teil, oder Sie müssten erstellen Sie die erforderlichen Verzeichnissebevor das schreiben von Dateien. Beachten Sie, dass es sein könnte, multi-level-verschachtelte Verzeichnisse.

Ein einfacher Weg wäre, um die AWS Command Line Interface (CLI)die werden alles tun, diese Arbeit für Sie, z.B.:
```
aws s3 cp --recursive s3://my_bucket_name local_folder
```
Es gibt auch eine sync option, die nur kopieren, neue und geänderte Dateien.

InformationsquelleAutor der Antwort John Rotenstein

import os
import boto3

#intiate s3 resource
s3 = boto3.resource('s3')

# select bucket
my_bucket = s3.Bucket('my_bucket_name')

# download file into current directory
for object in my_bucket.objects.all():
    my_bucket.download_file(object.key, os.path.join(os.curdir, object.key))

InformationsquelleAutor der Antwort Tushar Niras

Ich bin derzeit erreichen die Aufgabe, mithilfe der folgenden

#!/usr/bin/python
import boto3
s3=boto3.client('s3')
list=s3.list_objects(Bucket='bucket')['Contents']
for s3_key in list:
    s3_object = s3_key['Key']
    if not s3_object.endswith("/"):
        s3.download_file('bucket', s3_object, s3_object)
    else:
        import os
        if not os.path.exists(s3_object):
            os.makedirs(s3_object)

Obwohl, es macht den job, ich bin nicht sicher, dass seine gut zu tun auf diese Weise.
Ich bin verlassen, es ist hier, um zu helfen, andere Benutzer und die weiteren Antworten, mit einer besseren Art und Weise, dies zu erreichen,

InformationsquelleAutor der Antwort Shan

Besser spät als nie:) Die Vorherige Antwort mit dem paginator ist wirklich gut. Aber es ist rekursiv, und Sie könnten am Ende schlagen Python-Rekursion Grenzen. Hier ist ein alternativer Ansatz, mit ein paar extra Kontrollen.

import os
import errno
import boto3


def assert_dir_exists(path):
    """
    Checks if directory tree in path exists. If not it created them.
    :param path: the path to check if it exists
    """
    try:
        os.makedirs(path)
    except OSError as e:
        if e.errno != errno.EEXIST:
            raise


def download_dir(client, bucket, path, target):
    """
    Downloads recursively the given S3 path to the target directory.
    :param client: S3 client to use.
    :param bucket: the name of the bucket to download from
    :param path: The S3 directory to download.
    :param target: the local directory to download the files to.
    """

    # Handle missing /at end of prefix
    if not path.endswith('/'):
        path += '/'

    paginator = client.get_paginator('list_objects_v2')
    for result in paginator.paginate(Bucket=bucket, Prefix=path):
        # Download each file individually
        for key in result['Contents']:
            # Calculate relative path
            rel_path = key['Key'][len(path):]
            # Skip paths ending in /
            if not key['Key'].endswith('/'):
                local_file_path = os.path.join(target, rel_path)
                # Make sure directories exist
                local_file_dir = os.path.dirname(local_file_path)
                assert_dir_exists(local_file_dir)
                client.download_file(bucket, key['Key'], local_file_path)


client = boto3.client('s3')

download_dir(client, 'bucket-name', 'path/to/data', 'downloads')

InformationsquelleAutor der Antwort ifoukarakis

Es ist eine sehr schlechte Idee, um alle Dateien in einem Rutsch, sollte man sich lieber Holen Sie es in den Reihen.

Einer Umsetzung, die ich verwenden, um zu Holen einen bestimmten Ordner (Verzeichnis) von S3 ist,

def get_directory(directory_path, download_path, exclude_file_names):
    # prepare session
    session = Session(aws_access_key_id, aws_secret_access_key, region_name)

    # get instances for resource and bucket
    resource = session.resource('s3')
    bucket = resource.Bucket(bucket_name)

    for s3_key in self.client.list_objects(Bucket=self.bucket_name, Prefix=directory_path)['Contents']:
        s3_object = s3_key['Key']
        if s3_object not in exclude_file_names:
            bucket.download_file(file_path, download_path + str(s3_object.split('/')[-1])

und immer noch, wenn Sie wollen, um die ganzen Eimer via CIL als @John Rotenstein erwähnt als unten,

aws s3 cp --recursive s3://bucket_name download_path

InformationsquelleAutor der Antwort Ganatra

Habe ich einen workaround für diese läuft die AWS CLI im gleichen Prozess.

Installieren awscli als python-lib:

pip install awscli

Dann definieren Sie diese Funktion:

from awscli.clidriver import create_clidriver

def aws_cli(*cmd):
    old_env = dict(os.environ)
    try:

        # Environment
        env = os.environ.copy()
        env['LC_CTYPE'] = u'en_US.UTF'
        os.environ.update(env)

        # Run awscli in the same process
        exit_code = create_clidriver().main(*cmd)

        # Deal with problems
        if exit_code > 0:
            raise RuntimeError('AWS CLI exited with code {}'.format(exit_code))
    finally:
        os.environ.clear()
        os.environ.update(old_env)

Ausführen:

aws_cli('s3', 'sync', '/path/to/source', 's3://bucket/destination', '--delete')

InformationsquelleAutor der Antwort mattalxndr

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.