Abrufen Unterordner Namen im S3-bucket aus boto3

Mit boto3, ich kann auf meine AWS S3 bucket:

s3 = boto3.resource('s3')
bucket = s3.Bucket('my-bucket-name')

Nun, der Eimer enthält Ordner first-level, die sich selbst enthält mehrere sub-Ordner mit einem Zeitstempel benannt, zum Beispiel 1456753904534.
Ich muss wissen, den Namen dieser Unterordner für einen anderen job, den ich mache, und ich Frage mich, ob ich könnte haben boto3 abrufen für mich.

Also habe ich versucht:

objs = bucket.meta.client.list_objects(Bucket='my-bucket-name')

gibt ein Wörterbuch, dessen Schlüssel "Inhalt" gibt mir all die third-level-Dateien anstelle des second-level-Zeitstempel von Verzeichnissen, in der Tat habe ich eine Liste mit Dingen, wie

{u'ETag': '"etag"', u'Key': first-level/1456753904534/Teil-00014', u'LastModified':
datetime.datetime(2016, 2, 29, 13, 52, 24, tzinfo=tzutc()),
u'Owner': {u'DisplayName': 'owner', u 'ID':
'id'},
u'Size': Größe, u'StorageClass': 'storageclass'}

können Sie sehen, dass bestimmte Dateien, in diesem Fall part-00014 abgerufen werden, während ich mag würde, um den Namen des Verzeichnisses allein.
Im Prinzip könnte ich die Streifen aus dem directory-Namen aus allen Pfaden, aber es ist hässlich und teuer, zum abrufen von alles, was Sie an der Dritten Ebene auf die zweite Ebene!

Ich habe auch versucht etwas berichtet hier:

for o in bucket.objects.filter(Delimiter='/'):
    print(o.key)

aber ich komme nicht auf den Ordner auf dem gewünschten Niveau.

Gibt es eine Möglichkeit, dies zu lösen?

Also du sagst, dass dieser nicht funktioniert? Könnten Sie nach, was passiert, wenn Sie laufen?
Ich habe versucht, die ersten Zeilen, der link, den Sie schicken, die ich hier eingefügt, und ich bekomme den text-Dateien auf der ersten Ebene der Eimer und keine Ordner.
zinn Hast du jemals dieses Problem zu beheben. Ich stehe vor einem ähnlichen dilemma, wo ich das erste element in jeden Eimer Unterordner.
Ja, kein anderer Weg, als sich alle Objekte und die Aufteilung von / zu bekommen Unterordner
mar tin Die einzige Möglichkeit, die ich gemacht habe, ist genommen die Ausgabe, geworfen in ein text-format und Komma begrenzen, die durch " /" und dann kopieren und einfügen erstes element. Was für ein Schmerz in den Arsch.

InformationsquelleAutor mar tin | 2016-03-04

14

S3 ist ein object storage, ist es nicht real directory-Struktur. Der "/" ist eher Kosmetik.
Ein Grund dafür, dass die Menschen wollen, um eine Verzeichnis-Struktur, denn Sie können sich pflegen/beschneiden/hinzufügen einen Baum, um die Anwendung. Für S3, behandeln Sie diese Struktur als eine Art index oder suchen, tag.

Manipulieren Objekt in S3, die Sie benötigen, boto3.client oder boto3.Ressourcen, wie z.B.
Um eine Liste aller Objekt
```
import boto3 
s3 = boto3.client("s3")
all_objects = s3.list_objects(Bucket = 'bucket-name') 
```
http://boto3.readthedocs.org/en/latest/reference/services/s3.html#S3.Client.list_objects

In der Tat, wenn die s3-Objekt-name gespeichert ist, mit ' /" - Trennzeichen, die Sie verwenden können, python os.Pfad extrahieren-Funktion die Ordner-Präfix.
```
import os
s3_key = 'first-level/1456753904534/part-00014'
filename = os.path.basename(s3_key) 
foldername = os.path.dirname(s3_key)

# if you are not using conventional delimiter like '#' 
s3_key = 'first-level#1456753904534#part-00014
filename = s3_key.split("#")[-1]
```
Einer Erinnerung über boto3 : boto3.Ressource ist eine schöne high-level-API. Es gibt vor-und Nachteile mit boto3.client vs boto3.Ressource. Wenn Sie entwickeln interne shared-library, mit boto3.die Ressource wird Ihnen ein blackbox-Ebene über die verwendeten Ressourcen.

Das gibt mir das gleiche Ergebnis bekomme ich mit meinem Versuch in Frage. Ich denke, ich werde haben, zu lösen, den harten Weg indem du alle Schlüssel aus dem zurückgegebenen Objekte und die Aufteilung der string um den Namen des Ordners.
ein fauler python-split und Holen die letzten Daten in der Liste z.B. filename = keyname.split("/")[-1]
os.Pfad.dirname(directory/path/and/filename.txt) und file_name = os.path.basename(directory/path/and/filename.txt)

InformationsquelleAutor mootmoot

Unten Stück code gibt NUR den 'Unterordner' im 'Ordner' aus dem s3-bucket.

import boto3
bucket = 'my-bucket'
#Make sure you provide /in the end
prefix = 'prefix-name-with-slash/'  

client = boto3.client('s3')
result = client.list_objects(Bucket=bucket, Prefix=prefix, Delimiter='/')
for o in result.get('CommonPrefixes'):
    print 'sub folder : ', o.get('Prefix')

Weitere details finden Sie auf https://github.com/boto/boto3/issues/134

Was ist, wenn möchte ich Liste den Inhalt eines bestimmten Unterordner?

InformationsquelleAutor Dipankar

25

Es hat mich eine Menge Zeit, um herauszufinden, aber schließlich, hier ist ein einfacher Weg, um die Liste Inhalt eines Unterordners im S3-bucket mit boto3. Hoffe es hilft
```
prefix = "folderone/foldertwo/"
s3 = boto3.resource('s3')
bucket = s3.Bucket(name="bucket_name_here")
FilesNotFound = True
for obj in bucket.objects.filter(Prefix=prefix):
     print('{0}:{1}'.format(bucket.name, obj.key))
     FilesNotFound = False
if FilesNotFound:
     print("ALERT", "No file in {0}/{1}".format(bucket, prefix))
```
was, wenn Sie Ihre Ordner enthält eine enorme Anzahl von Objekten?
sollte trotzdem funktionieren
mein Punkt ist, dass dies eine furchtbar ineffiziente Lösung. S3 ist gebaut, um Umgang mit beliebigen Trennzeichen in die Tasten. Zum Beispiel '/'. Dass wir Sie überspringen "Ordner" voller Objekte, ohne zu paginieren über Sie. Und dann, selbst wenn Sie bestehen auf einer vollen Auflistung (d.h. der 'recursive' entspricht in aws cli), dann müssen Sie paginators oder Sie Liste nur die ersten 1000 Objekte.

InformationsquelleAutor itz-azhar

Kurze Antwort:

Verwenden Delimiter='/'. Dies vermeidet dabei ein Rekursives listing von Ihrem Eimer. Hier einige Antworten falsch schlagen vor, eine komplette Liste und mit einigen string-manipulation zum abrufen der Verzeichnis-Namen. Dies könnte schrecklich ineffizient. Denken Sie daran, dass S3 hat praktisch keine Begrenzung der Anzahl der Objekte einen Eimer enthalten kann. Also stellen Sie sich vor, dass zwischen bar/ und foo/ Sie haben Billionen von Objekten: Sie würde warten, eine sehr lange Zeit, um ['bar/', 'foo/'].
Verwenden Paginators. Aus dem gleichen Grund (S3 ist ein Ingenieur-Angleichung der Unendlichkeit), Sie muss Liste durch die Seiten, und vermeiden Sie die Speicherung der Liste in den Speicher. Stattdessen betrachten Sie Ihre "lister" als iterator vor, und Griff den Strom, den es produziert.
Verwenden boto3.client, nicht boto3.Ressource. Die resource version scheint nicht zu behandeln sowie die Delimiter option. Wenn Sie eine Ressource, sagen bucket = boto3.resource('s3').Bucket(name) können Sie den entsprechenden client mit: bucket.meta.client.

Lange Antwort:

Folgende ist ein iterator, ich benutze für einfache Eimer (keine version handling).

import boto3
from collections import namedtuple
from operator import attrgetter


S3Obj = namedtuple('S3Obj', ['key', 'mtime', 'size', 'ETag'])


def s3list(bucket, path, start=None, end=None, recursive=True, list_dirs=True,
           list_objs=True, limit=None):
    """
    Iterator that lists a bucket's objects under path, (optionally) starting with
    start and ending before end.

    If recursive is False, then list only the "depth=0" items (dirs and objects).

    If recursive is True, then list recursively all objects (no dirs).

    Args:
        bucket:
            a boto3.resource('s3').Bucket().
        path:
            a directory in the bucket.
        start:
            optional: start key, inclusive (may be a relative path under path, or
            absolute in the bucket)
        end:
            optional: stop key, exclusive (may be a relative path under path, or
            absolute in the bucket)
        recursive:
            optional, default True. If True, lists only objects. If False, lists
            only depth 0 "directories" and objects.
        list_dirs:
            optional, default True. Has no effect in recursive listing. On
            non-recursive listing, if False, then directories are omitted.
        list_objs:
            optional, default True. If False, then directories are omitted.
        limit:
            optional. If specified, then lists at most this many items.

    Returns:
        an iterator of S3Obj.

    Examples:
        # set up
        >>> s3 = boto3.resource('s3')
        ... bucket = s3.Bucket(name)

        # iterate through all S3 objects under some dir
        >>> for p in s3ls(bucket, 'some/dir'):
        ...     print(p)

        # iterate through up to 20 S3 objects under some dir, starting with foo_0010
        >>> for p in s3ls(bucket, 'some/dir', limit=20, start='foo_0010'):
        ...     print(p)

        # non-recursive listing under some dir:
        >>> for p in s3ls(bucket, 'some/dir', recursive=False):
        ...     print(p)

        # non-recursive listing under some dir, listing only dirs:
        >>> for p in s3ls(bucket, 'some/dir', recursive=False, list_objs=False):
        ...     print(p)
"""
    kwargs = dict()
    if start is not None:
        if not start.startswith(path):
            start = os.path.join(path, start)
        # note: need to use a string just smaller than start, because
        # the list_object API specifies that start is excluded (the first
        # result is *after* start).
        kwargs.update(Marker=__prev_str(start))
    if end is not None:
        if not end.startswith(path):
            end = os.path.join(path, end)
    if not recursive:
        kwargs.update(Delimiter='/')
        if not path.endswith('/'):
            path += '/'
    kwargs.update(Prefix=path)
    if limit is not None:
        kwargs.update(PaginationConfig={'MaxItems': limit})

    paginator = bucket.meta.client.get_paginator('list_objects')
    for resp in paginator.paginate(Bucket=bucket.name, **kwargs):
        q = []
        if 'CommonPrefixes' in resp and list_dirs:
            q = [S3Obj(f['Prefix'], None, None, None) for f in resp['CommonPrefixes']]
        if 'Contents' in resp and list_objs:
            q += [S3Obj(f['Key'], f['LastModified'], f['Size'], f['ETag']) for f in resp['Contents']]
        # note: even with sorted lists, it is faster to sort(a+b)
        # than heapq.merge(a, b) at least up to 10K elements in each list
        q = sorted(q, key=attrgetter('key'))
        if limit is not None:
            q = q[:limit]
            limit -= len(q)
        for p in q:
            if end is not None and p.key >= end:
                return
            yield p


def __prev_str(s):
    if len(s) == 0:
        return s
    s, c = s[:-1], ord(s[-1])
    if c > 0:
        s += chr(c - 1)
    s += ''.join(['\u7FFF' for _ in range(10)])
    return s

Test:

Folgende ist hilfreich, um testen Sie das Verhalten der paginator und list_objects. Es schafft eine Reihe von Verzeichnissen und Dateien. Da die Seiten sind bis zu 1000 Einträge, verwenden wir ein Vielfaches für Verzeichnisse und Dateien. dirs enthält nur Verzeichnisse (jeweils ein Objekt). mixed enthält eine Mischung von dirs und Objekte, mit einem Verhältnis von 2 Objekten für jede dir (plus ein Objekt unter dir, natürlich; S3 speichert nur Objekte).

import concurrent
def genkeys(top='tmp/test', n=2000):
    for k in range(n):
        if k % 100 == 0:
            print(k)
        for name in [
            os.path.join(top, 'dirs', f'{k:04d}_dir', 'foo'),
            os.path.join(top, 'mixed', f'{k:04d}_dir', 'foo'),
            os.path.join(top, 'mixed', f'{k:04d}_foo_a'),
            os.path.join(top, 'mixed', f'{k:04d}_foo_b'),
        ]:
            yield name


with concurrent.futures.ThreadPoolExecutor(max_workers=32) as executor:
    executor.map(lambda name: bucket.put_object(Key=name, Body='hi\n'.encode()), genkeys())

Die resultierende Struktur ist:

./dirs/0000_dir/foo
./dirs/0001_dir/foo
./dirs/0002_dir/foo
...
./dirs/1999_dir/foo
./mixed/0000_dir/foo
./mixed/0000_foo_a
./mixed/0000_foo_b
./mixed/0001_dir/foo
./mixed/0001_foo_a
./mixed/0001_foo_b
./mixed/0002_dir/foo
./mixed/0002_foo_a
./mixed/0002_foo_b
...
./mixed/1999_dir/foo
./mixed/1999_foo_a
./mixed/1999_foo_b

Mit ein wenig verarzten den code oben für s3list zu prüfen die Antworten von der paginator ist, können Sie beobachten einige lustige Fakten:

Den Marker ist wirklich exklusiv. Angesichts Marker=topdir + 'mixed/0500_foo_a' wird die Auflistung beginnen nach, der Schlüssel (wie in der AmazonS3 API), d.h., mit .../mixed/0500_foo_b. Das ist der Grund für __prev_str().
Mit Delimiter, bei der Auflistung mixed/ jede Antwort aus der paginator enthält 666 keys und 334 häufige Präfixe. Es ist ziemlich gut, nicht Gebäude enorme Reaktionen.
Dagegen bei der Auflistung dirs/ jede Antwort aus der paginator enthält die 1000 häufigsten Präfixe (und keine Tasten).
Passieren einer Grenze in form von PaginationConfig={'MaxItems': limit} Grenzen, nur die Anzahl der Schlüssel, nicht die gemeinsame Präfixe. Wir beschäftigen uns mit, dass durch das weitere kürzen der stream von unseren iterator.

es ist unglaublich, wie tha Amazon Jungs lieben die Dinge zu komplizieren.
es ist wirklich nicht sehr kompliziert, für ein system, das solche unglaublichen Maßstab und Zuverlässigkeit. Wenn Sie jemals sich mit mehr als ein paar hundert TBs, erhalten Sie eine Wertschätzung für das, was Sie anbieten. Denken Sie daran, die Laufwerke haben immer eine MTBF > 0... Denken über die Auswirkungen auf die large scale data storage. Disclaimer: ich bin eine aktive und glückliche AWS-Benutzer, die keine andere Verbindung, außer, dass ich gearbeitet habe petabyte-scale data seit 2007, und es verwendet zu sein viel härter.
es ist verrückt, zu kompliziert für den durchschnittlichen Benutzer.

InformationsquelleAutor Pierre D

Ich hatte das gleiche Problem, aber es geschafft, es zu beheben, mithilfe boto3.client und list_objects_v2 mit Bucket und StartAfter Parameter.

s3client = boto3.client('s3')
bucket = 'my-bucket-name'
startAfter = 'firstlevelFolder/secondLevelFolder'

theobjects = s3client.list_objects_v2(Bucket=bucket, StartAfter=startAfter )
for object in theobjects['Contents']:
    print object['Key']

Den Ausgang für den obigen code würde wie folgt Aussehen:

firstlevelFolder/secondLevelFolder/item1
firstlevelFolder/secondLevelFolder/item2

Boto3 list_objects_v2 Dokumentation

In Ordnung zu Streifen, nur den Namen des Verzeichnisses für secondLevelFolder habe ich nur verwendet, python-Methode split():

s3client = boto3.client('s3')
bucket = 'my-bucket-name'
startAfter = 'firstlevelFolder/secondLevelFolder'

theobjects = s3client.list_objects_v2(Bucket=bucket, StartAfter=startAfter )
for object in theobjects['Contents']:
    direcoryName = object['Key']..encode("string_escape").split('/')
    print direcoryName[1]

Den Ausgang für den obigen code würde wie folgt Aussehen:

secondLevelFolder
secondLevelFolder

Python split () - Dokumentation

Wenn Sie möchten, um die Verzeichnis-Namen UND-Inhalte Einzelteil-name ersetzen Sie dann die print Zeile mit dem folgenden:

print "{}/{}".format(fileName[1], fileName[2])

Und der folgenden wird ausgegeben:

secondLevelFolder/item2
secondLevelFolder/item2

Hoffe, das hilft

das funktionierte, danke!

InformationsquelleAutor Sophie Muspratt

8

den neuesten BOTO3 Dokumentation empfiehlt jetzt mit list_objects_v2
http://boto3.readthedocs.io/en/latest/reference/services/s3.html#S3.Client.list_objects_v2

InformationsquelleAutor Sameer Girolkar
7

Die große Erkenntnis mit dem S3 ist, dass es keine Ordner/Verzeichnisse nur Schlüssel. Die scheinbare Ordner-Struktur ist nur vorangestellt, um die mit dem Namen, werden die 'Schlüssel', also zum auflisten des Inhalts des myBucket's some/path/to/the/file/ können Sie versuchen:
```
s3 = boto3.client('s3')
for obj in s3.list_objects_v2(Bucket="myBucket", Prefix="some/path/to/the/file/")['Contents']:
    print(obj['Key'])
```
was würde Ihnen so etwas wie:
```
some/path/to/the/file/yoMumma.jpg
some/path/to/the/file/meAndYoMuma.gif
...
```
Dies ist der Kommentar, ich habe gegeißelt, das internet für Stunden jetzt! Danke @CpILL
YEah, ich brauchte eine lange Zeit, um es herauszufinden (wie alles in AWS). Froh, dass es jemandem geholfen.

InformationsquelleAutor CpILL

Folgende Werke für mich... S3-Objekte:

s3://bucket/
    form1/
       section11/
          file111
          file112
       section12/
          file121
    form2/
       section21/
          file211
          file112
       section22/
          file221
          file222
          ...
      ...
   ...

Mit:

from boto3.session import Session
s3client = session.client('s3')
resp = s3client.list_objects(Bucket=bucket, Prefix='', Delimiter="/")
forms = [x['Prefix'] for x in resp['CommonPrefixes']]

erhalten wir:

form1/
form2/
...

Mit:

resp = s3client.list_objects(Bucket=bucket, Prefix='form1/', Delimiter="/")
sections = [x['Prefix'] for x in resp['CommonPrefixes']]

erhalten wir:

form1/section11/
form1/section12/

InformationsquelleAutor cem

Den AWS-cli diese (vermutlich ohne abrufen und Durchlaufen alle Tasten im Eimer), wenn Sie Sie ausführen aws s3 ls s3://my-bucket/, so dass ich dachte, es muss einen Weg mit boto3.

https://github.com/aws/aws-cli/blob/0fedc4c1b6a7aee13e2ed10c3ada778c702c22c3/awscli/customizations/s3/subcommands.py#L499

Sieht es aus wie Sie in der Tat mit Präfix-und Trennzeichen - ich war in der Lage, eine Funktion schreiben, die mir alle Verzeichnisse auf der root-Ebene von einem Eimer, indem geändert wird, der code ein wenig:

def list_folders_in_bucket(bucket):
    paginator = boto3.client('s3').get_paginator('list_objects')
    folders = []
    iterator = paginator.paginate(Bucket=bucket, Prefix='', Delimiter='/', PaginationConfig={'PageSize': None})
    for response_data in iterator:
        prefixes = response_data.get('CommonPrefixes', [])
        for prefix in prefixes:
            prefix_name = prefix['Prefix']
            if prefix_name.endswith('/'):
                folders.append(prefix_name.rstrip('/'))
    return folders

InformationsquelleAutor Paul Zielinski

1

Erstens, es gibt keine echten Ordner-Konzept in S3.
Sie können definitiv haben ein Datei @ '/folder/subfolder/myfile.txt' und keine Ordner noch Unterordner.

Zu "simulieren" einen Ordner in S3, müssen Sie erstellen eine leere Datei mit einem '/' am Ende des namens (siehe Amazon S3 boto - how, um einen Ordner zu erstellen?)

Für Ihr problem, sollten Sie wahrscheinlich verwenden Sie die Methode get_all_keys mit den 2 Parametern : prefix und delimiter

https://github.com/boto/boto/blob/develop/boto/s3/bucket.py#L427
```
for key in bucket.get_all_keys(prefix='first-level/', delimiter='/'):
    print(key.name)
```
Ich fürchte, ich habe nicht die Methode get_all_keys auf das Eimer-Objekt. Ich bin mit boto3 version 1.2.3.
Gerade überprüft boto 1.2 a: es, bucket hat eine Methode list mit prefix und delimiter. Ich nehme an, es sollte funktionieren.
Das Eimer-Objekt abgerufen wie poste ich in der Frage nicht auf diese Methoden. Ich bin auf boto3 1.2.6, welche version hat dein link verweist?
Siehe hier boto3.readthedocs.org/en/latest/reference/services/...

InformationsquelleAutor Pirheas

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.