Der Konsum einer kinesis-stream in python

Ich kann nicht scheinen zu finden, ein anständiges Beispiel, das zeigt, wie kann ich verbrauchen eine AWS Kinesis-stream via Python. Kann jemand bitte geben Sie mir einige Beispiele, die ich schauen konnte in?

Besten

Wirklich zu schätzen einige helfen auf diese Jungs.

InformationsquelleAutor aliirz | 2014-02-28

7

Während diese Frage bereits beantwortet wurde, könnte es eine gute Idee für zukünftige Leser zu prüfen, mit der Kinesis Client Library (KCL) for Python anstatt boto direkt. Es vereinfacht Verzehr aus dem stream , wenn Sie mehrere Verbraucher Instanzen und/oder ändern von Splitter-Konfigurationen.

https://aws.amazon.com/blogs/aws/speak-to-kinesis-in-python/

Mehr vollständige enumeration, was die KCL bietet
- Verbindet sich mit dem stream
- Zählt die Scherben
- Koordinaten Splitter Assoziationen mit anderen Arbeitnehmer (wenn überhaupt)
- Erzeugt einen Datensatz Prozessor für jeden shard gelingt es
- Zieht Datensätze aus dem stream
- Schiebt die Datensätze auf den entsprechenden Datensatz Prozessor
- Prüfpunkte verarbeitet Datensätze (es DynamoDB verwendet, damit der code nicht haben, um manuell speichern Sie das Prüfpunkt-Wert)
- Salden Splitter-arbeitervereine, wenn die worker-Instanz zählen änderungen
- Salden Splitter-arbeitervereine, wenn shards aufgeteilt oder zusammengeführt
Die Elemente in Fettdruck sind diejenigen, die ich denke, sind die, wo die KCL-wirklich nicht-trivialen Wert über boto. Aber je nach Anwendungsfall boto viel viel viel einfacher.
- Wo war das, wenn ich leide 🙁
- Auch, wenn Sie noch nicht verwendet kinesis vor, Sie können ausführen in diesem. Es ist nicht direkt mit der KCL -, aber die KCL-hilft dieses Szenario ein wenig geheimnisvoll. stackoverflow.com/questions/32863095/...
- wirklich Graben Sie meinen Kopf in KCL, finden es ruft ein daemon läuft in Java. Das machen meine Debuggen und anpassen mein code wirklich schwer in python. Boto gibt mir die volle Kontrolle und ich weiss, wie es intern arbeiten.
- Mit boto ist definitiv mehr überschaubar, und es ist klarer, was passiert. Aber mit der KCL "automatisch" sorgt dafür, einige nicht-triviale Aufgaben, wenn Sie über eine komplexere Implementierung. Ich werde zu aktualisieren meinem ursprünglichen Antwort darauf, einige dieser Aufgaben. Ich bin nicht drücken KCL über die Verwendung von boto, genau zu erklären, Wann/wie die KCL-vielleicht überwiegen boto ist die Einfachheit.
InformationsquelleAutor jumand
29

sollten Sie verwenden, boto.kinesis:
```
from boto import kinesis
```
Nachdem Sie erstellt einen stream:

Schritt 1: anschließen an die aws kinesis:
```
auth = {"aws_access_key_id":"id", "aws_secret_access_key":"key"}
connection = kinesis.connect_to_region('us-east-1',**auth)
```
Schritt 2: Holen Sie sich die stream-info (wie, wie viele Scherben, wenn es aktiv ist ..)
```
tries = 0
while tries < 10:
    tries += 1
    time.sleep(1)
    try:
        response = connection.describe_stream('stream_name')   
        if response['StreamDescription']['StreamStatus'] == 'ACTIVE':
            break 
    except :
        logger.error('error while trying to describe kinesis stream : %s')
else:
    raise TimeoutError('Stream is still not active, aborting...')
```
Schritt 3 : Holen Sie sich alle Splitter ids, und für jede freigegebene id-Holen Sie sich die shard iterator:
```
shard_ids = []
stream_name = None 
if response and 'StreamDescription' in response:
    stream_name = response['StreamDescription']['StreamName']                   
    for shard_id in response['StreamDescription']['Shards']:
         shard_id = shard_id['ShardId']
         shard_iterator = connection.get_shard_iterator(stream_name, shard_id, shard_iterator_type)
         shard_ids.append({'shard_id' : shard_id ,'shard_iterator' : shard_iterator['ShardIterator'] })
```
Schritt 4 : Lesen Sie die Daten für die einzelnen Splitter

limit ist das limit der Datensätze, die Sie erhalten möchten. (Sie können bis zu 10 MB)
shard_iterator ist das gemeinsame aus den vorherigen Schritt.
```
tries = 0
result = []
while tries < 100:
     tries += 1
     response = connection.get_records(shard_iterator = shard_iterator , limit = limit)
     shard_iterator = response['NextShardIterator']
     if len(response['Records'])> 0:
          for res in response['Records']: 
               result.append(res['Data'])                  
          return result , shard_iterator
```
in Ihrem nächsten Aufruf get_records, sollten Sie die shard_iterator, die Sie erhalten mit dem Ergebnis der vorherigen get_records.

Hinweis: in einem Aufruf zu get_records, (limit = None) erhalten Sie leere Datensätze.
wenn der Aufruf zu get_records mit einem limit, erhalten Sie die Datensätze in der gleichen partition key (wenn Sie Daten zu streamen, musst du den partition key :
```
connection.put_record(stream_name, data, partition_key)
```
- vielen Dank so viel für diese 🙂
- sicher, hoffe es hilft.. 🙂
- einige Sachen sind nicht funktioniert, aber (shared_id?) aber vielen Dank für die Hinweise
- sorry für die 'shared_id' (fest..), was nicht funktioniert?
- welche version von boto und python ist das obige Beispiel ? Wenn ich versuche, mit Python 2.7 auf Boto 2.30.0; ich bin in der Lage, um die Daten in Kinesis-aber wenn ich es lese, bin ich immer der XML-parse-Fehler. Jedoch bin ich in der Lage die Daten zu Lesen und schreiben von Daten dieselben Daten unter Verwendung der Java-SDK.
- ich verwende python 2.7 , boto ver 2.29.1.
- da dies derzeit das umfassendste Beispiel für die Verwendung von boto zu konsumieren Kinesis über das internet (die ich finden kann), wäre es möglich zu geben, ein wenig mehr Details, wie Sie realisieren ein continuous polling-Funktion, einschließlich, wie man sich mit neuen Scherben auf einen stream laufen, den ein Verbraucher zu jedem Splitter etc?
- Unnötig zu sagen, ich habe nun gefunden, ein ziemlich vollständiges Beispiel hier: github.com/awslabs/kinesis-poster-worker! Trotzdem, vielen Dank für die nützlichen Antworten!
- können Sie lassen Sie mich wissen, wenn Sie bekommen können spezielle Aufzeichnung von 'Daten' ?
- es gibt keine solche option heute (auch in boto-api - boto.cloudhackers.com/en/latest/ref/kinesis.html). kinessis repräsentieren einen Strom, und Sie können Datensätze nur von einem bestimmten Ort aus einem stream (und nicht durch Datensatz-id).
- Danke!!!
- Gibt es irgendeinen Bereich, wo wir können, setzen Datensatz in anderer BENUTZER,ROLLE und ARN?
InformationsquelleAutor Eyal Ch

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.