Speichern von Daten auf SequenceFile von Apache Pig

Apache Pig können laden von Daten aus Hadoop-Sequenz-Dateien mit dem Sparschwein SequenceFileLoader:

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

Gibt es auch eine Bibliothek gibt, die es erlauben würde zu schreiben, um Hadoop-Sequenz-Dateien vom Schwein?

2

Es ist nur eine Frage der Implementierung einer StoreFunc zu tun.

Dies ist jetzt möglich, obwohl es ein gutes Stück einfacher, einmal Schwein 0.7 rauskommt, da es sich auch um ein komplettes redesign der Load/Store-Schnittstellen.

Dem "Hadoop-Erweiterung" Twitter ~~über open source~~ open-Source in github, enthält code, der zum erzeugen, Laden und Speichern funcs basierend auf Google Protocol Buffers (aufbauend auf Input/Output-Formate für die gleiche -- Sie haben bereits diejenigen, die für die Sequenz-Dateien, natürlich). Check it out, wenn Sie Sie brauchen Beispiele, wie Sie tun,, einige der weniger Belangloses Zeug. Es sollte ziemlich einfach sein, wenn.

InformationsquelleAutor SquareCog
2

Diese schien für mich arbeiten. https://github.com/kevinweil/elephant-bird/pull/73

InformationsquelleAutor qqz

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.