Speichern von Daten auf SequenceFile von Apache Pig
Apache Pig können laden von Daten aus Hadoop-Sequenz-Dateien mit dem Sparschwein SequenceFileLoader
:
REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();
log = LOAD '/data/logs' USING SequenceFileLoader AS (...)
Gibt es auch eine Bibliothek gibt, die es erlauben würde zu schreiben, um Hadoop-Sequenz-Dateien vom Schwein?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Es ist nur eine Frage der Implementierung einer StoreFunc zu tun.
Dies ist jetzt möglich, obwohl es ein gutes Stück einfacher, einmal Schwein 0.7 rauskommt, da es sich auch um ein komplettes redesign der Load/Store-Schnittstellen.
Dem "Hadoop-Erweiterung" Twitter
über open sourceopen-Source in github, enthält code, der zum erzeugen, Laden und Speichern funcs basierend auf Google Protocol Buffers (aufbauend auf Input/Output-Formate für die gleiche -- Sie haben bereits diejenigen, die für die Sequenz-Dateien, natürlich). Check it out, wenn Sie Sie brauchen Beispiele, wie Sie tun,, einige der weniger Belangloses Zeug. Es sollte ziemlich einfach sein, wenn.Diese schien für mich arbeiten. https://github.com/kevinweil/elephant-bird/pull/73