Tag: apache-pig

Apache Pig ist eine Plattform für die Analyse großer Daten-sets, das aus einer high-level-Sprache für den Ausdruck von Daten-Analyse-Programme, gepaart mit Infrastruktur für die Evaluierung dieser Programme. Die hervorstechende Eigenschaft von Pig-Programme ist, dass Ihre Struktur ist für die erhebliche Parallelisierung, die Ihnen ermöglicht, mit sehr großen Datenmengen.

Debugging in der SCHWEINE-UDF

Anzahl der Antworten 2 Antworten
Ich bin neu in Hadoop/PIG. Ich habe eine grundlegende Frage. Haben wir eine Logging-Funktion in der SCHWEINE-UDF? Ich habe geschrieben eine UDF, die ich brauche, um zu überprüfen, Ich anmelden müssen, bestimmte Aussagen zu überprüfen, die fließen.

Hadoop PIG Max von Tupel

Anzahl der Antworten 2 Antworten
Wie finde ich die MAX eines Tupels in Schwein? Mein code sieht wie folgt aus: A,20 B,10 C,40 D,5 data = LOAD 'myData.txt' USING PigStorage(',') AS key, value; all = GROUP data ALL; maxKey = FOREACH all

Unstrukturierte Daten in strukturierte Daten mit Schwein

Anzahl der Antworten 2 Antworten
Ich versuche, die Struktur der un-strukturierte Daten über SCHWEINE, die für machen einige Verarbeitung. Hier ist das Beispiel der Daten: Nov 1 18:23:34 dev_id=03 user_id=000 int_ip=198.0.13.24 ext_ip=68.67.0.14 src_port=99 dest_port=213 response_code=5 Erwartete Ausgabe: Nov 1 18:23:34, 03 ,

Wie funktioniert Schwein verarbeiten von unstrukturierten Daten, während Hive nicht kann?

Anzahl der Antworten 2 Antworten
Laut diese und sonstige Verweise Schwein ist besser als Hive verarbeiten von unstrukturierten Daten. So, die Daten zuerst gereinigt mit Schwein und dann verarbeitet mit Bienenkorb. Aber, in der data factory, können keine Daten werden in einem

Wie unterdrücke ich die Ansammlung von unnützen Informationen bei der Verwendung der DUMP-Befehl, während der Verwendung von Grunzen über "pig -x local'?

Anzahl der Antworten 4 Antworten
Arbeite ich mit PigLatin, mit Grunzen, und jedes mal, wenn ich 'dump' stopft, meine Konsole bekommt clobbered mit blah, blah, blah nicht-info, ist es ein Weg, um surpress alles? grunt> A = LOAD 'testingData' MIT PigStorage(':'); dump

Schwein: Ungültige Feld-Projektion; Projizierte Feld nicht vorhanden ist

Anzahl der Antworten 1 Antworten
describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH

Schwein hadoop-Thema: Server IPC version 7 kommunizieren kann, mit der client-version 4

Anzahl der Antworten 2 Antworten
Ich versuche, Schwein gestartet und scheitern: $ pig 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Apache Pig version 0.11.1 (r1459641) compiled Mar 22 2013, 02:13:53 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Logging error messages to: /Users/barclaydunn/Environment/pig-0.11.1/pig_1368223402970.log 2013-05-10 18:03:23,151

Wie zu beheben, die folgende apache pig Fehler?

Anzahl der Antworten 5 Antworten
Bin ich die Ausführung der folgenden Befehle: A= load 'user/cloudera' using PigStorage(':'); foreach A generate $0,$4,$5; dump B; Auf die Ausführung des letzten Befehls bekomme ich folgende Fehlermeldung, die ich nicht in der Lage bin zu beheben.Ein

Hadoop Pig nicht speichern kann, um einen vorhandenen Ordner

Anzahl der Antworten 1 Antworten
Habe ich einen Ordner erstellt, legen Sie die Ergebnis-Datei von einem Schwein-Prozess mit dem Speichern-Befehl. Es funktioniert beim ersten mal, aber das zweite mal, compains, dass der Ordner bereits vorhanden ist. Was ist die beste Praxis für

Schwein wirft Fehler für eine einfache Group by und count vorkommen Aufgabe

Anzahl der Antworten 2 Antworten
Verwendung von Hadoop ' s SCHWEIN-Latein zu finden, die die Anzahl der vorkommen von eindeutigen such-strings aus einem Suchmaschinen-Logfile.(klicken Sie hier, um die Beispiel-log-Datei) Bitte helfen Sie mir. Vielen Dank im Voraus. Pig-Skript excitelog = load '/user/hadoop/input/excite-small.log'

csv Lesen in der Schweine -, csv-Datei enthält die zitierte Komma

Anzahl der Antworten 1 Antworten
Also meine Daten sehen so etwas asdf, asdf, "adsf,qwef", asdf Wenn ich lese, dass Daten, die in der Schweinehaltung mit PigStorage(',') Speichert es die "adsf,qwef" als zwei Daten, und speichert es wie { "adsf } { qwef"

Ein Weg zum Lesen von Daten aus der Mysql-Tabelle zu Schwein

Anzahl der Antworten 1 Antworten
Jeder weiß, dass Schwein unterstützt haben DBStorage, aber Sie werden nur unterstützt, laden Sie Ergebnisse von Schwein zu mysql wie STORE data INTO DBStorage('com.mysql.jdbc.Driver', 'dbc:mysql://host/db', 'INSERT ...'); Aber Bitte zeigen Sie mir den Weg zum Lesen einer

Gewusst wie: laden von Daten aus Cassandra zu HDFS?

Anzahl der Antworten 3 Antworten
Ich habe einen Daten, die sich befindet in Apache Cassandra,ich möchte map/reduce-jobs mittels hadoop-Ökosystem-tools. Gewusst wie: laden von Daten aus Cassandra zu HDFS? Gibt es eine Speicher-handler andere als Cassandra storage-hf/Flotten ? InformationsquelleAutor kannadhasan | 2013-11-27

PIG-Skript ERSETZEN mit pipe-symbol

Anzahl der Antworten 3 Antworten
Möchte ich Streifen, Zeichen außerhalb der geschweiften Klammern in den Zeilen, die wie folgt Aussehen. 35|{......}| Stripping '35|' von der front und den trailing '|' am Ende. {.....} Zunächst auf die ersten 3 Zeichen ist, versuche ich

hadoop pig kann mkdir java-E / a-Ausnahme werfen

Anzahl der Antworten 1 Antworten
Habe ich ein sehr einfaches script-Beispiel von hadoop Reale Welt Lösung Kochbuch und ich versuche es auf amazon cloudera clustertogov04 ami und es gibt mir die java-Ausnahme, nicht in der Lage, mkdir?? aber ich habe genug Speicherplatz??

Schwein streaming durch ein python-Skript mit der import-Module

Anzahl der Antworten 2 Antworten
Arbeiten mit pigtmp$ Schwein --version Apache Pig-version 0.8.1-cdh3u1 (rexported) zusammengestellt Jul 18 2011, 08:29:40 Habe ich ein python-script (c-python), die Importe ein weiteres Skript, die beide sehr einfach in meinem Beispiel: DATEN Beispiel$ hadoop fs -cat /user/pavel/trivial.melden

Im Apache Pig, select DISTINCT Zeilen basierend auf einer einzigen Spalte

Anzahl der Antworten 3 Antworten
Sagen wir ich habe eine Tabelle wie unten, die möglicherweise oder möglicherweise nicht enthalten Duplikate für ein gegebenes Feld: ID URL --- ------------------ 001 http://example.com/adam 002 http://example.com/beth 002 http://example.com/beth?extra=blah 003 http://example.com/charlie Möchte ich schreiben, eine Pig-Skript zu

MIT Filter, in einer Verschachtelten FOREACH-in-SCHWEIN

Anzahl der Antworten 1 Antworten
Habe ich zwei Schweine-Beziehungen. Der erste count_pairs zeigt Paare von Wörtern und wie oft wurden Sie gesehen. ex ((car,tire), 4). Die zweite ist word_counts, die Spur hält, wie viele Male jedes Wort gesehen wurde, ab. (car, 20).

Schwein Fehler 1070, wenn dabei die UDF

Anzahl der Antworten 1 Antworten
Ich versuche zu laden, bis meine eigene UDF, die in der Schweinehaltung. Ich habe es in ein Glas mit eclipse export Funktion. Ich versuche, führen Sie es lokal, so kann ich sicherstellen, dass es funktioniert bevor ich

Gibt es ein apache pig äquivalent von "SHOW TABLES"?

Anzahl der Antworten 4 Antworten
Ich habe einen Hadoop-Daten speichern, ich bin Zugriff auf die in der Schweinehaltung und nicht viel Dokumentation, plus ich bin neu auf Schwein, also ich bin auf der Suche nach dem Schwein Entsprechung der "TABELLEN ANZEIGEN". Wenn

Filtern von Spalten mit mehreren Bedingungen in der Schweinehaltung

Anzahl der Antworten 1 Antworten
Schreiben brauche ich einen pig-Skript, wo ich zu finden bin, die Durchschnittliche Werte von mehreren Spalten und immer nur die Zeilen, deren Spalte alle Werte sind größer als die berechneten Mittelwerte. Mein script ist: i2 = GROUP

xml-Dateien-Verarbeitung mit apache pig

Anzahl der Antworten 3 Antworten
Habe ich die xml-Datei wie folgt: <CATALOG> <CD> <TITLE>hadoop developer</TITLE> <ARTIST>ajay</ARTIST> <COUNTRY>india</COUNTRY> <COMPANY>ITC</COMPANY> <PRICE>10.90</PRICE> <YEAR>2013</YEAR> </CD> </CATALOG> und ich habe einige regex, aber ich weiß nicht warum, bin nicht immer den gewünschten Ausgang... Mein code ist wie

Laden Sie mehrere Dateien in der Schweinehaltung

Anzahl der Antworten 1 Antworten
Ich bin neu auf pig. In der Schweine -, ich möchte mehrere VOB-Dateien mit Zeitstempel im Namen. Wenn ich Dateien laden zwischen 2012/02/12 zu 2012/02/19, die folgenden Werke $START = "12" $END = "19" raw_data = load

Hadoop Pig zählt die Anzahl

Anzahl der Antworten 1 Antworten
Bin ich lernen, wie man Hadoop Pig jetzt. Wenn ich eine input-Datei wie folgt: a,b,c,true s,c,v,false a,s,b,true ... Der Letzte Bereich ist der, den ich brauche, um zu zählen... Also ich möchte wissen, wie viele 'true' und

wie nennen Pig-Skripte shell-Skript sequenziell

Anzahl der Antworten 3 Antworten
Ich habe die Sequenz von Schweine-Skripts in eine Datei, und ich möchte ausführen von Shell-Skript die Ausführung pig-Skripte sqeuenciatly. Ex: sh script.sh /es/Anbieter/Dateiname PIGddl.txt Angenommen PIGddl.txt hat Pig-Skripte wie Datensatz Null-Validierung e.t.c Wenn alle Pig-Abfragen sind in

Lesen von XML mit SCHWEIN

Anzahl der Antworten 1 Antworten
Ich versuche zum Lesen der Daten aus der xml-Datei mit SCHWEIN, aber ich bin immer unvollständige Ausgabe. Input-Datei- <document> <url>htp://www.abc.com/</url> <category>Sports</category> <usercount>120</usercount> <reviews> <review>good site</review> <review>This is Avg site</review> <review>Bad site</review> </reviews> </document> und der code, den

Speichern von Daten auf SequenceFile von Apache Pig

Anzahl der Antworten 2 Antworten
Apache Pig können laden von Daten aus Hadoop-Sequenz-Dateien mit dem Sparschwein SequenceFileLoader: REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar; DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader(); log = LOAD '/data/logs' USING SequenceFileLoader AS (...) Gibt es auch eine Bibliothek gibt, die es erlauben würde zu schreiben,

Schwein - Wie zu werfen datetime in chararray

Anzahl der Antworten 2 Antworten
Ich bin mit CurrentTime(), die ein datetime-Datentyp. Allerdings brauche ich es als ein chararray. Ich habe Folgendes: A = LOAD ... B = FOREACH A GENERATE CurrentTime() AS todaysDate; Habe ich versucht verschiedene Ansätze, wie die folgenden:

verketten einer Zeichenfolge in ein Feld in der Schweinehaltung

Anzahl der Antworten 1 Antworten
Mag ich concat eine Zeichenfolge, um alle Daten in einem Feld? Beispiel ein dataset mydata enthält folgende Feld ( id, name, email ) ich wie ein Präfix hinzufügen der Zeichenfolge testen, um alle Daten in das Feld

finden meine, mit Schwein oder hadoop

Anzahl der Antworten 3 Antworten
Ich habe eine riesige text-Datei der form Daten gespeichert, die im Verzeichnis data/data1.txt, data2.txt und so weiter merchant_id, user_id, amount 1234, 9123, 299.2 1233, 9199, 203.2 1234, 0124, 230 and so on.. Was ich tun möchte, ist

Hadoop, Hive, Pig, HBase, Cassandra - Wann benutzen Sie was?

Anzahl der Antworten 1 Antworten
Zunächst einmal bin ich relativ neu an Big Data und Hadoop-Welt und ich habe gerade begonnen, ein wenig Experimentieren mit der Hortonworks-Sandbox (Pig-und Hive-so weit). Ich Frage mich, in welchen Fällen könnte ich die oben genannten tools

Group by mehrere Felder und output-Tupel

Anzahl der Antworten 1 Antworten
Habe ich ein Futter in dem folgenden format: Hour Key ID Value 1 K1 001 3 1 K1 002 2 2 K1 005 4 1 K2 002 1 2 K2 003 5 2 K2 004 6 und

Schwein Batch-Modus: so stellen Sie die Protokollebene auf "hide INFO", von log-Meldungen?

Anzahl der Antworten 3 Antworten
Apache Schwein version 0.10.1.21 (rexported). Wenn ich ausführen ein pig-Skript, es gibt eine Vielzahl von INFO-Protokollierung Linien, die so aussieht: 2013-05-18 14:30:12,810 [Thread-28] INFO org.apache.hadoop.mapred.Task - Task 'attempt_local_0005_r_000000_0' done. 2013-05-18 14:30:18,064 [main] WARN org.apache.pig.tools.pigstats.PigStatsUtil - Failed to

Max/Min für ganze Gruppen von Datensätzen, die in der SCHWEINEHALTUNG

Anzahl der Antworten 1 Antworten
Habe ich eine Reihe von Datensätzen, die ich bin laden aus einer Datei, und das erste, was ich tun müssen, ist die max und min einer Spalte. In SQL würde ich das mit einer Unterabfrage wie diese:

Schwein Bedingte Operatoren

Anzahl der Antworten 1 Antworten
Betrachten Sie das folgende Verhältnis test = LOAD 'input' USING PigStorage(',') as (a:chararray, b:chararray); Gibt es eine Möglichkeit, um Folgendes zu erreichen if (b == 1) { a = 'abc'; else if (b == 2) { a

Konnte nicht ableiten COUNT-Funktion

Anzahl der Antworten 3 Antworten
Ich versuche zu schreiben, ein pig latin-Skript zu ziehen, die der Graf ein dataset, das ich herausgefiltert haben. Hier ist das Skript so weit: /* scans by title */ scans = LOAD '/hive/scans/*' USING PigStorage(',') AS (thetime:long,product_id:long,lat:double,lon:double,user:chararray,category:chararray,title:chararray);

Kann ich erzeugen verschachtelter Taschen mit verschachtelten FOREACH-Anweisungen in Pig Latin?

Anzahl der Antworten 5 Antworten
Sagen wir, ich habe einen Datensatz von restaurant-Bewertungen: User,City,Restaurant,Rating Jim,New York,Mecurials,3 Jim,New York,Whapme,4.5 Jim,London,Pint Size,2 Lisa,London,Pint Size,4 Lisa,London,Rabbit Whole,3.5 Und ich wollen eine Liste von Benutzer-und Stadt-Durchschnitt abgeben. I. e. Ausgabe: User,City,AverageRating Jim,New York,3.75 Jim,London,2 Lisa,London,3.75 Ich

mit SCHWEIN, eine Datei zu laden

Anzahl der Antworten 1 Antworten
Ich bin sehr neu auf SCHWEIN und ich bin mit dem, was fühlt sich wie ein sehr Grundsätzliches problem. Ich habe eine Codezeile, die lautet: A = load 'Sites/trial_clustering/shortdocs/*' AS (word1:chararray, word2:chararray, word3:chararray, word4:chararray); wo jeder Datei

Wie bekomme ich schema / Spaltennamen aus Parkett-Datei?

Anzahl der Antworten 3 Antworten
Habe ich eine gespeicherte Datei im HDFS als part-m-00000.gz.parquet Habe ich versucht zu laufen hdfs dfs -text dir/part-m-00000.gz.parquet aber es ist komprimiert, also lief ich gunzip part-m-00000.gz.parquet aber nicht Dekomprimieren Sie die Datei, da es nicht erkennen

so laden Sie mehrere text-Dateien in einem Ordner, die in der Schweinehaltung mit load-Befehl?

Anzahl der Antworten 3 Antworten
Habe ich für das laden einer text-Datei A = LOAD '1try.txt' USING PigStorage(' ') as (c1:chararray,c2:chararray,c3:chararray,c4:chararray); möglich, Duplikat der Pig Latin: Laden Sie mehrere Dateien aus einem Datumsbereich (Teil der Verzeichnis-Struktur) InformationsquelleAutor user3627159 | 2014-05-13

Apache Pig - SPIELE mit mehreren Kriterien

Anzahl der Antworten 2 Antworten
Ich versuche, eine logische Kriterien wie: (("Foo" OR "Foo Bar" OR FooBar) AND ("test" OR "testA" OR "TestB")) OR TestZ anwenden, als ein match gegen eine Datei, die in der Schweinehaltung mit result = filter inputfields by

SCHWEIN: Holen Sie sich alle Tupel aus einem gruppiert Tasche

Anzahl der Antworten 3 Antworten
Ich bin mit SCHWEIN zu generieren Gruppen von Tupeln wie folgt: a1, b1 a1, b2 a1, b3 ... -> a1, [b1, b2, b3] ... Dies ist einfach und funktioniert. Aber mein problem ist das folgende: Aus den

Generieren Sie alle Felder aus ein alias nach einem JOIN in Pig

Anzahl der Antworten 4 Antworten
Möchte ich ausführen, das äquivalent von "halten alle a im A wo a.field == b.field für einige b im B" in Apache Pig. Ich bin der Umsetzung es so, AB_joined = JOIN A by field, B by

Exception bei Typumwandlung Chararry auf das doppelte SCHWEIN

Anzahl der Antworten 1 Antworten
Habe ich ein Beispiel für die Eingabe als tab-getrennten Schlüssel-Wert-paar wie folgt B_1001@2012-06-15 [email protected] B_1001@2012-06-18 [email protected] B_1002@2012-09-26 [email protected] B_1002@2012-09-28 [email protected] und ich bin laden Sie diese Datei in der Schweine-und dabei die folgenden a = load '/home/HadoopUser/Desktop/a.txt'

zum bereitstellen und ausführen von oozie-job?

Anzahl der Antworten 2 Antworten
Ich versuche zu tun, eine einfache Aufgabe mit oozie. Es wird eine einfache Schwein Handeln. Habe ich eine Datei : FirstScript.Schwein enthält: dual = LOAD 'default.dual' USING org.apache.hcatalog.pig.HCatLoader(); store dual into 'dummy_file.txt' using PigStorage(); und ein workflow.xml

FEHLER 1066: Unable to open iterator für alias - Schwein

Anzahl der Antworten 4 Antworten
Gerade angefangen Schwein; der Versuch zum laden der Daten aus einer Datei und dump es fortan. Das laden scheint zu sein richtig, wird kein Fehler ausgegeben. Unten ist die Abfrage: NYSE = LOAD '/root/Desktop/Arbeiten/NYSE-2000-2001.tsv' MIT PigStorage() ALS

Das entfernen von Duplikaten mit PigLatin

Anzahl der Antworten 2 Antworten
Ich bin mit PigLatin filtern Sie einige Datensätze. User1 8 NYC User1 9 NYC User1 7 LA User2 4 NYC User2 3 DC Sollte das script entfernen Sie das doppelte für die Nutzer, und halten Sie einen

Laden Sie nur bestimmten Bereich im SCHWEIN?

Anzahl der Antworten 1 Antworten
Dies ist meine Datei: Col1, Col2, Col3, Col4, Col5 Brauche ich nur Col2 und Col3. Zurzeit mache ich das: a = load 'input' as (Col1:chararray, Col2:chararray, Col3:chararray, Col4:chararray); b = foreach a generate Col2, Col3; Gibt es

Text-Analyse mit SCHWEIN

Anzahl der Antworten 4 Antworten
Ich bin neu auf PIG weiß nicht viel über es.Wie kann ich parse einen text in SCHWEIN? Lesen Feldwerte es ist ein Konzept der Positionsparameter in der Schweinehaltung zum Beispiel $0 dem ersten Feld ebenso gibt es

über die TOKENISIERUNG, die in der SCHWEINEHALTUNG

Anzahl der Antworten 2 Antworten
Ich versuche, mit der TOKENISIERUNG Funktion, die in der SCHWEINEHALTUNG mit einem Dokument, durch Komma getrennt. Ich möchte split an den Kommas, aber NICHT auf den weißen Raum. Beispielsweise möchte ich eine Liste der (Auto, Spielzeug-Auto, bunny)