Tag: apache-pig
Apache Pig ist eine Plattform für die Analyse großer Daten-sets, das aus einer high-level-Sprache für den Ausdruck von Daten-Analyse-Programme, gepaart mit Infrastruktur für die Evaluierung dieser Programme. Die hervorstechende Eigenschaft von Pig-Programme ist, dass Ihre Struktur ist für die erhebliche Parallelisierung, die Ihnen ermöglicht, mit sehr großen Datenmengen.
2
Antworten
Ich bin neu in Hadoop/PIG. Ich habe eine grundlegende Frage. Haben wir eine Logging-Funktion in der SCHWEINE-UDF? Ich habe geschrieben eine UDF, die ich brauche, um zu überprüfen, Ich anmelden müssen, bestimmte Aussagen zu überprüfen, die fließen.
2
Antworten
Wie finde ich die MAX eines Tupels in Schwein? Mein code sieht wie folgt aus: A,20 B,10 C,40 D,5 data = LOAD 'myData.txt' USING PigStorage(',') AS key, value; all = GROUP data ALL; maxKey = FOREACH all
2
Antworten
Ich versuche, die Struktur der un-strukturierte Daten über SCHWEINE, die für machen einige Verarbeitung. Hier ist das Beispiel der Daten: Nov 1 18:23:34 dev_id=03 user_id=000 int_ip=198.0.13.24 ext_ip=68.67.0.14 src_port=99 dest_port=213 response_code=5 Erwartete Ausgabe: Nov 1 18:23:34, 03 ,
2
Antworten
Laut diese und sonstige Verweise Schwein ist besser als Hive verarbeiten von unstrukturierten Daten. So, die Daten zuerst gereinigt mit Schwein und dann verarbeitet mit Bienenkorb. Aber, in der data factory, können keine Daten werden in einem
4
Antworten
Arbeite ich mit PigLatin, mit Grunzen, und jedes mal, wenn ich 'dump' stopft, meine Konsole bekommt clobbered mit blah, blah, blah nicht-info, ist es ein Weg, um surpress alles? grunt> A = LOAD 'testingData' MIT PigStorage(':'); dump
1
Antworten
describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH
2
Antworten
Ich versuche, Schwein gestartet und scheitern: $ pig 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Apache Pig version 0.11.1 (r1459641) compiled Mar 22 2013, 02:13:53 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Logging error messages to: /Users/barclaydunn/Environment/pig-0.11.1/pig_1368223402970.log 2013-05-10 18:03:23,151
5
Antworten
Bin ich die Ausführung der folgenden Befehle: A= load 'user/cloudera' using PigStorage(':'); foreach A generate $0,$4,$5; dump B; Auf die Ausführung des letzten Befehls bekomme ich folgende Fehlermeldung, die ich nicht in der Lage bin zu beheben.Ein
1
Antworten
Habe ich einen Ordner erstellt, legen Sie die Ergebnis-Datei von einem Schwein-Prozess mit dem Speichern-Befehl. Es funktioniert beim ersten mal, aber das zweite mal, compains, dass der Ordner bereits vorhanden ist. Was ist die beste Praxis für
2
Antworten
Verwendung von Hadoop ' s SCHWEIN-Latein zu finden, die die Anzahl der vorkommen von eindeutigen such-strings aus einem Suchmaschinen-Logfile.(klicken Sie hier, um die Beispiel-log-Datei) Bitte helfen Sie mir. Vielen Dank im Voraus. Pig-Skript excitelog = load '/user/hadoop/input/excite-small.log'
1
Antworten
Also meine Daten sehen so etwas asdf, asdf, "adsf,qwef", asdf Wenn ich lese, dass Daten, die in der Schweinehaltung mit PigStorage(',') Speichert es die "adsf,qwef" als zwei Daten, und speichert es wie { "adsf } { qwef"
1
Antworten
Jeder weiß, dass Schwein unterstützt haben DBStorage, aber Sie werden nur unterstützt, laden Sie Ergebnisse von Schwein zu mysql wie STORE data INTO DBStorage('com.mysql.jdbc.Driver', 'dbc:mysql://host/db', 'INSERT ...'); Aber Bitte zeigen Sie mir den Weg zum Lesen einer
3
Antworten
Ich habe einen Daten, die sich befindet in Apache Cassandra,ich möchte map/reduce-jobs mittels hadoop-Ökosystem-tools. Gewusst wie: laden von Daten aus Cassandra zu HDFS? Gibt es eine Speicher-handler andere als Cassandra storage-hf/Flotten ? InformationsquelleAutor kannadhasan | 2013-11-27
3
Antworten
Möchte ich Streifen, Zeichen außerhalb der geschweiften Klammern in den Zeilen, die wie folgt Aussehen. 35|{......}| Stripping '35|' von der front und den trailing '|' am Ende. {.....} Zunächst auf die ersten 3 Zeichen ist, versuche ich
1
Antworten
Habe ich ein sehr einfaches script-Beispiel von hadoop Reale Welt Lösung Kochbuch und ich versuche es auf amazon cloudera clustertogov04 ami und es gibt mir die java-Ausnahme, nicht in der Lage, mkdir?? aber ich habe genug Speicherplatz??
2
Antworten
Arbeiten mit pigtmp$ Schwein --version Apache Pig-version 0.8.1-cdh3u1 (rexported) zusammengestellt Jul 18 2011, 08:29:40 Habe ich ein python-script (c-python), die Importe ein weiteres Skript, die beide sehr einfach in meinem Beispiel: DATEN Beispiel$ hadoop fs -cat /user/pavel/trivial.melden
3
Antworten
Sagen wir ich habe eine Tabelle wie unten, die möglicherweise oder möglicherweise nicht enthalten Duplikate für ein gegebenes Feld: ID URL --- ------------------ 001 http://example.com/adam 002 http://example.com/beth 002 http://example.com/beth?extra=blah 003 http://example.com/charlie Möchte ich schreiben, eine Pig-Skript zu
1
Antworten
Habe ich zwei Schweine-Beziehungen. Der erste count_pairs zeigt Paare von Wörtern und wie oft wurden Sie gesehen. ex ((car,tire), 4). Die zweite ist word_counts, die Spur hält, wie viele Male jedes Wort gesehen wurde, ab. (car, 20).
1
Antworten
Ich versuche zu laden, bis meine eigene UDF, die in der Schweinehaltung. Ich habe es in ein Glas mit eclipse export Funktion. Ich versuche, führen Sie es lokal, so kann ich sicherstellen, dass es funktioniert bevor ich
4
Antworten
Ich habe einen Hadoop-Daten speichern, ich bin Zugriff auf die in der Schweinehaltung und nicht viel Dokumentation, plus ich bin neu auf Schwein, also ich bin auf der Suche nach dem Schwein Entsprechung der "TABELLEN ANZEIGEN". Wenn
1
Antworten
Schreiben brauche ich einen pig-Skript, wo ich zu finden bin, die Durchschnittliche Werte von mehreren Spalten und immer nur die Zeilen, deren Spalte alle Werte sind größer als die berechneten Mittelwerte. Mein script ist: i2 = GROUP
3
Antworten
Habe ich die xml-Datei wie folgt: <CATALOG> <CD> <TITLE>hadoop developer</TITLE> <ARTIST>ajay</ARTIST> <COUNTRY>india</COUNTRY> <COMPANY>ITC</COMPANY> <PRICE>10.90</PRICE> <YEAR>2013</YEAR> </CD> </CATALOG> und ich habe einige regex, aber ich weiß nicht warum, bin nicht immer den gewünschten Ausgang... Mein code ist wie
1
Antworten
Ich bin neu auf pig. In der Schweine -, ich möchte mehrere VOB-Dateien mit Zeitstempel im Namen. Wenn ich Dateien laden zwischen 2012/02/12 zu 2012/02/19, die folgenden Werke $START = "12" $END = "19" raw_data = load
1
Antworten
Bin ich lernen, wie man Hadoop Pig jetzt. Wenn ich eine input-Datei wie folgt: a,b,c,true s,c,v,false a,s,b,true ... Der Letzte Bereich ist der, den ich brauche, um zu zählen... Also ich möchte wissen, wie viele 'true' und
3
Antworten
Ich habe die Sequenz von Schweine-Skripts in eine Datei, und ich möchte ausführen von Shell-Skript die Ausführung pig-Skripte sqeuenciatly. Ex: sh script.sh /es/Anbieter/Dateiname PIGddl.txt Angenommen PIGddl.txt hat Pig-Skripte wie Datensatz Null-Validierung e.t.c Wenn alle Pig-Abfragen sind in
1
Antworten
Ich versuche zum Lesen der Daten aus der xml-Datei mit SCHWEIN, aber ich bin immer unvollständige Ausgabe. Input-Datei- <document> <url>htp://www.abc.com/</url> <category>Sports</category> <usercount>120</usercount> <reviews> <review>good site</review> <review>This is Avg site</review> <review>Bad site</review> </reviews> </document> und der code, den
2
Antworten
Apache Pig können laden von Daten aus Hadoop-Sequenz-Dateien mit dem Sparschwein SequenceFileLoader: REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar; DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader(); log = LOAD '/data/logs' USING SequenceFileLoader AS (...) Gibt es auch eine Bibliothek gibt, die es erlauben würde zu schreiben,
2
Antworten
Ich bin mit CurrentTime(), die ein datetime-Datentyp. Allerdings brauche ich es als ein chararray. Ich habe Folgendes: A = LOAD ... B = FOREACH A GENERATE CurrentTime() AS todaysDate; Habe ich versucht verschiedene Ansätze, wie die folgenden:
1
Antworten
Mag ich concat eine Zeichenfolge, um alle Daten in einem Feld? Beispiel ein dataset mydata enthält folgende Feld ( id, name, email ) ich wie ein Präfix hinzufügen der Zeichenfolge testen, um alle Daten in das Feld
3
Antworten
Ich habe eine riesige text-Datei der form Daten gespeichert, die im Verzeichnis data/data1.txt, data2.txt und so weiter merchant_id, user_id, amount 1234, 9123, 299.2 1233, 9199, 203.2 1234, 0124, 230 and so on.. Was ich tun möchte, ist
1
Antworten
Zunächst einmal bin ich relativ neu an Big Data und Hadoop-Welt und ich habe gerade begonnen, ein wenig Experimentieren mit der Hortonworks-Sandbox (Pig-und Hive-so weit). Ich Frage mich, in welchen Fällen könnte ich die oben genannten tools
1
Antworten
Habe ich ein Futter in dem folgenden format: Hour Key ID Value 1 K1 001 3 1 K1 002 2 2 K1 005 4 1 K2 002 1 2 K2 003 5 2 K2 004 6 und
3
Antworten
Apache Schwein version 0.10.1.21 (rexported). Wenn ich ausführen ein pig-Skript, es gibt eine Vielzahl von INFO-Protokollierung Linien, die so aussieht: 2013-05-18 14:30:12,810 [Thread-28] INFO org.apache.hadoop.mapred.Task - Task 'attempt_local_0005_r_000000_0' done. 2013-05-18 14:30:18,064 [main] WARN org.apache.pig.tools.pigstats.PigStatsUtil - Failed to
1
Antworten
Habe ich eine Reihe von Datensätzen, die ich bin laden aus einer Datei, und das erste, was ich tun müssen, ist die max und min einer Spalte. In SQL würde ich das mit einer Unterabfrage wie diese:
1
Antworten
Betrachten Sie das folgende Verhältnis test = LOAD 'input' USING PigStorage(',') as (a:chararray, b:chararray); Gibt es eine Möglichkeit, um Folgendes zu erreichen if (b == 1) { a = 'abc'; else if (b == 2) { a
3
Antworten
Ich versuche zu schreiben, ein pig latin-Skript zu ziehen, die der Graf ein dataset, das ich herausgefiltert haben. Hier ist das Skript so weit: /* scans by title */ scans = LOAD '/hive/scans/*' USING PigStorage(',') AS (thetime:long,product_id:long,lat:double,lon:double,user:chararray,category:chararray,title:chararray);
5
Antworten
Sagen wir, ich habe einen Datensatz von restaurant-Bewertungen: User,City,Restaurant,Rating Jim,New York,Mecurials,3 Jim,New York,Whapme,4.5 Jim,London,Pint Size,2 Lisa,London,Pint Size,4 Lisa,London,Rabbit Whole,3.5 Und ich wollen eine Liste von Benutzer-und Stadt-Durchschnitt abgeben. I. e. Ausgabe: User,City,AverageRating Jim,New York,3.75 Jim,London,2 Lisa,London,3.75 Ich
1
Antworten
Ich bin sehr neu auf SCHWEIN und ich bin mit dem, was fühlt sich wie ein sehr Grundsätzliches problem. Ich habe eine Codezeile, die lautet: A = load 'Sites/trial_clustering/shortdocs/*' AS (word1:chararray, word2:chararray, word3:chararray, word4:chararray); wo jeder Datei
3
Antworten
Habe ich eine gespeicherte Datei im HDFS als part-m-00000.gz.parquet Habe ich versucht zu laufen hdfs dfs -text dir/part-m-00000.gz.parquet aber es ist komprimiert, also lief ich gunzip part-m-00000.gz.parquet aber nicht Dekomprimieren Sie die Datei, da es nicht erkennen
3
Antworten
Habe ich für das laden einer text-Datei A = LOAD '1try.txt' USING PigStorage(' ') as (c1:chararray,c2:chararray,c3:chararray,c4:chararray); möglich, Duplikat der Pig Latin: Laden Sie mehrere Dateien aus einem Datumsbereich (Teil der Verzeichnis-Struktur) InformationsquelleAutor user3627159 | 2014-05-13
2
Antworten
Ich versuche, eine logische Kriterien wie: (("Foo" OR "Foo Bar" OR FooBar) AND ("test" OR "testA" OR "TestB")) OR TestZ anwenden, als ein match gegen eine Datei, die in der Schweinehaltung mit result = filter inputfields by
3
Antworten
Ich bin mit SCHWEIN zu generieren Gruppen von Tupeln wie folgt: a1, b1 a1, b2 a1, b3 ... -> a1, [b1, b2, b3] ... Dies ist einfach und funktioniert. Aber mein problem ist das folgende: Aus den
4
Antworten
Möchte ich ausführen, das äquivalent von "halten alle a im A wo a.field == b.field für einige b im B" in Apache Pig. Ich bin der Umsetzung es so, AB_joined = JOIN A by field, B by
1
Antworten
Habe ich ein Beispiel für die Eingabe als tab-getrennten Schlüssel-Wert-paar wie folgt B_1001@2012-06-15
[email protected] B_1001@2012-06-18
[email protected] B_1002@2012-09-26
[email protected] B_1002@2012-09-28
[email protected] und ich bin laden Sie diese Datei in der Schweine-und dabei die folgenden a = load '/home/HadoopUser/Desktop/a.txt'
2
Antworten
Ich versuche zu tun, eine einfache Aufgabe mit oozie. Es wird eine einfache Schwein Handeln. Habe ich eine Datei : FirstScript.Schwein enthält: dual = LOAD 'default.dual' USING org.apache.hcatalog.pig.HCatLoader(); store dual into 'dummy_file.txt' using PigStorage(); und ein workflow.xml
4
Antworten
Gerade angefangen Schwein; der Versuch zum laden der Daten aus einer Datei und dump es fortan. Das laden scheint zu sein richtig, wird kein Fehler ausgegeben. Unten ist die Abfrage: NYSE = LOAD '/root/Desktop/Arbeiten/NYSE-2000-2001.tsv' MIT PigStorage() ALS
2
Antworten
Ich bin mit PigLatin filtern Sie einige Datensätze. User1 8 NYC User1 9 NYC User1 7 LA User2 4 NYC User2 3 DC Sollte das script entfernen Sie das doppelte für die Nutzer, und halten Sie einen
1
Antworten
Dies ist meine Datei: Col1, Col2, Col3, Col4, Col5 Brauche ich nur Col2 und Col3. Zurzeit mache ich das: a = load 'input' as (Col1:chararray, Col2:chararray, Col3:chararray, Col4:chararray); b = foreach a generate Col2, Col3; Gibt es
4
Antworten
Ich bin neu auf PIG weiß nicht viel über es.Wie kann ich parse einen text in SCHWEIN? Lesen Feldwerte es ist ein Konzept der Positionsparameter in der Schweinehaltung zum Beispiel $0 dem ersten Feld ebenso gibt es
2
Antworten
Ich versuche, mit der TOKENISIERUNG Funktion, die in der SCHWEINEHALTUNG mit einem Dokument, durch Komma getrennt. Ich möchte split an den Kommas, aber NICHT auf den weißen Raum. Beispielsweise möchte ich eine Liste der (Auto, Spielzeug-Auto, bunny)