Tag
Datenschutzerklärung

Menu

Tag: apache-pig

Apache Pig ist eine Plattform für die Analyse großer Daten-sets, das aus einer high-level-Sprache für den Ausdruck von Daten-Analyse-Programme, gepaart mit Infrastruktur für die Evaluierung dieser Programme. Die hervorstechende Eigenschaft von Pig-Programme ist, dass Ihre Struktur ist für die erhebliche Parallelisierung, die Ihnen ermöglicht, mit sehr großen Datenmengen.

Debugging in der SCHWEINE-UDF

Anzahl der Antworten

2 Antworten

Ich bin neu in Hadoop/PIG. Ich habe eine grundlegende Frage. Haben wir eine Logging-Funktion in der SCHWEINE-UDF? Ich habe geschrieben eine UDF, die ich brauche, um zu überprüfen, Ich anmelden müssen, bestimmte Aussagen zu überprüfen, die fließen.

apache-pig hadoop hdfs

Hadoop PIG Max von Tupel

Anzahl der Antworten

2 Antworten

Wie finde ich die MAX eines Tupels in Schwein? Mein code sieht wie folgt aus: A,20 B,10 C,40 D,5 data = LOAD 'myData.txt' USING PigStorage(',') AS key, value; all = GROUP data ALL; maxKey = FOREACH all

apache-pig hadoop

Unstrukturierte Daten in strukturierte Daten mit Schwein

Anzahl der Antworten

2 Antworten

Ich versuche, die Struktur der un-strukturierte Daten über SCHWEINE, die für machen einige Verarbeitung. Hier ist das Beispiel der Daten: Nov 1 18:23:34 dev_id=03 user_id=000 int_ip=198.0.13.24 ext_ip=68.67.0.14 src_port=99 dest_port=213 response_code=5 Erwartete Ausgabe: Nov 1 18:23:34, 03 ,

apache-pig hadoop

Wie funktioniert Schwein verarbeiten von unstrukturierten Daten, während Hive nicht kann?

Anzahl der Antworten

2 Antworten

Laut diese und sonstige Verweise Schwein ist besser als Hive verarbeiten von unstrukturierten Daten. So, die Daten zuerst gereinigt mit Schwein und dann verarbeitet mit Bienenkorb. Aber, in der data factory, können keine Daten werden in einem

apache-pig comparison hive

Wie unterdrücke ich die Ansammlung von unnützen Informationen bei der Verwendung der DUMP-Befehl, während der Verwendung von Grunzen über "pig -x local'?

Anzahl der Antworten

4 Antworten

Arbeite ich mit PigLatin, mit Grunzen, und jedes mal, wenn ich 'dump' stopft, meine Konsole bekommt clobbered mit blah, blah, blah nicht-info, ist es ein Weg, um surpress alles? grunt> A = LOAD 'testingData' MIT PigStorage(':'); dump

apache-pig dump gruntjs verbosity

Schwein: Ungültige Feld-Projektion; Projizierte Feld nicht vorhanden ist

Anzahl der Antworten

1 Antworten

describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH

apache-pig bigdata hadoop mapreduce

Schwein hadoop-Thema: Server IPC version 7 kommunizieren kann, mit der client-version 4

Anzahl der Antworten

2 Antworten

Ich versuche, Schwein gestartet und scheitern: $ pig 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Apache Pig version 0.11.1 (r1459641) compiled Mar 22 2013, 02:13:53 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Logging error messages to: /Users/barclaydunn/Environment/pig-0.11.1/pig_1368223402970.log 2013-05-10 18:03:23,151

apache-pig hadoop

Wie zu beheben, die folgende apache pig Fehler?

Anzahl der Antworten

5 Antworten

Bin ich die Ausführung der folgenden Befehle: A= load 'user/cloudera' using PigStorage(':'); foreach A generate $0,$4,$5; dump B; Auf die Ausführung des letzten Befehls bekomme ich folgende Fehlermeldung, die ich nicht in der Lage bin zu beheben.Ein

apache-pig hadoop

Hadoop Pig nicht speichern kann, um einen vorhandenen Ordner

Anzahl der Antworten

1 Antworten

Habe ich einen Ordner erstellt, legen Sie die Ergebnis-Datei von einem Schwein-Prozess mit dem Speichern-Befehl. Es funktioniert beim ersten mal, aber das zweite mal, compains, dass der Ordner bereits vorhanden ist. Was ist die beste Praxis für

apache-pig bigdata hadoop store

Schwein wirft Fehler für eine einfache Group by und count vorkommen Aufgabe

Anzahl der Antworten

2 Antworten

Verwendung von Hadoop ' s SCHWEIN-Latein zu finden, die die Anzahl der vorkommen von eindeutigen such-strings aus einem Suchmaschinen-Logfile.(klicken Sie hier, um die Beispiel-log-Datei) Bitte helfen Sie mir. Vielen Dank im Voraus. Pig-Skript excitelog = load '/user/hadoop/input/excite-small.log'

apache-pig hadoop

csv Lesen in der Schweine -, csv-Datei enthält die zitierte Komma

Anzahl der Antworten

1 Antworten

Also meine Daten sehen so etwas asdf, asdf, "adsf,qwef", asdf Wenn ich lese, dass Daten, die in der Schweinehaltung mit PigStorage(',') Speichert es die "adsf,qwef" als zwei Daten, und speichert es wie { "adsf } { qwef"

apache-pig csv hadoop

Ein Weg zum Lesen von Daten aus der Mysql-Tabelle zu Schwein

Anzahl der Antworten

1 Antworten

Jeder weiß, dass Schwein unterstützt haben DBStorage, aber Sie werden nur unterstützt, laden Sie Ergebnisse von Schwein zu mysql wie STORE data INTO DBStorage('com.mysql.jdbc.Driver', 'dbc:mysql://host/db', 'INSERT ...'); Aber Bitte zeigen Sie mir den Weg zum Lesen einer

apache-pig hadoop mysql

Gewusst wie: laden von Daten aus Cassandra zu HDFS?

Anzahl der Antworten

3 Antworten

Ich habe einen Daten, die sich befindet in Apache Cassandra,ich möchte map/reduce-jobs mittels hadoop-Ökosystem-tools. Gewusst wie: laden von Daten aus Cassandra zu HDFS? Gibt es eine Speicher-handler andere als Cassandra storage-hf/Flotten ? InformationsquelleAutor kannadhasan | 2013-11-27

apache-pig cassandra hadoop hdfs hive

PIG-Skript ERSETZEN mit pipe-symbol

Anzahl der Antworten

3 Antworten

Möchte ich Streifen, Zeichen außerhalb der geschweiften Klammern in den Zeilen, die wie folgt Aussehen. 35|{......}| Stripping '35|' von der front und den trailing '|' am Ende. {.....} Zunächst auf die ersten 3 Zeichen ist, versuche ich

apache-pig replace

hadoop pig kann mkdir java-E / a-Ausnahme werfen

Anzahl der Antworten

1 Antworten

Habe ich ein sehr einfaches script-Beispiel von hadoop Reale Welt Lösung Kochbuch und ich versuche es auf amazon cloudera clustertogov04 ami und es gibt mir die java-Ausnahme, nicht in der Lage, mkdir?? aber ich habe genug Speicherplatz??

apache-pig hadoop

Schwein streaming durch ein python-Skript mit der import-Module

Anzahl der Antworten

2 Antworten

Arbeiten mit pigtmp$ Schwein --version Apache Pig-version 0.8.1-cdh3u1 (rexported) zusammengestellt Jul 18 2011, 08:29:40 Habe ich ein python-script (c-python), die Importe ein weiteres Skript, die beide sehr einfach in meinem Beispiel: DATEN Beispiel$ hadoop fs -cat /user/pavel/trivial.melden

apache-pig dependencies import python stream

Im Apache Pig, select DISTINCT Zeilen basierend auf einer einzigen Spalte

Anzahl der Antworten

3 Antworten

Sagen wir ich habe eine Tabelle wie unten, die möglicherweise oder möglicherweise nicht enthalten Duplikate für ein gegebenes Feld: ID URL --- ------------------ 001 http://example.com/adam 002 http://example.com/beth 002 http://example.com/beth?extra=blah 003 http://example.com/charlie Möchte ich schreiben, eine Pig-Skript zu

apache-pig distinct group-by

MIT Filter, in einer Verschachtelten FOREACH-in-SCHWEIN

Anzahl der Antworten

1 Antworten

Habe ich zwei Schweine-Beziehungen. Der erste count_pairs zeigt Paare von Wörtern und wie oft wurden Sie gesehen. ex ((car,tire), 4). Die zweite ist word_counts, die Spur hält, wie viele Male jedes Wort gesehen wurde, ab. (car, 20).

Schwein Fehler 1070, wenn dabei die UDF

Anzahl der Antworten

1 Antworten

Ich versuche zu laden, bis meine eigene UDF, die in der Schweinehaltung. Ich habe es in ein Glas mit eclipse export Funktion. Ich versuche, führen Sie es lokal, so kann ich sicherstellen, dass es funktioniert bevor ich

apache-pig hadoop java user-defined-functions

Gibt es ein apache pig äquivalent von "SHOW TABLES"?

Anzahl der Antworten

4 Antworten

Ich habe einen Hadoop-Daten speichern, ich bin Zugriff auf die in der Schweinehaltung und nicht viel Dokumentation, plus ich bin neu auf Schwein, also ich bin auf der Suche nach dem Schwein Entsprechung der "TABELLEN ANZEIGEN". Wenn

apache-pig hadoop

Filtern von Spalten mit mehreren Bedingungen in der Schweinehaltung

Anzahl der Antworten

1 Antworten

Schreiben brauche ich einen pig-Skript, wo ich zu finden bin, die Durchschnittliche Werte von mehreren Spalten und immer nur die Zeilen, deren Spalte alle Werte sind größer als die berechneten Mittelwerte. Mein script ist: i2 = GROUP

xml-Dateien-Verarbeitung mit apache pig

Anzahl der Antworten

3 Antworten

Habe ich die xml-Datei wie folgt: <CATALOG> <CD> <TITLE>hadoop developer</TITLE> <ARTIST>ajay</ARTIST> <COUNTRY>india</COUNTRY> <COMPANY>ITC</COMPANY> <PRICE>10.90</PRICE> <YEAR>2013</YEAR> </CD> </CATALOG> und ich habe einige regex, aber ich weiß nicht warum, bin nicht immer den gewünschten Ausgang... Mein code ist wie

apache-pig xml-parsing

Laden Sie mehrere Dateien in der Schweinehaltung

Anzahl der Antworten

1 Antworten

Ich bin neu auf pig. In der Schweine -, ich möchte mehrere VOB-Dateien mit Zeitstempel im Namen. Wenn ich Dateien laden zwischen 2012/02/12 zu 2012/02/19, die folgenden Werke $START = "12" $END = "19" raw_data = load

Hadoop Pig zählt die Anzahl

Anzahl der Antworten

1 Antworten

Bin ich lernen, wie man Hadoop Pig jetzt. Wenn ich eine input-Datei wie folgt: a,b,c,true s,c,v,false a,s,b,true ... Der Letzte Bereich ist der, den ich brauche, um zu zählen... Also ich möchte wissen, wie viele 'true' und

apache-pig hadoop mapreduce

wie nennen Pig-Skripte shell-Skript sequenziell

Anzahl der Antworten

3 Antworten

Ich habe die Sequenz von Schweine-Skripts in eine Datei, und ich möchte ausführen von Shell-Skript die Ausführung pig-Skripte sqeuenciatly. Ex: sh script.sh /es/Anbieter/Dateiname PIGddl.txt Angenommen PIGddl.txt hat Pig-Skripte wie Datensatz Null-Validierung e.t.c Wenn alle Pig-Abfragen sind in

apache-pig hadoop shell

Lesen von XML mit SCHWEIN

Anzahl der Antworten

1 Antworten

Ich versuche zum Lesen der Daten aus der xml-Datei mit SCHWEIN, aber ich bin immer unvollständige Ausgabe. Input-Datei- <document> <url>htp://www.abc.com/</url> <category>Sports</category> <usercount>120</usercount> <reviews> <review>good site</review> <review>This is Avg site</review> <review>Bad site</review> </reviews> </document> und der code, den

apache-pig xml xml-parsing

Speichern von Daten auf SequenceFile von Apache Pig

Anzahl der Antworten

2 Antworten

Apache Pig können laden von Daten aus Hadoop-Sequenz-Dateien mit dem Sparschwein SequenceFileLoader: REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar; DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader(); log = LOAD '/data/logs' USING SequenceFileLoader AS (...) Gibt es auch eine Bibliothek gibt, die es erlauben würde zu schreiben,

apache-pig hadoop

Schwein - Wie zu werfen datetime in chararray

Anzahl der Antworten

2 Antworten

Ich bin mit CurrentTime(), die ein datetime-Datentyp. Allerdings brauche ich es als ein chararray. Ich habe Folgendes: A = LOAD ... B = FOREACH A GENERATE CurrentTime() AS todaysDate; Habe ich versucht verschiedene Ansätze, wie die folgenden:

verketten einer Zeichenfolge in ein Feld in der Schweinehaltung

Anzahl der Antworten

1 Antworten

Mag ich concat eine Zeichenfolge, um alle Daten in einem Feld? Beispiel ein dataset mydata enthält folgende Feld ( id, name, email ) ich wie ein Präfix hinzufügen der Zeichenfolge testen, um alle Daten in das Feld

apache-pig hadoop

finden meine, mit Schwein oder hadoop

Anzahl der Antworten

3 Antworten

Ich habe eine riesige text-Datei der form Daten gespeichert, die im Verzeichnis data/data1.txt, data2.txt und so weiter merchant_id, user_id, amount 1234, 9123, 299.2 1233, 9199, 203.2 1234, 0124, 230 and so on.. Was ich tun möchte, ist

apache-pig hadoop

Hadoop, Hive, Pig, HBase, Cassandra - Wann benutzen Sie was?

Anzahl der Antworten

1 Antworten

Zunächst einmal bin ich relativ neu an Big Data und Hadoop-Welt und ich habe gerade begonnen, ein wenig Experimentieren mit der Hortonworks-Sandbox (Pig-und Hive-so weit). Ich Frage mich, in welchen Fällen könnte ich die oben genannten tools

apache-pig cassandra hadoop hive

Group by mehrere Felder und output-Tupel

Anzahl der Antworten

1 Antworten

Habe ich ein Futter in dem folgenden format: Hour Key ID Value 1 K1 001 3 1 K1 002 2 2 K1 005 4 1 K2 002 1 2 K2 003 5 2 K2 004 6 und

apache-pig hadoop

Schwein Batch-Modus: so stellen Sie die Protokollebene auf "hide INFO", von log-Meldungen?

Anzahl der Antworten

3 Antworten

Apache Schwein version 0.10.1.21 (rexported). Wenn ich ausführen ein pig-Skript, es gibt eine Vielzahl von INFO-Protokollierung Linien, die so aussieht: 2013-05-18 14:30:12,810 [Thread-28] INFO org.apache.hadoop.mapred.Task - Task 'attempt_local_0005_r_000000_0' done. 2013-05-18 14:30:18,064 [main] WARN org.apache.pig.tools.pigstats.PigStatsUtil - Failed to

Max/Min für ganze Gruppen von Datensätzen, die in der SCHWEINEHALTUNG

Anzahl der Antworten

1 Antworten

Habe ich eine Reihe von Datensätzen, die ich bin laden aus einer Datei, und das erste, was ich tun müssen, ist die max und min einer Spalte. In SQL würde ich das mit einer Unterabfrage wie diese:

apache-pig hadoop

Schwein Bedingte Operatoren

Anzahl der Antworten

1 Antworten

Betrachten Sie das folgende Verhältnis test = LOAD 'input' USING PigStorage(',') as (a:chararray, b:chararray); Gibt es eine Möglichkeit, um Folgendes zu erreichen if (b == 1) { a = 'abc'; else if (b == 2) { a

Konnte nicht ableiten COUNT-Funktion

Anzahl der Antworten

3 Antworten

Ich versuche zu schreiben, ein pig latin-Skript zu ziehen, die der Graf ein dataset, das ich herausgefiltert haben. Hier ist das Skript so weit: /* scans by title */ scans = LOAD '/hive/scans/*' USING PigStorage(',') AS (thetime:long,product_id:long,lat:double,lon:double,user:chararray,category:chararray,title:chararray);

Kann ich erzeugen verschachtelter Taschen mit verschachtelten FOREACH-Anweisungen in Pig Latin?

Anzahl der Antworten

5 Antworten

Sagen wir, ich habe einen Datensatz von restaurant-Bewertungen: User,City,Restaurant,Rating Jim,New York,Mecurials,3 Jim,New York,Whapme,4.5 Jim,London,Pint Size,2 Lisa,London,Pint Size,4 Lisa,London,Rabbit Whole,3.5 Und ich wollen eine Liste von Benutzer-und Stadt-Durchschnitt abgeben. I. e. Ausgabe: User,City,AverageRating Jim,New York,3.75 Jim,London,2 Lisa,London,3.75 Ich

mit SCHWEIN, eine Datei zu laden

Anzahl der Antworten

1 Antworten

Ich bin sehr neu auf SCHWEIN und ich bin mit dem, was fühlt sich wie ein sehr Grundsätzliches problem. Ich habe eine Codezeile, die lautet: A = load 'Sites/trial_clustering/shortdocs/*' AS (word1:chararray, word2:chararray, word3:chararray, word4:chararray); wo jeder Datei

apache-pig hadoop

Wie bekomme ich schema / Spaltennamen aus Parkett-Datei?

Anzahl der Antworten

3 Antworten

Habe ich eine gespeicherte Datei im HDFS als part-m-00000.gz.parquet Habe ich versucht zu laufen hdfs dfs -text dir/part-m-00000.gz.parquet aber es ist komprimiert, also lief ich gunzip part-m-00000.gz.parquet aber nicht Dekomprimieren Sie die Datei, da es nicht erkennen

apache-pig hadoop hdfs parquet

so laden Sie mehrere text-Dateien in einem Ordner, die in der Schweinehaltung mit load-Befehl?

Anzahl der Antworten

3 Antworten

Habe ich für das laden einer text-Datei A = LOAD '1try.txt' USING PigStorage(' ') as (c1:chararray,c2:chararray,c3:chararray,c4:chararray); möglich, Duplikat der Pig Latin: Laden Sie mehrere Dateien aus einem Datumsbereich (Teil der Verzeichnis-Struktur) InformationsquelleAutor user3627159 | 2014-05-13

apache-pig hadoop

Apache Pig - SPIELE mit mehreren Kriterien

Anzahl der Antworten

2 Antworten

Ich versuche, eine logische Kriterien wie: (("Foo" OR "Foo Bar" OR FooBar) AND ("test" OR "testA" OR "TestB")) OR TestZ anwenden, als ein match gegen eine Datei, die in der Schweinehaltung mit result = filter inputfields by

apache-pig hadoop java regex

SCHWEIN: Holen Sie sich alle Tupel aus einem gruppiert Tasche

Anzahl der Antworten

3 Antworten

Ich bin mit SCHWEIN zu generieren Gruppen von Tupeln wie folgt: a1, b1 a1, b2 a1, b3 ... -> a1, [b1, b2, b3] ... Dies ist einfach und funktioniert. Aber mein problem ist das folgende: Aus den

Generieren Sie alle Felder aus ein alias nach einem JOIN in Pig

Anzahl der Antworten

4 Antworten

Möchte ich ausführen, das äquivalent von "halten alle a im A wo a.field == b.field für einige b im B" in Apache Pig. Ich bin der Umsetzung es so, AB_joined = JOIN A by field, B by

apache-pig hadoop

Exception bei Typumwandlung Chararry auf das doppelte SCHWEIN

Anzahl der Antworten

1 Antworten

Habe ich ein Beispiel für die Eingabe als tab-getrennten Schlüssel-Wert-paar wie folgt B_1001@2012-06-15 [email protected] B_1001@2012-06-18 [email protected] B_1002@2012-09-26 [email protected] B_1002@2012-09-28 [email protected] und ich bin laden Sie diese Datei in der Schweine-und dabei die folgenden a = load '/home/HadoopUser/Desktop/a.txt'

apache-pig hadoop mapreduce

zum bereitstellen und ausführen von oozie-job?

Anzahl der Antworten

2 Antworten

Ich versuche zu tun, eine einfache Aufgabe mit oozie. Es wird eine einfache Schwein Handeln. Habe ich eine Datei : FirstScript.Schwein enthält: dual = LOAD 'default.dual' USING org.apache.hcatalog.pig.HCatLoader(); store dual into 'dummy_file.txt' using PigStorage(); und ein workflow.xml

apache-pig hadoop oozie

FEHLER 1066: Unable to open iterator für alias - Schwein

Anzahl der Antworten

4 Antworten

Gerade angefangen Schwein; der Versuch zum laden der Daten aus einer Datei und dump es fortan. Das laden scheint zu sein richtig, wird kein Fehler ausgegeben. Unten ist die Abfrage: NYSE = LOAD '/root/Desktop/Arbeiten/NYSE-2000-2001.tsv' MIT PigStorage() ALS

Das entfernen von Duplikaten mit PigLatin

Anzahl der Antworten

2 Antworten

Ich bin mit PigLatin filtern Sie einige Datensätze. User1 8 NYC User1 9 NYC User1 7 LA User2 4 NYC User2 3 DC Sollte das script entfernen Sie das doppelte für die Nutzer, und halten Sie einen

Laden Sie nur bestimmten Bereich im SCHWEIN?

Anzahl der Antworten

1 Antworten

Dies ist meine Datei: Col1, Col2, Col3, Col4, Col5 Brauche ich nur Col2 und Col3. Zurzeit mache ich das: a = load 'input' as (Col1:chararray, Col2:chararray, Col3:chararray, Col4:chararray); b = foreach a generate Col2, Col3; Gibt es

apache-pig hadoop mapreduce

Text-Analyse mit SCHWEIN

Anzahl der Antworten

4 Antworten

Ich bin neu auf PIG weiß nicht viel über es.Wie kann ich parse einen text in SCHWEIN? Lesen Feldwerte es ist ein Konzept der Positionsparameter in der Schweinehaltung zum Beispiel $0 dem ersten Feld ebenso gibt es

apache-pig hadoop

über die TOKENISIERUNG, die in der SCHWEINEHALTUNG

Anzahl der Antworten

2 Antworten

Ich versuche, mit der TOKENISIERUNG Funktion, die in der SCHWEINEHALTUNG mit einem Dokument, durch Komma getrennt. Ich möchte split an den Kommas, aber NICHT auf den weißen Raum. Beispielsweise möchte ich eine Liste der (Auto, Spielzeug-Auto, bunny)

1
2
3

Online Tests

Neueste Beiträge

Tun ItemView löst Blase?
Wie kann ich untersuchen, WCF was 400 bad request über GET?
Bei der Verwendung von UUIDs, sollte ich auch mit AUTO_INCREMENT?
Actionscript-Objekt, das verschiedene Eigenschaften
Wie plot mehrere Graphen und nutzen Sie die Navigations-Taste im [matplotlib]

Vorherige Fragen

Senden Sie JSON-Daten mit jQuery
Bereitstellen von SSIS-Paket und Bindung einer Verbindung Passwort
Aktualisierungen wurden zurückgewiesen, weil die Spitze Ihres aktuellen Zweig hinter
einfachste Weg, um zu Lesen json aus einer URL in java
Wie Sie angeben, content-type und content-disposition $.ajax() Reaktion zu ERHALTEN

Ihre Entwicklerrolle

Student
Developer, full-stack
Other
System administrator
Developer, back-end
Developer, desktop
Developer, mobile
Database administrator
Developer, front-end
Designer