Tag: hadoop-streaming

Hadoop streaming ist ein Dienstprogramm, das erlaubt das ausführen von map-reduce-jobs über jede ausführbare Datei, liest von standard-Eingabe und schreibt auf die Standardausgabe.

Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Ausgabe-Verzeichnis nicht gesetzt

Anzahl der Antworten 1 Antworten
Hey, kann u bitte helfen Sie mir bei der Klärung folgender Fehler ? Ich bekomme wenn ich auf der Mapreduce-job fopr einfügen von Daten in hbase-Tabellen aus hdfs-Dateien. mit HFileOutputFormat.class , früher lief ich den gleichen mit

hdfs-Befehl ist veraltet in hadoop

Anzahl der Antworten 1 Antworten
Als ich bin unten folgenden Verfahren: http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform https://www.youtube.com/watch?v=VhxWig96dME. Während der Ausführung des Befehls c:/hadoop-2.3.0/bin/hadoop namenode -format bekam ich die Fehlermeldung, die unten gegeben **DEPRECATED:Use of this script to execute hdfs command is deprecated. Instead use the hdfs

Fehler beim starten HDFS-daemons auf hadoop Multinode-cluster

Anzahl der Antworten 1 Antworten
Problem bei Hadoop-multi-node-set-up .Sobald ich Meine hdfs-Dämon auf Master - (bin/start-dfs.sh) erfuhr ich unter Protokolle auf Master starting namenode, logging to /home/hduser/hadoop/libexec/../logs/hadoop-hduser-namenode-localhost.localdomain.out slave: Warning: $HADOOP_HOME is deprecated. slave: slave: starting datanode, logging to /home/hduser/hadoop/libexec/../logs/hadoop-hduser-datanode-localhost.localdomain.out master: Warning: $HADOOP_HOME

wordCounts.dstream().saveAsTextFiles("LOCAL FILE SYSTEM PATH", "txt"); nicht in Datei schreiben

Anzahl der Antworten 3 Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

hadoop /usr/bin/env: python: Keine solche Datei oder Verzeichnis

Anzahl der Antworten 1 Antworten
Ich versuche, führen Sie ein hadoop-streaming-server mit dem folgenden Befehl von einem shell-Skript hadoop jar /usr/local/hadoop/contrib/streaming/hadoop-0.19.2-streaming.jar -input $1 -output Twitter/Net.pegasus -mapper 'mapper.py Reverse' -reducer NONE -file mapper.py hadoop jar /usr/local/hadoop/contrib/streaming/hadoop-0.19.2-streaming.jar -input $1 -output Twitter/Net.exclude -mapper 'mapper.py Reverse'

python - PipeMapRed.waitOutputThreads(): subprocess failed with code 1

Anzahl der Antworten 1 Antworten
Kürzlich, möchte ich analysieren, websites, und verwenden Sie dann BeautifulSoup zu filtern, was ich will und schreiben in der csv-Datei in hdfs. Nun bin ich auf die Filterung von website-code mit BeautifulSoup. Will ich mit mapreduce-Methode ausführen:

Entpacken von Dateien mit Hilfe von hadoop streaming

Anzahl der Antworten 4 Antworten
Habe ich viele Dateien in HDFS, alle von Ihnen eine zip-Datei mit einer CSV-Datei drin. Ich bin versucht zu entpacken Sie die Dateien so, dass ich einen streaming-job auf Sie. Habe ich versucht: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \

hadoop streaming : wie zu geben, Liste von Schlüssel-Werte-reducer?

Anzahl der Antworten 4 Antworten
so, wenn wir Java für das schreiben map/reduce Programm, die Karte speichert die Daten und reducer erhält die Liste der Werte pro Schlüssel, wie Map(k, v) -> k1, v1 then shuffle and sort happens then reducer gets

Die Ausführung der Aufgabe mit hadoop-streaming und mrjob: PipeMapRed.waitOutputThreads(): subprocess failed with code 1

Anzahl der Antworten 4 Antworten
Hey ich bin ziemlich neu in der Welt von Big Data. Ich kam in diesem tutorial, http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ Es beschreibt im detail, wie zum ausführen von MapReduce-job mit mrjob sowohl lokal als auch auf die Elastische Karte Reduzieren.

Hadoop: die Arbeit läuft in Ordnung, auf kleineren Datenmenge scheitert aber mit großen datasets

Anzahl der Antworten 2 Antworten
Ich habe eine folgende situation Habe ich 3 Maschinen-cluster mit folgenden confirguration. Master Usage of /: 91.4% of 74.41GB MemTotal: 16557308 kB MemFree: 723736 kB Slave 01 Usage of /: 52.9% of 29.76GB MemTotal: 16466220 kB MemFree:

Lesen / Schreiben von Dateien, die von hdfs mit python subprocess -, Rohr -, Popen Fehler gibt

Anzahl der Antworten 2 Antworten
Ich versuche zu Lesen(öffnen) und schreiben von Dateien im hdfs innerhalb eines python-Skript. Aber mit Fehler. Kann mir jemand sagen, was falsch ist hier. Code (voll): sample.py #!/usr/bin/python from subprocess import Popen, PIPE print "Before Loop" cat

Hadoop Java-Fehler : Exception in thread "main" java.lang.NoClassDefFoundError: WordCount (wrong name: org/myorg/WordCount)

Anzahl der Antworten 5 Antworten
Ich bin neu in hadoop. Ich folgte dem maichel-noll-tutorial zum einrichten von hadoop in einzelnen Knoten.Ich habe versucht mit WordCount-Programms. Dies ist der code, den ich verwendet: import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable;

# fehlgeschlagener Map-Aufgaben zulässige Grenze überschritten

Anzahl der Antworten 4 Antworten
Ich versuche, meine Hände auf Hadoop-streaming unter Verwendung von Python. Ich habe geschrieben, einfache Karte und reduzieren Skripte Hilfe von hier map Skript ist wie folgt : #!/usr/bin/env python import sys, urllib, re title_re = re.compile("<title>(.*?)</title>", re.MULTILINE

Wie zu entscheiden, Wann ein Map-Side-Join-oder Verringern-Seite während des Schreibens eines MR-code in java?

Anzahl der Antworten 2 Antworten
Wie zu entscheiden, Wann ein Map-Side-Join-oder Verringern-Seite während des Schreibens eines MR-code in java? InformationsquelleAutor jkalyanc | 2015-04-19

Der import org.apache.hadoop.mapreduce kann nicht aufgelöst werden

Anzahl der Antworten 2 Antworten
Ich versuche, führen Sie den code unten package test; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.util.*; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class

Immer die Anzahl der Datensätze in einer Daten-frame schnell

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe mit mehr als 10 Millionen Datensätze. Wie kann ich einen count-schnell? df.count nimmt eine sehr lange Zeit. Was ist eine "sehr lange Zeit"? Können Sie uns mehr darüber erzählen, was und wie Sie

Hive ist FEHLGESCHLAGEN: ParseException line 2:0 nicht erkennen kann Eingang in der Nähe von "macaddress" 'CHAR' '(' in der Spalte Spezifikation

Anzahl der Antworten 2 Antworten
Habe ich versucht, läuft hive -v -f sqlfile.sql Hier ist der Inhalt der Datei CREATE TABLE UpStreamParam ( 'macaddress' CHAR(50), 'datats' BIGINT, 'cmtstimestamp' BIGINT, 'modulation' INT, 'chnlidx' INT, 'severity' BIGINT, 'rxpower' FLOAT, 'sigqnoise' FLOAT, 'noisedeviation' FLOAT, 'prefecber'

Import von text-Datei : Nein-Spalten zu Parsen Datei

Anzahl der Antworten 2 Antworten
Ich versuche zur Eingabe von sys.stdin. Dies ist ein map-reducer-Programm für hadoop. Input-Datei in txt-form. Vorschau der Daten gesetzt werden: 196 242 3 881250949 186 302 3 891717742 22 377 1 878887116 244 51 2 880606923 166

Sortierung nach Wert in Hadoop aus einer Datei

Anzahl der Antworten 3 Antworten
Ich habe eine Datei mit einer Zeichenfolge, dann einem Leerzeichen und dann eine Zahl auf jeder Linie. Beispiel: Line1: Word 2 Line2 : Word1 8 Line3: Word2 1 Ich muss Sortieren der Anzahl in absteigender Reihenfolge, und

Mit python effizient zu berechnen der hamming-Distanzen

Anzahl der Antworten 1 Antworten
Muss ich vergleichen eine große Anzahl von Streichern ähnlich 50358c591cef4d76. Ich habe eine Hamming-Distanz Funktion (bei Verwendung von pHash) die ich verwenden kann. Wie mache ich das effizient? Mein pseudocode würde: For each string currentstring= string For

Hadoop ist nicht zeigen, mein job in der job-tracker, obwohl es ausgeführt wird

Anzahl der Antworten 2 Antworten
Problem:, Wenn ich behaupte, einen job zu meiner hadoop 2.2.0-cluster es nicht zeigen, bis in der job-tracker aber der Auftrag erfolgreich abgeschlossen wurde. Durch dieses kann ich den Ausgang und es läuft korrekt und druckt die Ausgabe,

POC für Hadoop in Echtzeit-Szenario

Anzahl der Antworten 8 Antworten
Ich habe ein bisschen ein problem. Ich möchte erfahren Sie mehr über Hadoop und wie kann ich Sie verwenden, um Daten zu behandeln-streams in Echtzeit. Als solche will ich bauen ein aussagekräftigen POC um ihn herum, so

Python MapReduce Hadoop-Streaming-Auftrag, erfordert mehrere input-Dateien?

Anzahl der Antworten 4 Antworten
Habe ich zwei Dateien in meinem cluster File A und File B mit den folgenden Daten - Datei Ein #Format: #Food Item | Is_A_Fruit (BOOL) Orange | Yes Pineapple | Yes Cucumber | No Carrot | No