Tag: hadoop-streaming
Hadoop streaming ist ein Dienstprogramm, das erlaubt das ausführen von map-reduce-jobs über jede ausführbare Datei, liest von standard-Eingabe und schreibt auf die Standardausgabe.
1
Antworten
Hey, kann u bitte helfen Sie mir bei der Klärung folgender Fehler ? Ich bekomme wenn ich auf der Mapreduce-job fopr einfügen von Daten in hbase-Tabellen aus hdfs-Dateien. mit HFileOutputFormat.class , früher lief ich den gleichen mit
1
Antworten
Als ich bin unten folgenden Verfahren: http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform https://www.youtube.com/watch?v=VhxWig96dME. Während der Ausführung des Befehls c:/hadoop-2.3.0/bin/hadoop namenode -format bekam ich die Fehlermeldung, die unten gegeben **DEPRECATED:Use of this script to execute hdfs command is deprecated. Instead use the hdfs
1
Antworten
Problem bei Hadoop-multi-node-set-up .Sobald ich Meine hdfs-Dämon auf Master - (bin/start-dfs.sh) erfuhr ich unter Protokolle auf Master starting namenode, logging to /home/hduser/hadoop/libexec/../logs/hadoop-hduser-namenode-localhost.localdomain.out slave: Warning: $HADOOP_HOME is deprecated. slave: slave: starting datanode, logging to /home/hduser/hadoop/libexec/../logs/hadoop-hduser-datanode-localhost.localdomain.out master: Warning: $HADOOP_HOME
3
Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }
1
Antworten
Ich versuche, führen Sie ein hadoop-streaming-server mit dem folgenden Befehl von einem shell-Skript hadoop jar /usr/local/hadoop/contrib/streaming/hadoop-0.19.2-streaming.jar -input $1 -output Twitter/Net.pegasus -mapper 'mapper.py Reverse' -reducer NONE -file mapper.py hadoop jar /usr/local/hadoop/contrib/streaming/hadoop-0.19.2-streaming.jar -input $1 -output Twitter/Net.exclude -mapper 'mapper.py Reverse'
1
Antworten
Kürzlich, möchte ich analysieren, websites, und verwenden Sie dann BeautifulSoup zu filtern, was ich will und schreiben in der csv-Datei in hdfs. Nun bin ich auf die Filterung von website-code mit BeautifulSoup. Will ich mit mapreduce-Methode ausführen:
4
Antworten
Habe ich viele Dateien in HDFS, alle von Ihnen eine zip-Datei mit einer CSV-Datei drin. Ich bin versucht zu entpacken Sie die Dateien so, dass ich einen streaming-job auf Sie. Habe ich versucht: hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
4
Antworten
so, wenn wir Java für das schreiben map/reduce Programm, die Karte speichert die Daten und reducer erhält die Liste der Werte pro Schlüssel, wie Map(k, v) -> k1, v1 then shuffle and sort happens then reducer gets
4
Antworten
Hey ich bin ziemlich neu in der Welt von Big Data. Ich kam in diesem tutorial, http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ Es beschreibt im detail, wie zum ausführen von MapReduce-job mit mrjob sowohl lokal als auch auf die Elastische Karte Reduzieren.
2
Antworten
Ich habe eine folgende situation Habe ich 3 Maschinen-cluster mit folgenden confirguration. Master Usage of /: 91.4% of 74.41GB MemTotal: 16557308 kB MemFree: 723736 kB Slave 01 Usage of /: 52.9% of 29.76GB MemTotal: 16466220 kB MemFree:
2
Antworten
Ich versuche zu Lesen(öffnen) und schreiben von Dateien im hdfs innerhalb eines python-Skript. Aber mit Fehler. Kann mir jemand sagen, was falsch ist hier. Code (voll): sample.py #!/usr/bin/python from subprocess import Popen, PIPE print "Before Loop" cat
5
Antworten
Ich bin neu in hadoop. Ich folgte dem maichel-noll-tutorial zum einrichten von hadoop in einzelnen Knoten.Ich habe versucht mit WordCount-Programms. Dies ist der code, den ich verwendet: import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable;
4
Antworten
Ich versuche, meine Hände auf Hadoop-streaming unter Verwendung von Python. Ich habe geschrieben, einfache Karte und reduzieren Skripte Hilfe von hier map Skript ist wie folgt : #!/usr/bin/env python import sys, urllib, re title_re = re.compile("<title>(.*?)</title>", re.MULTILINE
2
Antworten
Wie zu entscheiden, Wann ein Map-Side-Join-oder Verringern-Seite während des Schreibens eines MR-code in java? InformationsquelleAutor jkalyanc | 2015-04-19
2
Antworten
Ich versuche, führen Sie den code unten package test; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.util.*; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class
2
Antworten
Ich habe einen dataframe mit mehr als 10 Millionen Datensätze. Wie kann ich einen count-schnell? df.count nimmt eine sehr lange Zeit. Was ist eine "sehr lange Zeit"? Können Sie uns mehr darüber erzählen, was und wie Sie
2
Antworten
Habe ich versucht, läuft hive -v -f sqlfile.sql Hier ist der Inhalt der Datei CREATE TABLE UpStreamParam ( 'macaddress' CHAR(50), 'datats' BIGINT, 'cmtstimestamp' BIGINT, 'modulation' INT, 'chnlidx' INT, 'severity' BIGINT, 'rxpower' FLOAT, 'sigqnoise' FLOAT, 'noisedeviation' FLOAT, 'prefecber'
2
Antworten
Ich versuche zur Eingabe von sys.stdin. Dies ist ein map-reducer-Programm für hadoop. Input-Datei in txt-form. Vorschau der Daten gesetzt werden: 196 242 3 881250949 186 302 3 891717742 22 377 1 878887116 244 51 2 880606923 166
3
Antworten
Ich habe eine Datei mit einer Zeichenfolge, dann einem Leerzeichen und dann eine Zahl auf jeder Linie. Beispiel: Line1: Word 2 Line2 : Word1 8 Line3: Word2 1 Ich muss Sortieren der Anzahl in absteigender Reihenfolge, und
1
Antworten
Muss ich vergleichen eine große Anzahl von Streichern ähnlich 50358c591cef4d76. Ich habe eine Hamming-Distanz Funktion (bei Verwendung von pHash) die ich verwenden kann. Wie mache ich das effizient? Mein pseudocode würde: For each string currentstring= string For
2
Antworten
Problem:, Wenn ich behaupte, einen job zu meiner hadoop 2.2.0-cluster es nicht zeigen, bis in der job-tracker aber der Auftrag erfolgreich abgeschlossen wurde. Durch dieses kann ich den Ausgang und es läuft korrekt und druckt die Ausgabe,
8
Antworten
Ich habe ein bisschen ein problem. Ich möchte erfahren Sie mehr über Hadoop und wie kann ich Sie verwenden, um Daten zu behandeln-streams in Echtzeit. Als solche will ich bauen ein aussagekräftigen POC um ihn herum, so
4
Antworten
Habe ich zwei Dateien in meinem cluster File A und File B mit den folgenden Daten - Datei Ein #Format: #Food Item | Is_A_Fruit (BOOL) Orange | Yes Pineapple | Yes Cucumber | No Carrot | No