Tag: mapreduce

MapReduce ist ein Algorithmus für die Verarbeitung von großen Datenmengen auf bestimmte Arten von verteilbare Probleme mit einer großen Anzahl von Knoten

Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Ausgabe-Verzeichnis nicht gesetzt

1 Antworten

Hey, kann u bitte helfen Sie mir bei der Klärung folgender Fehler ? Ich bekomme wenn ich auf der Mapreduce-job fopr einfügen von Daten in hbase-Tabellen aus hdfs-Dateien. mit HFileOutputFormat.class , früher lief ich den gleichen mit

Hadoop 0.23.9 Wie zu Beginn datanodes

3 Antworten

Wie es scheint, ich kann nicht hadoop zu starten, richtig. Ich bin mit hadoop 0.23.9: [msknapp@localhost sbin]$ hadoop namenode -format ... [msknapp@localhost sbin]$ ./start-dfs.sh Starting namenodes on [localhost] localhost: starting namenode, logging to /usr/local/cloud/hadoop-0.23.9/logs/hadoop-msknapp-namenode-localhost.localdomain.out localhost: starting datanode,

hadoop hdfs mapreduce yarn

Sortieren eine riesige text-Datei mit hadoop

3 Antworten

Ist es möglich, zu Sortieren, eine riesige text-Datei lexikographisch mit einem mapreduce-job die einzige Karte, Aufgaben und keine Aufgaben reduzieren? Datensätze der Textdatei getrennt durch ein neue-Zeile-Zeichen und die Größe der Datei ist rund 1 Terra Byte.

cloudera hadoop mapreduce sorting

Probleme mit starten von Oozie-workflow

1 Antworten

Ich habe ein problem beim starten einen Oozie-workflow: Config: <workflow-app name="Hive" xmlns="uri:oozie:workflow:0.4"> <start to="Hive"/> <action name="Hive"> <hive xmlns="uri:oozie:hive-action:0.2"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <configuration> <property> <name>oozie.hive.defaults</name> <value>hive-default.xml</value> </property> </configuration> <script>/user/hue/oozie/workspaces/hive/hive.sql</script> <param>INPUT_TABLE=movieapp_log_json</param> <param>OUTPUT=/user/hue/oozie/workspaces/output</param> <file>hive-default.xml#hive-default.xml</file> </hive> <ok to="end"/> <error to="kill"/> </action> <kill

hadoop mapreduce oozie

Effiziente Speicherung der Daten in Hive

1 Antworten

Wie kann ich effizient speichern von Daten in Hive und auch das speichern und abrufen der komprimierten Daten in hive? Derzeit bin ich der Speicherung als Textdatei. Ich wurde durch Bejoy Artikel und ich fand, dass die

hadoop hive lzo mapreduce

Holen Sie sich die Anwendungs-ID während der Ausführung eines MapReduce-job

2 Antworten

Gibt es eine Möglichkeit zum abrufen der Anwendungs-ID beim laufen - zum Beispiel - die wordcount Beispiel mit der yarn Befehl? Ich einleiten möchten Sie einen job von einem anderen Prozess mit der yarn Befehl ein, und

hadoop2 mapreduce yarn

Wie haben die lzo-Komprimierung in hadoop mapreduce?

1 Antworten

Will ich mit lzo komprimieren, die map-Ausgabe, aber ich kann es nicht benutzen! Die version von Hadoop, die ich verwendet ist 0.20.2. Ich: conf.set("mapred.compress.map.output", "true") conf.set("mapred.map.output.compression.codec", "org.apache.hadoop.io.compress.LzoCodec"); Wenn ich die jar-Datei in Hadoop zeigt es eine Ausnahme,

hadoop mapreduce

Wie schreibt man einen wordcount Programm mit Python, ohne mit Karte reduzieren

1 Antworten

Eigentlich habe ich m neu in hadoop und auch zu python .... Also meine Frage ist wie man ein python-Skript in hadoop..... Und auch ich schrieb einen wordcount Programm mit python..So, können wir das Skript ohne Verwendung

mapreduce python

Aggregat-Funktionen, die über eine Liste in JAVA

3 Antworten

Habe ich eine Liste von Java Objekten, und ich brauche, um es zu verringern, die Anwendung von Aggregatfunktionen wie ein select über einen Datenbank. HINWEIS: Die Daten wurden errechnet aus mehreren Datenbanken und Dienste fordert. Ich erwarte,

data-processing database java mapreduce

MongoDB - Nutzung-aggregation-framework oder mapreduce für die passende array von strings innerhalb von Dokumenten (Profil-Abgleich)

2 Antworten

Ich Baue eine Anwendung, die verglichen werden, um eine dating-Anwendung. Habe ich einige Dokumente mit einer Struktur wie dieser: $ db.profile.finden().ziemlich() [ { "_id": 1, "firstName": "John", "lastName": "Smith", "fieldValues": [ "favouriteColour|red", "food|pizza", "food|chinese" ] }, {

aggregation-framework mapreduce mongodb

Wildcards in Aussicht mit CouchDB?

2 Antworten

Ist es möglich, die Verwendung von Platzhaltern in views in CouchDB? Zum Beispiel, können sagen, ich habe eine Datenbank, die teams, Alter der Spieler,' Mittelwerte und Geschlecht der Spieler. Jedoch der Spieler' Alter nicht bekannt sein können

couchdb mapreduce nosql

Prüfung und monitorying Anzahl der gleichzeitigen map/reduce-Aufgaben im GARN

3 Antworten

Habe ich ein Hadoop-cluster 2.2 eingesetzt, die auf eine kleine Anzahl von leistungsstarken Maschinen. Ich habe eine Einschränkung zu verwenden GARN als das Gerüst, das ich bin nicht sehr vertraut mit. Wie kontrolliere ich die Anzahl der

hadoop mapreduce yarn

MapReduce-job schlägt mit ExitCodeException exit-Code=255

2 Antworten

Ich versuche, führen Sie einen MapReduce-job, der erfordert eine shared library (. a.so Datei). Wenn ich die gemeinsame Nutzung der Bibliothek aus einem standalone Java Programm, das ich keine Probleme habe (das Programm verwendet java.Bibliothek.Pfad zu der

hadoop java mapreduce shared-libraries yarn

hadoop wordcount Unsuppored-Dur.Minor version 51.0 FEHLER

2 Antworten

Erstellte ich eine jar-Datei für wordcount in Hadoop 1.1.1 beim laufen die Welt Graf sein gibt mir folgenden Fehler: hduseros@MT2012018:/usr/local/hadoop$ bin/hadoop jar playground/wordcount.jar org.apache.hadoop.examples.WordCount /user/input/playground /user/output1 Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/hadoop/examples/WordCount : Unsupported major.minor version 51.0

hadoop java mapreduce

MongoDB eindeutigen Wert aggregation über Karte reduzieren

2 Antworten

Sehe ich jede Menge Fragen auf, SO dass über aggregation in MongoDB, aber ich habe nicht gefunden, eine komplette Lösung, um mir noch. Hier ist ein Beispiel meiner Daten: { "fruits" : { "apple" : "red", "orange"

javascript mapreduce mongodb mongodb-query

Lesen und Schreiben von CSV-Dateien in eine hadoop-Anwendung

1 Antworten

Ich verarbeiten muss, benutzerdefinierte csv-Dateien als Eingabe und schreiben von csv-Dateien zurück auf das HDFS. Kann ich dies direkt innerhalb der Karte zu reduzieren-Klasse, wo die eigentliche aufgestellt? Zur Bearbeitung der csv-Dateien, ich bin mit opencsv library.

csv file-io hadoop mapreduce

java.io.IOException: Initialisierung aller Sammler ist fehlgeschlagen. Fehler im letzten Kollektors war :null

2 Antworten

Ich bin ein Neuling in MapReduce und ich bin auf der Suche nach einer Lösung für ein problem.Ich versuche, mich an die Kette zwei Karte reduzieren Arbeitsplätze.Der erste job wird immer ausgeführt, aber auf dem zweiten job,

hadoop java mapreduce

wie die Berechnung des Durchschnitts mit mongodb und NumberLong

1 Antworten

Ich versuche, berechnen einen Mittelwert, der aus einer Sammlung über den mongodb-java-Treiber, wie hier: DBObject condition = new BasicDBObject("pluginIdentifier", plugin.getIdentifier()); DBObject initial = new BasicDBObject(); initial.put("count", 0); initial.put("totalDuration", 0); String reduce = "function(duration, out) { out.count++; out.totalDuration+=duration.floatApprox;

grouping java mapreduce mongodb

Analytics und Mining von Daten sitzen auf Cassandra

2 Antworten

Haben wir eine Menge Interaktion mit dem Benutzer Daten von verschiedenen Webseiten gespeichert in Kassandra wie zum Beispiel cookies, Seite-Besuche, Werbung ansehen, Werbung, Klicks, etc.., die wir gerne tun würden, die Berichterstattung auf. Unsere aktuellen Cassandra-schema unterstützt

analytics cassandra hadoop mapreduce

Hadoop-Konfiguration: mapred.* vs mapreduce.*

3 Antworten

Ich bemerkt, dass es zwei Sätze von Hadoop-Konfiguration Parameter: ein Parameter mit mapred.* und das andere mit mapreduce.. Ich vermute, dass diese vielleicht aufgrund der alten API vs. neue API, aber wenn ich mich nicht Irre, scheinen

hadoop mapreduce

Filtern von input-Dateien mit globStatus in MapReduce

2 Antworten

Ich habe eine Menge von input-Dateien und die möchte ich verarbeiten ausgewählte Elemente basierend auf dem Datum, das angefügt wurde, in das Ende. Ich bin jetzt verwirrt, wo muss ich die globStatus Methode zum filtern der Dateien.

cloudera hadoop java mapreduce

java.lang.NoSuchMethodError: org.apache.hadoop.conf.- Konfiguration.addDeprecation(Ljava/lang/String;[Ljava/lang/String;)

1 Antworten

Ich bin mit Java/Eclipse/Hadoop 2.2.0 (mit allen notwendigen Gläser), um eine sample-Map-Aufgabe Reduzieren (Einzelnen Knoten lokal) auf Ubuntu unter den unten angegebenen code aus, sondern die Begegnung mit Ausnahmen (stacktrace unten). Kann ich das Beispiel word count

eclipse hadoop java mapreduce

Was ist die Standard-MapReduce-join von Apache Hive?

2 Antworten

Was ist die Standard-join mit MapReduce-Algorithmus implementiert, durch den Bienenstock? Wird es ein Map-Side-Join, Verringern Sie-Seite, Broadcast-Join, etc.? Ist es nicht angegeben, in der original-Papier noch den Hive-wiki auf joins: http://cs.brown.edu/courses/cs227/papers/hive.pdf https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Tritt Die Hive version? Unter welcher

hadoop hive join mapreduce

Schwein: Ungültige Feld-Projektion; Projizierte Feld nicht vorhanden ist

1 Antworten

describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH

apache-pig bigdata hadoop mapreduce

So ändern Sie die Struktur von MongoDB ist map-reduce-Ergebnisse?

3 Antworten

Wenn ich laufen gehe "Map-reduce" auf einer Mongo-Datenbank, die ich in der Regel erhalten Sie Ergebnisse ähnlich der folgenden: { _id: <some-id>, value: { <first-key>: <first-value>, ... } } Gibt es eine Möglichkeit das weglassen der value:

mapreduce mongodb

Benutzerdefinierte Partitionierer Beispiel

2 Antworten

Ich bin versucht zu schreiben, eine neue Hadoop-job für die Eingabe der Daten ist etwas schief. Eine Analogie HIERFÜR wäre die word count Beispiel in Hadoop tutorial, außer, sagen wir ein bestimmtes Wort vorhanden ist, sehr Häufig.

hadoop mapreduce partitioning

Für Array, ist es effizienter mit map() & reduce() anstelle von forEach() in javascript?

4 Antworten

1)Wie wir wissen, gibt es keine Nebenwirkung, mit map() und reduce(). Heute haben wir auch muti-core-Handy. So ist es effizienter, Sie zu nutzen? 2)Auf der anderen Seite, es ist nur 1 thread für js ausführen, der auf

javascript mapreduce performance

Hadoop verringern nicht mehr läuft

1 Antworten

Ich habe eine schreckliche Frage jetzt. Wenn ich die Ausführung eines Jobs in hadoop, map-Prozess war ok, die 100% erreicht, die mit nichts Fehler passiert ist. Wenn jedoch reduzieren Prozess läuft, wird es gestopt, während es erreichte

hadoop mapreduce

CouchDB: map-reduce in Erlang

2 Antworten

Wie kann ich schreiben, die map-und reduce-Funktionen in Erlang für CouchDB? Ich bin sicher, dass Erlang ist schneller als JavaScript. Warum sind Sie sicher? Kann kein Zufall sein: browsertoolkit.com/fault-tolerance.png InformationsquelleAutor edbond | 2009-07-23

couchdb erlang mapreduce

Python - Implementierung von Joins in MapReduce - Probleme mit Getriebe-Ausgang

4 Antworten

Ist dieser Aufruf um Hilfe bei HW-Aufgabe in Data Science Kurs, den ich auf Coursera, da konnte ich nicht erhalten, jede Beratung auf Coursera-forum. Ich habe meinen code, aber leider die Ausgabe nicht wieder das erwartete Ergebnis.

jointable mapreduce python reducers

Wie übergeben Sie die variable zwischen zwei anzeigen reduziert Arbeitsplätze

3 Antworten

Ich verkettet haben zwei Karte reduzieren Arbeitsplätze. Der Job1 wird nur ein reducer und ich bin computing einen float-Wert. Möchte ich diesen Wert in meinem Druckminderer von auftrag2 Kostentyp. Das ist meine main-Methode einrichten. public static String

hadoop hdfs mapreduce

Hadoop: die falschen classpath in map reduzieren-job

2 Antworten

Bin ich mit einem cloudera-cluster in 3 virtuelle digitalwax Maschinen und versuchen, auszuführen hbase bulk-Ladung über eine Karte, reduzieren den job. Aber ich bekam immer die Fehlermeldung: error: Class org.apache.hadoop.hbase.mapreduce.HFileOutputFormat not found So, es scheint, dass die

apache cloudera hadoop hbase mapreduce

Wie funktioniert Hive-Sie entscheiden, Wann Karte reduzieren und Wann nicht?

4 Antworten

Als einfaches Beispiel, select * from tablename; NICHT kickt in der Karte reduzieren, während select count(*) from tablename; TUT. Was ist das Allgemeine Prinzip verwendet, um zu entscheiden, Wann Karte reduzieren (von hive)? InformationsquelleAutor Lazer | 2011-09-19

hadoop hive mapreduce

Debugging von hadoop-Anwendungen

5 Antworten

Ich habe versucht, drucken Sie die Werte mit System.aus.println(), aber Sie erscheinen nicht auf der Konsole. Wie kann ich drucken Sie die Werte in einer map/reduce-Anwendung für debugging-Zwecke mit Hadoop? Dank, Deepak. Finden Sie hier stackoverflow.com/questions/23235343/... InformationsquelleAutor

hadoop mapreduce

Was ist der beste python-Implementierung für mapReduce-Muster?

3 Antworten

Was ist der beste Python-Implementierung für MapReduce, ein framework oder eine Bibliothek, die wohl so gut wie Apache hadoop eine, aber wenn es nur in Python und beste im Sinne von gut dokumentiert und einfach Verständnis, voll

mapreduce python

python - PipeMapRed.waitOutputThreads(): subprocess failed with code 1

1 Antworten

Kürzlich, möchte ich analysieren, websites, und verwenden Sie dann BeautifulSoup zu filtern, was ich will und schreiben in der csv-Datei in hdfs. Nun bin ich auf die Filterung von website-code mit BeautifulSoup. Will ich mit mapreduce-Methode ausführen:

beautifulsoup hadoop-streaming mapreduce

Arbeiten von RecordReader in Hadoop

2 Antworten

Kann mir jemand erklären, wie die RecordReader tatsächlich funktioniert? Wie werden die Methoden nextkeyvalue(), getCurrentkey() und getprogress() Arbeit nach dem Programm beginnt mit der Ausführung? InformationsquelleAutor Amnesiac | 2012-06-08

hadoop mapreduce

die Verwendung von amazon s3 als Eingabe -, Ausgabe und Zwischenergebnisse gespeichert in EMR-Karte reduzieren job

2 Antworten

Ich versuche, mit Amazon s3-Speicher mit EMR. Allerdings, wenn ich derzeit mein code bekomme ich mehrere Fehler, wie java.lang.IllegalArgumentException: This file system object (hdfs://10.254.37.109:9000) does not support access to the request path 's3n://energydata/input/centers_200_10k_norm.csv' You possibly called FileSystem.get(conf)

amazon-emr amazon-s3 amazon-web-services hadoop mapreduce

Hadoop Fehler im shuffle in fetcher#1

1 Antworten

Bin ich mit einem parsing-Jobs in hadoop, die Quelle ist eine 11 GB map-Datei mit rund 900.000 binäre Datensätze, die jeweils eine HTML-Datei, der Kartenausschnitt links und schreiben Sie Sie auf den Kontext. Ich habe keine reducer

hadoop mapreduce

Verkettung Hadoop MapReduce 1.1.1 Beispiel

1 Antworten

Ich bin sehr viel ein Hadoop-Anfänger, aber in Hadoop 1.1.1, ich versuche zu tun, anzeigen -> reduzieren -> Karte -> reduzieren. Ich bin eine schwierige Zeit der Suche nach einem konkreten Beispiel, wie dies in Java. Ich

hadoop mapreduce

falscher Wert: Klasse org.apache.hadoop.io.Text ist nicht Klasse org.apache.hadoop.io.IntWritable

1 Antworten

Benutzt habe ich einen mapper,einem reducer und einem combiner Klasse, aber ich bin immer der Fehler wie folgt: java.io.IOException: wrong value class: class org.apache.hadoop.io.Text is not class org.apache.hadoop.io.IntWritable at org.apache.hadoop.mapred.IFile$Writer.append(IFile.java:199) at org.apache.hadoop.mapred.Task$CombineOutputCollector.collect(Task.java:1307) at org.apache.hadoop.mapred.Task$NewCombinerRunner$OutputConverter.write(Task.java:1623) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at

hadoop java mapreduce

Wie " big data "Bigdata"?

2 Antworten

Wie viel Menge der Daten, die nicht qualifiziert zu sein kategorisiert als Bigdata? Was mit der Größe der Daten kann man entscheiden, dass dies ist die Zeit zu gehen für Technologien wie Hadoop und nutzen Sie die

bigdata hadoop mapreduce

Die logs erscheint nicht in der Konsole :( [Hadoop Frage]

3 Antworten

Ich versuche zu Debuggen, das WordCount Beispiel Cloudera Hadoop aber ich kann nicht. Ich habe protokolliert die mapper-und reducer-Klasse, aber in der Konsole nicht angezeigt und das log. Lege ich die Bilder. Im ersten Bild, die Java-logs.

cloudera hadoop mapreduce

Kontrolle Anzahl der hadoop-mapper output-Dateien

4 Antworten

Ich habe einen job für hadoop. Wenn der job angegeben ist, habe ich auch einige Mapper gestartet. Und jeder mapper schreiben einer Datei auf der Festplatte, wie Teil-m-00000 -, Teil-m-00001. So wie ich das verstehe, jeder mapper

hadoop java mapreduce

Hive erzwingt schema bei lese-Zeit?

1 Antworten

Was ist der Unterschied und die Bedeutung dieser beiden Aussagen, die ich gestoßen, während einer Vorlesung hier: 1. Traditional databases enforce schema during load time. und 2. Hive enforces schema during read time. InformationsquelleAutor London guy |

hadoop hdfs hive mapreduce

Einstellung parameter in MapReduce-Job Konfiguration

2 Antworten

Gibt es eine Möglichkeit, einen parameter in der job-Konfiguration von Mapper erreichen Sie von Reducer. Habe ich versucht den code unten Im Mapper: map(..) : context.getConfiguration().set("Sum","100"); In reducer: reduce(..) : context.getConfiguration().get("Sum"); Aber in reducer-Wert zurückgegeben wird, wie

hadoop mapreduce

Hadoop MapReduce vs MPI (vs Spark vs Mahout vs Sofort) - Wann verwendet man einen über den anderen?

2 Antworten

Ich bin neu auf parallel-computing und nur ab und zu versuchen, MPI und Hadoop+MapReduce auf Amazon AWS. Aber ich bin verwirrt darüber, Wann eine über die andere. Beispielsweise eine Allgemeine Faustregel Rat, den ich sehen, kann wie

hadoop mapreduce mpi parallel-processing

Die Hadoop-performance

8 Antworten

Ich installiert hadoop 1.0.0 und ausprobiert Wort zählen beispielsweise (single node cluster). Es dauerte 2m 48secs zu vervollständigen. Dann habe ich versucht die standard linux word count Programm, der im 10 Millisekunden auf dem gleichen Satz (180

hadoop mapreduce performance

Hadoop Pig zählt die Anzahl

1 Antworten

Bin ich lernen, wie man Hadoop Pig jetzt. Wenn ich eine input-Datei wie folgt: a,b,c,true s,c,v,false a,s,b,true ... Der Letzte Bereich ist der, den ich brauche, um zu zählen... Also ich möchte wissen, wie viele 'true' und

apache-pig hadoop mapreduce

Hadoop: Reducer schreiben Mapper-Ausgabe in Ausgabedatei

1 Antworten

Traf ich ein sehr sehr seltsames problem. Die Reduzierstücke Arbeit tun, aber wenn ich überprüfen Sie die Ausgabe-Dateien, ich fand nur die Ausgabe von den Mappern. Wenn ich versuche zu Debuggen, fand ich das gleiche problem mit

hadoop mapreduce reduce