Tag: mapreduce

MapReduce ist ein Algorithmus für die Verarbeitung von großen Datenmengen auf bestimmte Arten von verteilbare Probleme mit einer großen Anzahl von Knoten

Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Ausgabe-Verzeichnis nicht gesetzt

Anzahl der Antworten 1 Antworten
Hey, kann u bitte helfen Sie mir bei der Klärung folgender Fehler ? Ich bekomme wenn ich auf der Mapreduce-job fopr einfügen von Daten in hbase-Tabellen aus hdfs-Dateien. mit HFileOutputFormat.class , früher lief ich den gleichen mit

Hadoop 0.23.9 Wie zu Beginn datanodes

Anzahl der Antworten 3 Antworten
Wie es scheint, ich kann nicht hadoop zu starten, richtig. Ich bin mit hadoop 0.23.9: [msknapp@localhost sbin]$ hadoop namenode -format ... [msknapp@localhost sbin]$ ./start-dfs.sh Starting namenodes on [localhost] localhost: starting namenode, logging to /usr/local/cloud/hadoop-0.23.9/logs/hadoop-msknapp-namenode-localhost.localdomain.out localhost: starting datanode,

Sortieren eine riesige text-Datei mit hadoop

Anzahl der Antworten 3 Antworten
Ist es möglich, zu Sortieren, eine riesige text-Datei lexikographisch mit einem mapreduce-job die einzige Karte, Aufgaben und keine Aufgaben reduzieren? Datensätze der Textdatei getrennt durch ein neue-Zeile-Zeichen und die Größe der Datei ist rund 1 Terra Byte.

Probleme mit starten von Oozie-workflow

Anzahl der Antworten 1 Antworten
Ich habe ein problem beim starten einen Oozie-workflow: Config: <workflow-app name="Hive" xmlns="uri:oozie:workflow:0.4"> <start to="Hive"/> <action name="Hive"> <hive xmlns="uri:oozie:hive-action:0.2"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <configuration> <property> <name>oozie.hive.defaults</name> <value>hive-default.xml</value> </property> </configuration> <script>/user/hue/oozie/workspaces/hive/hive.sql</script> <param>INPUT_TABLE=movieapp_log_json</param> <param>OUTPUT=/user/hue/oozie/workspaces/output</param> <file>hive-default.xml#hive-default.xml</file> </hive> <ok to="end"/> <error to="kill"/> </action> <kill

Effiziente Speicherung der Daten in Hive

Anzahl der Antworten 1 Antworten
Wie kann ich effizient speichern von Daten in Hive und auch das speichern und abrufen der komprimierten Daten in hive? Derzeit bin ich der Speicherung als Textdatei. Ich wurde durch Bejoy Artikel und ich fand, dass die

Holen Sie sich die Anwendungs-ID während der Ausführung eines MapReduce-job

Anzahl der Antworten 2 Antworten
Gibt es eine Möglichkeit zum abrufen der Anwendungs-ID beim laufen - zum Beispiel - die wordcount Beispiel mit der yarn Befehl? Ich einleiten möchten Sie einen job von einem anderen Prozess mit der yarn Befehl ein, und

Wie haben die lzo-Komprimierung in hadoop mapreduce?

Anzahl der Antworten 1 Antworten
Will ich mit lzo komprimieren, die map-Ausgabe, aber ich kann es nicht benutzen! Die version von Hadoop, die ich verwendet ist 0.20.2. Ich: conf.set("mapred.compress.map.output", "true") conf.set("mapred.map.output.compression.codec", "org.apache.hadoop.io.compress.LzoCodec"); Wenn ich die jar-Datei in Hadoop zeigt es eine Ausnahme,

Wie schreibt man einen wordcount Programm mit Python, ohne mit Karte reduzieren

Anzahl der Antworten 1 Antworten
Eigentlich habe ich m neu in hadoop und auch zu python .... Also meine Frage ist wie man ein python-Skript in hadoop..... Und auch ich schrieb einen wordcount Programm mit python..So, können wir das Skript ohne Verwendung

Aggregat-Funktionen, die über eine Liste in JAVA

Anzahl der Antworten 3 Antworten
Habe ich eine Liste von Java Objekten, und ich brauche, um es zu verringern, die Anwendung von Aggregatfunktionen wie ein select über einen Datenbank. HINWEIS: Die Daten wurden errechnet aus mehreren Datenbanken und Dienste fordert. Ich erwarte,

MongoDB - Nutzung-aggregation-framework oder mapreduce für die passende array von strings innerhalb von Dokumenten (Profil-Abgleich)

Anzahl der Antworten 2 Antworten
Ich Baue eine Anwendung, die verglichen werden, um eine dating-Anwendung. Habe ich einige Dokumente mit einer Struktur wie dieser: $ db.profile.finden().ziemlich() [ { "_id": 1, "firstName": "John", "lastName": "Smith", "fieldValues": [ "favouriteColour|red", "food|pizza", "food|chinese" ] }, {

Wildcards in Aussicht mit CouchDB?

Anzahl der Antworten 2 Antworten
Ist es möglich, die Verwendung von Platzhaltern in views in CouchDB? Zum Beispiel, können sagen, ich habe eine Datenbank, die teams, Alter der Spieler,' Mittelwerte und Geschlecht der Spieler. Jedoch der Spieler' Alter nicht bekannt sein können

Prüfung und monitorying Anzahl der gleichzeitigen map/reduce-Aufgaben im GARN

Anzahl der Antworten 3 Antworten
Habe ich ein Hadoop-cluster 2.2 eingesetzt, die auf eine kleine Anzahl von leistungsstarken Maschinen. Ich habe eine Einschränkung zu verwenden GARN als das Gerüst, das ich bin nicht sehr vertraut mit. Wie kontrolliere ich die Anzahl der

MapReduce-job schlägt mit ExitCodeException exit-Code=255

Anzahl der Antworten 2 Antworten
Ich versuche, führen Sie einen MapReduce-job, der erfordert eine shared library (. a.so Datei). Wenn ich die gemeinsame Nutzung der Bibliothek aus einem standalone Java Programm, das ich keine Probleme habe (das Programm verwendet java.Bibliothek.Pfad zu der

hadoop wordcount Unsuppored-Dur.Minor version 51.0 FEHLER

Anzahl der Antworten 2 Antworten
Erstellte ich eine jar-Datei für wordcount in Hadoop 1.1.1 beim laufen die Welt Graf sein gibt mir folgenden Fehler: hduseros@MT2012018:/usr/local/hadoop$ bin/hadoop jar playground/wordcount.jar org.apache.hadoop.examples.WordCount /user/input/playground /user/output1 Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/hadoop/examples/WordCount : Unsupported major.minor version 51.0

MongoDB eindeutigen Wert aggregation über Karte reduzieren

Anzahl der Antworten 2 Antworten
Sehe ich jede Menge Fragen auf, SO dass über aggregation in MongoDB, aber ich habe nicht gefunden, eine komplette Lösung, um mir noch. Hier ist ein Beispiel meiner Daten: { "fruits" : { "apple" : "red", "orange"

Lesen und Schreiben von CSV-Dateien in eine hadoop-Anwendung

Anzahl der Antworten 1 Antworten
Ich verarbeiten muss, benutzerdefinierte csv-Dateien als Eingabe und schreiben von csv-Dateien zurück auf das HDFS. Kann ich dies direkt innerhalb der Karte zu reduzieren-Klasse, wo die eigentliche aufgestellt? Zur Bearbeitung der csv-Dateien, ich bin mit opencsv library.

java.io.IOException: Initialisierung aller Sammler ist fehlgeschlagen. Fehler im letzten Kollektors war :null

Anzahl der Antworten 2 Antworten
Ich bin ein Neuling in MapReduce und ich bin auf der Suche nach einer Lösung für ein problem.Ich versuche, mich an die Kette zwei Karte reduzieren Arbeitsplätze.Der erste job wird immer ausgeführt, aber auf dem zweiten job,

wie die Berechnung des Durchschnitts mit mongodb und NumberLong

Anzahl der Antworten 1 Antworten
Ich versuche, berechnen einen Mittelwert, der aus einer Sammlung über den mongodb-java-Treiber, wie hier: DBObject condition = new BasicDBObject("pluginIdentifier", plugin.getIdentifier()); DBObject initial = new BasicDBObject(); initial.put("count", 0); initial.put("totalDuration", 0); String reduce = "function(duration, out) { out.count++; out.totalDuration+=duration.floatApprox;

Analytics und Mining von Daten sitzen auf Cassandra

Anzahl der Antworten 2 Antworten
Haben wir eine Menge Interaktion mit dem Benutzer Daten von verschiedenen Webseiten gespeichert in Kassandra wie zum Beispiel cookies, Seite-Besuche, Werbung ansehen, Werbung, Klicks, etc.., die wir gerne tun würden, die Berichterstattung auf. Unsere aktuellen Cassandra-schema unterstützt

Hadoop-Konfiguration: mapred.* vs mapreduce.*

Anzahl der Antworten 3 Antworten
Ich bemerkt, dass es zwei Sätze von Hadoop-Konfiguration Parameter: ein Parameter mit mapred.* und das andere mit mapreduce.. Ich vermute, dass diese vielleicht aufgrund der alten API vs. neue API, aber wenn ich mich nicht Irre, scheinen

Filtern von input-Dateien mit globStatus in MapReduce

Anzahl der Antworten 2 Antworten
Ich habe eine Menge von input-Dateien und die möchte ich verarbeiten ausgewählte Elemente basierend auf dem Datum, das angefügt wurde, in das Ende. Ich bin jetzt verwirrt, wo muss ich die globStatus Methode zum filtern der Dateien.

java.lang.NoSuchMethodError: org.apache.hadoop.conf.- Konfiguration.addDeprecation(Ljava/lang/String;[Ljava/lang/String;)

Anzahl der Antworten 1 Antworten
Ich bin mit Java/Eclipse/Hadoop 2.2.0 (mit allen notwendigen Gläser), um eine sample-Map-Aufgabe Reduzieren (Einzelnen Knoten lokal) auf Ubuntu unter den unten angegebenen code aus, sondern die Begegnung mit Ausnahmen (stacktrace unten). Kann ich das Beispiel word count

Was ist die Standard-MapReduce-join von Apache Hive?

Anzahl der Antworten 2 Antworten
Was ist die Standard-join mit MapReduce-Algorithmus implementiert, durch den Bienenstock? Wird es ein Map-Side-Join, Verringern Sie-Seite, Broadcast-Join, etc.? Ist es nicht angegeben, in der original-Papier noch den Hive-wiki auf joins: http://cs.brown.edu/courses/cs227/papers/hive.pdf https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Tritt Die Hive version? Unter welcher

Schwein: Ungültige Feld-Projektion; Projizierte Feld nicht vorhanden ist

Anzahl der Antworten 1 Antworten
describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH

So ändern Sie die Struktur von MongoDB ist map-reduce-Ergebnisse?

Anzahl der Antworten 3 Antworten
Wenn ich laufen gehe "Map-reduce" auf einer Mongo-Datenbank, die ich in der Regel erhalten Sie Ergebnisse ähnlich der folgenden: { _id: <some-id>, value: { <first-key>: <first-value>, ... } } Gibt es eine Möglichkeit das weglassen der value:

Benutzerdefinierte Partitionierer Beispiel

Anzahl der Antworten 2 Antworten
Ich bin versucht zu schreiben, eine neue Hadoop-job für die Eingabe der Daten ist etwas schief. Eine Analogie HIERFÜR wäre die word count Beispiel in Hadoop tutorial, außer, sagen wir ein bestimmtes Wort vorhanden ist, sehr Häufig.

Für Array, ist es effizienter mit map() & reduce() anstelle von forEach() in javascript?

Anzahl der Antworten 4 Antworten
1)Wie wir wissen, gibt es keine Nebenwirkung, mit map() und reduce(). Heute haben wir auch muti-core-Handy. So ist es effizienter, Sie zu nutzen? 2)Auf der anderen Seite, es ist nur 1 thread für js ausführen, der auf

Hadoop verringern nicht mehr läuft

Anzahl der Antworten 1 Antworten
Ich habe eine schreckliche Frage jetzt. Wenn ich die Ausführung eines Jobs in hadoop, map-Prozess war ok, die 100% erreicht, die mit nichts Fehler passiert ist. Wenn jedoch reduzieren Prozess läuft, wird es gestopt, während es erreichte

CouchDB: map-reduce in Erlang

Anzahl der Antworten 2 Antworten
Wie kann ich schreiben, die map-und reduce-Funktionen in Erlang für CouchDB? Ich bin sicher, dass Erlang ist schneller als JavaScript. Warum sind Sie sicher? Kann kein Zufall sein: browsertoolkit.com/fault-tolerance.png InformationsquelleAutor edbond | 2009-07-23

Python - Implementierung von Joins in MapReduce - Probleme mit Getriebe-Ausgang

Anzahl der Antworten 4 Antworten
Ist dieser Aufruf um Hilfe bei HW-Aufgabe in Data Science Kurs, den ich auf Coursera, da konnte ich nicht erhalten, jede Beratung auf Coursera-forum. Ich habe meinen code, aber leider die Ausgabe nicht wieder das erwartete Ergebnis.

Wie übergeben Sie die variable zwischen zwei anzeigen reduziert Arbeitsplätze

Anzahl der Antworten 3 Antworten
Ich verkettet haben zwei Karte reduzieren Arbeitsplätze. Der Job1 wird nur ein reducer und ich bin computing einen float-Wert. Möchte ich diesen Wert in meinem Druckminderer von auftrag2 Kostentyp. Das ist meine main-Methode einrichten. public static String

Hadoop: die falschen classpath in map reduzieren-job

Anzahl der Antworten 2 Antworten
Bin ich mit einem cloudera-cluster in 3 virtuelle digitalwax Maschinen und versuchen, auszuführen hbase bulk-Ladung über eine Karte, reduzieren den job. Aber ich bekam immer die Fehlermeldung: error: Class org.apache.hadoop.hbase.mapreduce.HFileOutputFormat not found So, es scheint, dass die

Wie funktioniert Hive-Sie entscheiden, Wann Karte reduzieren und Wann nicht?

Anzahl der Antworten 4 Antworten
Als einfaches Beispiel, select * from tablename; NICHT kickt in der Karte reduzieren, während select count(*) from tablename; TUT. Was ist das Allgemeine Prinzip verwendet, um zu entscheiden, Wann Karte reduzieren (von hive)? InformationsquelleAutor Lazer | 2011-09-19

Debugging von hadoop-Anwendungen

Anzahl der Antworten 5 Antworten
Ich habe versucht, drucken Sie die Werte mit System.aus.println(), aber Sie erscheinen nicht auf der Konsole. Wie kann ich drucken Sie die Werte in einer map/reduce-Anwendung für debugging-Zwecke mit Hadoop? Dank, Deepak. Finden Sie hier stackoverflow.com/questions/23235343/... InformationsquelleAutor

Was ist der beste python-Implementierung für mapReduce-Muster?

Anzahl der Antworten 3 Antworten
Was ist der beste Python-Implementierung für MapReduce, ein framework oder eine Bibliothek, die wohl so gut wie Apache hadoop eine, aber wenn es nur in Python und beste im Sinne von gut dokumentiert und einfach Verständnis, voll

python - PipeMapRed.waitOutputThreads(): subprocess failed with code 1

Anzahl der Antworten 1 Antworten
Kürzlich, möchte ich analysieren, websites, und verwenden Sie dann BeautifulSoup zu filtern, was ich will und schreiben in der csv-Datei in hdfs. Nun bin ich auf die Filterung von website-code mit BeautifulSoup. Will ich mit mapreduce-Methode ausführen:

Arbeiten von RecordReader in Hadoop

Anzahl der Antworten 2 Antworten
Kann mir jemand erklären, wie die RecordReader tatsächlich funktioniert? Wie werden die Methoden nextkeyvalue(), getCurrentkey() und getprogress() Arbeit nach dem Programm beginnt mit der Ausführung? InformationsquelleAutor Amnesiac | 2012-06-08

die Verwendung von amazon s3 als Eingabe -, Ausgabe und Zwischenergebnisse gespeichert in EMR-Karte reduzieren job

Anzahl der Antworten 2 Antworten
Ich versuche, mit Amazon s3-Speicher mit EMR. Allerdings, wenn ich derzeit mein code bekomme ich mehrere Fehler, wie java.lang.IllegalArgumentException: This file system object (hdfs://10.254.37.109:9000) does not support access to the request path 's3n://energydata/input/centers_200_10k_norm.csv' You possibly called FileSystem.get(conf)

Hadoop Fehler im shuffle in fetcher#1

Anzahl der Antworten 1 Antworten
Bin ich mit einem parsing-Jobs in hadoop, die Quelle ist eine 11 GB map-Datei mit rund 900.000 binäre Datensätze, die jeweils eine HTML-Datei, der Kartenausschnitt links und schreiben Sie Sie auf den Kontext. Ich habe keine reducer

Verkettung Hadoop MapReduce 1.1.1 Beispiel

Anzahl der Antworten 1 Antworten
Ich bin sehr viel ein Hadoop-Anfänger, aber in Hadoop 1.1.1, ich versuche zu tun, anzeigen -> reduzieren -> Karte -> reduzieren. Ich bin eine schwierige Zeit der Suche nach einem konkreten Beispiel, wie dies in Java. Ich

falscher Wert: Klasse org.apache.hadoop.io.Text ist nicht Klasse org.apache.hadoop.io.IntWritable

Anzahl der Antworten 1 Antworten
Benutzt habe ich einen mapper,einem reducer und einem combiner Klasse, aber ich bin immer der Fehler wie folgt: java.io.IOException: wrong value class: class org.apache.hadoop.io.Text is not class org.apache.hadoop.io.IntWritable at org.apache.hadoop.mapred.IFile$Writer.append(IFile.java:199) at org.apache.hadoop.mapred.Task$CombineOutputCollector.collect(Task.java:1307) at org.apache.hadoop.mapred.Task$NewCombinerRunner$OutputConverter.write(Task.java:1623) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at

Wie " big data "Bigdata"?

Anzahl der Antworten 2 Antworten
Wie viel Menge der Daten, die nicht qualifiziert zu sein kategorisiert als Bigdata? Was mit der Größe der Daten kann man entscheiden, dass dies ist die Zeit zu gehen für Technologien wie Hadoop und nutzen Sie die

Die logs erscheint nicht in der Konsole :( [Hadoop Frage]

Anzahl der Antworten 3 Antworten
Ich versuche zu Debuggen, das WordCount Beispiel Cloudera Hadoop aber ich kann nicht. Ich habe protokolliert die mapper-und reducer-Klasse, aber in der Konsole nicht angezeigt und das log. Lege ich die Bilder. Im ersten Bild, die Java-logs.

Kontrolle Anzahl der hadoop-mapper output-Dateien

Anzahl der Antworten 4 Antworten
Ich habe einen job für hadoop. Wenn der job angegeben ist, habe ich auch einige Mapper gestartet. Und jeder mapper schreiben einer Datei auf der Festplatte, wie Teil-m-00000 -, Teil-m-00001. So wie ich das verstehe, jeder mapper

Hive erzwingt schema bei lese-Zeit?

Anzahl der Antworten 1 Antworten
Was ist der Unterschied und die Bedeutung dieser beiden Aussagen, die ich gestoßen, während einer Vorlesung hier: 1. Traditional databases enforce schema during load time. und 2. Hive enforces schema during read time. InformationsquelleAutor London guy |

Einstellung parameter in MapReduce-Job Konfiguration

Anzahl der Antworten 2 Antworten
Gibt es eine Möglichkeit, einen parameter in der job-Konfiguration von Mapper erreichen Sie von Reducer. Habe ich versucht den code unten Im Mapper: map(..) : context.getConfiguration().set("Sum","100"); In reducer: reduce(..) : context.getConfiguration().get("Sum"); Aber in reducer-Wert zurückgegeben wird, wie

Hadoop MapReduce vs MPI (vs Spark vs Mahout vs Sofort) - Wann verwendet man einen über den anderen?

Anzahl der Antworten 2 Antworten
Ich bin neu auf parallel-computing und nur ab und zu versuchen, MPI und Hadoop+MapReduce auf Amazon AWS. Aber ich bin verwirrt darüber, Wann eine über die andere. Beispielsweise eine Allgemeine Faustregel Rat, den ich sehen, kann wie

Die Hadoop-performance

Anzahl der Antworten 8 Antworten
Ich installiert hadoop 1.0.0 und ausprobiert Wort zählen beispielsweise (single node cluster). Es dauerte 2m 48secs zu vervollständigen. Dann habe ich versucht die standard linux word count Programm, der im 10 Millisekunden auf dem gleichen Satz (180

Hadoop Pig zählt die Anzahl

Anzahl der Antworten 1 Antworten
Bin ich lernen, wie man Hadoop Pig jetzt. Wenn ich eine input-Datei wie folgt: a,b,c,true s,c,v,false a,s,b,true ... Der Letzte Bereich ist der, den ich brauche, um zu zählen... Also ich möchte wissen, wie viele 'true' und

Hadoop: Reducer schreiben Mapper-Ausgabe in Ausgabedatei

Anzahl der Antworten 1 Antworten
Traf ich ein sehr sehr seltsames problem. Die Reduzierstücke Arbeit tun, aber wenn ich überprüfen Sie die Ausgabe-Dateien, ich fand nur die Ausgabe von den Mappern. Wenn ich versuche zu Debuggen, fand ich das gleiche problem mit