Tag: mapreduce
MapReduce ist ein Algorithmus für die Verarbeitung von großen Datenmengen auf bestimmte Arten von verteilbare Probleme mit einer großen Anzahl von Knoten
1
Antworten
Hey, kann u bitte helfen Sie mir bei der Klärung folgender Fehler ? Ich bekomme wenn ich auf der Mapreduce-job fopr einfügen von Daten in hbase-Tabellen aus hdfs-Dateien. mit HFileOutputFormat.class , früher lief ich den gleichen mit
3
Antworten
Wie es scheint, ich kann nicht hadoop zu starten, richtig. Ich bin mit hadoop 0.23.9: [msknapp@localhost sbin]$ hadoop namenode -format ... [msknapp@localhost sbin]$ ./start-dfs.sh Starting namenodes on [localhost] localhost: starting namenode, logging to /usr/local/cloud/hadoop-0.23.9/logs/hadoop-msknapp-namenode-localhost.localdomain.out localhost: starting datanode,
3
Antworten
Ist es möglich, zu Sortieren, eine riesige text-Datei lexikographisch mit einem mapreduce-job die einzige Karte, Aufgaben und keine Aufgaben reduzieren? Datensätze der Textdatei getrennt durch ein neue-Zeile-Zeichen und die Größe der Datei ist rund 1 Terra Byte.
1
Antworten
Ich habe ein problem beim starten einen Oozie-workflow: Config: <workflow-app name="Hive" xmlns="uri:oozie:workflow:0.4"> <start to="Hive"/> <action name="Hive"> <hive xmlns="uri:oozie:hive-action:0.2"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <configuration> <property> <name>oozie.hive.defaults</name> <value>hive-default.xml</value> </property> </configuration> <script>/user/hue/oozie/workspaces/hive/hive.sql</script> <param>INPUT_TABLE=movieapp_log_json</param> <param>OUTPUT=/user/hue/oozie/workspaces/output</param> <file>hive-default.xml#hive-default.xml</file> </hive> <ok to="end"/> <error to="kill"/> </action> <kill
1
Antworten
Wie kann ich effizient speichern von Daten in Hive und auch das speichern und abrufen der komprimierten Daten in hive? Derzeit bin ich der Speicherung als Textdatei. Ich wurde durch Bejoy Artikel und ich fand, dass die
2
Antworten
Gibt es eine Möglichkeit zum abrufen der Anwendungs-ID beim laufen - zum Beispiel - die wordcount Beispiel mit der yarn Befehl? Ich einleiten möchten Sie einen job von einem anderen Prozess mit der yarn Befehl ein, und
1
Antworten
Will ich mit lzo komprimieren, die map-Ausgabe, aber ich kann es nicht benutzen! Die version von Hadoop, die ich verwendet ist 0.20.2. Ich: conf.set("mapred.compress.map.output", "true") conf.set("mapred.map.output.compression.codec", "org.apache.hadoop.io.compress.LzoCodec"); Wenn ich die jar-Datei in Hadoop zeigt es eine Ausnahme,
1
Antworten
Eigentlich habe ich m neu in hadoop und auch zu python .... Also meine Frage ist wie man ein python-Skript in hadoop..... Und auch ich schrieb einen wordcount Programm mit python..So, können wir das Skript ohne Verwendung
3
Antworten
Habe ich eine Liste von Java Objekten, und ich brauche, um es zu verringern, die Anwendung von Aggregatfunktionen wie ein select über einen Datenbank. HINWEIS: Die Daten wurden errechnet aus mehreren Datenbanken und Dienste fordert. Ich erwarte,
2
Antworten
Ich Baue eine Anwendung, die verglichen werden, um eine dating-Anwendung. Habe ich einige Dokumente mit einer Struktur wie dieser: $ db.profile.finden().ziemlich() [ { "_id": 1, "firstName": "John", "lastName": "Smith", "fieldValues": [ "favouriteColour|red", "food|pizza", "food|chinese" ] }, {
2
Antworten
Ist es möglich, die Verwendung von Platzhaltern in views in CouchDB? Zum Beispiel, können sagen, ich habe eine Datenbank, die teams, Alter der Spieler,' Mittelwerte und Geschlecht der Spieler. Jedoch der Spieler' Alter nicht bekannt sein können
3
Antworten
Habe ich ein Hadoop-cluster 2.2 eingesetzt, die auf eine kleine Anzahl von leistungsstarken Maschinen. Ich habe eine Einschränkung zu verwenden GARN als das Gerüst, das ich bin nicht sehr vertraut mit. Wie kontrolliere ich die Anzahl der
2
Antworten
Ich versuche, führen Sie einen MapReduce-job, der erfordert eine shared library (. a.so Datei). Wenn ich die gemeinsame Nutzung der Bibliothek aus einem standalone Java Programm, das ich keine Probleme habe (das Programm verwendet java.Bibliothek.Pfad zu der
2
Antworten
Erstellte ich eine jar-Datei für wordcount in Hadoop 1.1.1 beim laufen die Welt Graf sein gibt mir folgenden Fehler: hduseros@MT2012018:/usr/local/hadoop$ bin/hadoop jar playground/wordcount.jar org.apache.hadoop.examples.WordCount /user/input/playground /user/output1 Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/hadoop/examples/WordCount : Unsupported major.minor version 51.0
2
Antworten
Sehe ich jede Menge Fragen auf, SO dass über aggregation in MongoDB, aber ich habe nicht gefunden, eine komplette Lösung, um mir noch. Hier ist ein Beispiel meiner Daten: { "fruits" : { "apple" : "red", "orange"
1
Antworten
Ich verarbeiten muss, benutzerdefinierte csv-Dateien als Eingabe und schreiben von csv-Dateien zurück auf das HDFS. Kann ich dies direkt innerhalb der Karte zu reduzieren-Klasse, wo die eigentliche aufgestellt? Zur Bearbeitung der csv-Dateien, ich bin mit opencsv library.
2
Antworten
Ich bin ein Neuling in MapReduce und ich bin auf der Suche nach einer Lösung für ein problem.Ich versuche, mich an die Kette zwei Karte reduzieren Arbeitsplätze.Der erste job wird immer ausgeführt, aber auf dem zweiten job,
1
Antworten
Ich versuche, berechnen einen Mittelwert, der aus einer Sammlung über den mongodb-java-Treiber, wie hier: DBObject condition = new BasicDBObject("pluginIdentifier", plugin.getIdentifier()); DBObject initial = new BasicDBObject(); initial.put("count", 0); initial.put("totalDuration", 0); String reduce = "function(duration, out) { out.count++; out.totalDuration+=duration.floatApprox;
2
Antworten
Haben wir eine Menge Interaktion mit dem Benutzer Daten von verschiedenen Webseiten gespeichert in Kassandra wie zum Beispiel cookies, Seite-Besuche, Werbung ansehen, Werbung, Klicks, etc.., die wir gerne tun würden, die Berichterstattung auf. Unsere aktuellen Cassandra-schema unterstützt
3
Antworten
Ich bemerkt, dass es zwei Sätze von Hadoop-Konfiguration Parameter: ein Parameter mit mapred.* und das andere mit mapreduce.. Ich vermute, dass diese vielleicht aufgrund der alten API vs. neue API, aber wenn ich mich nicht Irre, scheinen
2
Antworten
Ich habe eine Menge von input-Dateien und die möchte ich verarbeiten ausgewählte Elemente basierend auf dem Datum, das angefügt wurde, in das Ende. Ich bin jetzt verwirrt, wo muss ich die globStatus Methode zum filtern der Dateien.
1
Antworten
Ich bin mit Java/Eclipse/Hadoop 2.2.0 (mit allen notwendigen Gläser), um eine sample-Map-Aufgabe Reduzieren (Einzelnen Knoten lokal) auf Ubuntu unter den unten angegebenen code aus, sondern die Begegnung mit Ausnahmen (stacktrace unten). Kann ich das Beispiel word count
2
Antworten
Was ist die Standard-join mit MapReduce-Algorithmus implementiert, durch den Bienenstock? Wird es ein Map-Side-Join, Verringern Sie-Seite, Broadcast-Join, etc.? Ist es nicht angegeben, in der original-Papier noch den Hive-wiki auf joins: http://cs.brown.edu/courses/cs227/papers/hive.pdf https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Tritt Die Hive version? Unter welcher
1
Antworten
describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH
3
Antworten
Wenn ich laufen gehe "Map-reduce" auf einer Mongo-Datenbank, die ich in der Regel erhalten Sie Ergebnisse ähnlich der folgenden: { _id: <some-id>, value: { <first-key>: <first-value>, ... } } Gibt es eine Möglichkeit das weglassen der value:
2
Antworten
Ich bin versucht zu schreiben, eine neue Hadoop-job für die Eingabe der Daten ist etwas schief. Eine Analogie HIERFÜR wäre die word count Beispiel in Hadoop tutorial, außer, sagen wir ein bestimmtes Wort vorhanden ist, sehr Häufig.
4
Antworten
1)Wie wir wissen, gibt es keine Nebenwirkung, mit map() und reduce(). Heute haben wir auch muti-core-Handy. So ist es effizienter, Sie zu nutzen? 2)Auf der anderen Seite, es ist nur 1 thread für js ausführen, der auf
1
Antworten
Ich habe eine schreckliche Frage jetzt. Wenn ich die Ausführung eines Jobs in hadoop, map-Prozess war ok, die 100% erreicht, die mit nichts Fehler passiert ist. Wenn jedoch reduzieren Prozess läuft, wird es gestopt, während es erreichte
2
Antworten
Wie kann ich schreiben, die map-und reduce-Funktionen in Erlang für CouchDB? Ich bin sicher, dass Erlang ist schneller als JavaScript. Warum sind Sie sicher? Kann kein Zufall sein: browsertoolkit.com/fault-tolerance.png InformationsquelleAutor edbond | 2009-07-23
4
Antworten
Ist dieser Aufruf um Hilfe bei HW-Aufgabe in Data Science Kurs, den ich auf Coursera, da konnte ich nicht erhalten, jede Beratung auf Coursera-forum. Ich habe meinen code, aber leider die Ausgabe nicht wieder das erwartete Ergebnis.
3
Antworten
Ich verkettet haben zwei Karte reduzieren Arbeitsplätze. Der Job1 wird nur ein reducer und ich bin computing einen float-Wert. Möchte ich diesen Wert in meinem Druckminderer von auftrag2 Kostentyp. Das ist meine main-Methode einrichten. public static String
2
Antworten
Bin ich mit einem cloudera-cluster in 3 virtuelle digitalwax Maschinen und versuchen, auszuführen hbase bulk-Ladung über eine Karte, reduzieren den job. Aber ich bekam immer die Fehlermeldung: error: Class org.apache.hadoop.hbase.mapreduce.HFileOutputFormat not found So, es scheint, dass die
4
Antworten
Als einfaches Beispiel, select * from tablename; NICHT kickt in der Karte reduzieren, während select count(*) from tablename; TUT. Was ist das Allgemeine Prinzip verwendet, um zu entscheiden, Wann Karte reduzieren (von hive)? InformationsquelleAutor Lazer | 2011-09-19
5
Antworten
Ich habe versucht, drucken Sie die Werte mit System.aus.println(), aber Sie erscheinen nicht auf der Konsole. Wie kann ich drucken Sie die Werte in einer map/reduce-Anwendung für debugging-Zwecke mit Hadoop? Dank, Deepak. Finden Sie hier stackoverflow.com/questions/23235343/... InformationsquelleAutor
3
Antworten
Was ist der beste Python-Implementierung für MapReduce, ein framework oder eine Bibliothek, die wohl so gut wie Apache hadoop eine, aber wenn es nur in Python und beste im Sinne von gut dokumentiert und einfach Verständnis, voll
1
Antworten
Kürzlich, möchte ich analysieren, websites, und verwenden Sie dann BeautifulSoup zu filtern, was ich will und schreiben in der csv-Datei in hdfs. Nun bin ich auf die Filterung von website-code mit BeautifulSoup. Will ich mit mapreduce-Methode ausführen:
2
Antworten
Kann mir jemand erklären, wie die RecordReader tatsächlich funktioniert? Wie werden die Methoden nextkeyvalue(), getCurrentkey() und getprogress() Arbeit nach dem Programm beginnt mit der Ausführung? InformationsquelleAutor Amnesiac | 2012-06-08
2
Antworten
Ich versuche, mit Amazon s3-Speicher mit EMR. Allerdings, wenn ich derzeit mein code bekomme ich mehrere Fehler, wie java.lang.IllegalArgumentException: This file system object (hdfs://10.254.37.109:9000) does not support access to the request path 's3n://energydata/input/centers_200_10k_norm.csv' You possibly called FileSystem.get(conf)
1
Antworten
Bin ich mit einem parsing-Jobs in hadoop, die Quelle ist eine 11 GB map-Datei mit rund 900.000 binäre Datensätze, die jeweils eine HTML-Datei, der Kartenausschnitt links und schreiben Sie Sie auf den Kontext. Ich habe keine reducer
1
Antworten
Ich bin sehr viel ein Hadoop-Anfänger, aber in Hadoop 1.1.1, ich versuche zu tun, anzeigen -> reduzieren -> Karte -> reduzieren. Ich bin eine schwierige Zeit der Suche nach einem konkreten Beispiel, wie dies in Java. Ich
1
Antworten
Benutzt habe ich einen mapper,einem reducer und einem combiner Klasse, aber ich bin immer der Fehler wie folgt: java.io.IOException: wrong value class: class org.apache.hadoop.io.Text is not class org.apache.hadoop.io.IntWritable at org.apache.hadoop.mapred.IFile$Writer.append(IFile.java:199) at org.apache.hadoop.mapred.Task$CombineOutputCollector.collect(Task.java:1307) at org.apache.hadoop.mapred.Task$NewCombinerRunner$OutputConverter.write(Task.java:1623) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at
2
Antworten
Wie viel Menge der Daten, die nicht qualifiziert zu sein kategorisiert als Bigdata? Was mit der Größe der Daten kann man entscheiden, dass dies ist die Zeit zu gehen für Technologien wie Hadoop und nutzen Sie die
3
Antworten
Ich versuche zu Debuggen, das WordCount Beispiel Cloudera Hadoop aber ich kann nicht. Ich habe protokolliert die mapper-und reducer-Klasse, aber in der Konsole nicht angezeigt und das log. Lege ich die Bilder. Im ersten Bild, die Java-logs.
4
Antworten
Ich habe einen job für hadoop. Wenn der job angegeben ist, habe ich auch einige Mapper gestartet. Und jeder mapper schreiben einer Datei auf der Festplatte, wie Teil-m-00000 -, Teil-m-00001. So wie ich das verstehe, jeder mapper
1
Antworten
Was ist der Unterschied und die Bedeutung dieser beiden Aussagen, die ich gestoßen, während einer Vorlesung hier: 1. Traditional databases enforce schema during load time. und 2. Hive enforces schema during read time. InformationsquelleAutor London guy |
2
Antworten
Gibt es eine Möglichkeit, einen parameter in der job-Konfiguration von Mapper erreichen Sie von Reducer. Habe ich versucht den code unten Im Mapper: map(..) : context.getConfiguration().set("Sum","100"); In reducer: reduce(..) : context.getConfiguration().get("Sum"); Aber in reducer-Wert zurückgegeben wird, wie
2
Antworten
Ich bin neu auf parallel-computing und nur ab und zu versuchen, MPI und Hadoop+MapReduce auf Amazon AWS. Aber ich bin verwirrt darüber, Wann eine über die andere. Beispielsweise eine Allgemeine Faustregel Rat, den ich sehen, kann wie
8
Antworten
Ich installiert hadoop 1.0.0 und ausprobiert Wort zählen beispielsweise (single node cluster). Es dauerte 2m 48secs zu vervollständigen. Dann habe ich versucht die standard linux word count Programm, der im 10 Millisekunden auf dem gleichen Satz (180
1
Antworten
Bin ich lernen, wie man Hadoop Pig jetzt. Wenn ich eine input-Datei wie folgt: a,b,c,true s,c,v,false a,s,b,true ... Der Letzte Bereich ist der, den ich brauche, um zu zählen... Also ich möchte wissen, wie viele 'true' und
1
Antworten
Traf ich ein sehr sehr seltsames problem. Die Reduzierstücke Arbeit tun, aber wenn ich überprüfen Sie die Ausgabe-Dateien, ich fand nur die Ausgabe von den Mappern. Wenn ich versuche zu Debuggen, fand ich das gleiche problem mit