Sortieren eine riesige text-Datei mit hadoop

Ist es möglich, zu Sortieren, eine riesige text-Datei lexikographisch mit einem mapreduce-job die einzige Karte, Aufgaben und keine Aufgaben reduzieren?

Datensätze der Textdatei getrennt durch ein neue-Zeile-Zeichen und die Größe der Datei ist rund 1 Terra Byte.

Wird es groß sein, wenn jemand kann empfehlen, einen Weg zu erreichen Sortierung auf dieser riesigen Datei.

Gibt es einen Grund für die nicht wollen, haben einen reduzieren task?

InformationsquelleAutor Arun Vasu | 2013-02-15

3

Verwendet TreeSet Map Methode halten Sie sämtliche Daten in der input-split und bleiben es. Schließlich habe ich die sortierte Datei!
- Wenn Sie alle Metriken veröffentlichen Sie bitte, Sie wird hilfreich sein. Metriken wie ich) Zeit für die Sortierung (ii) cluster-Größe, iii) Knoten h/w Konfiguration.
- Wenn das möglich ist, dann Ihre Datei ist offenbar klein genug, um Sortieren im Speicher (das ist schwer zu vereinbaren mit der Aussage, dass es 1 TB--- wie viel RAM hat dein Rechner???). Wenn dem so ist, dann Glauben die (nicht-Hadoop -) Antwort am besten geeignet ist (weil Sie sind im wesentlichen mit Hadoop als do-nothing-wrapper rund um ein Programm, das besser funktionieren würde, ohne Hadoop). Wenn Sie planen, Sortieren, größere Datenmengen in der Zukunft, diese Methoden zu brechen, wenn die Dateien zu groß werden.
- Es bedeutet nicht, dass ich irgendwie die gesamte Datei, indem Sie Sie im Speicher. Ich verwendete Hadoop-APIs, teilen Sie die Datei als n die Anzahl der Stücke und Sortieren Sie individuell. In diesem Fall wird die Datenmenge, die im Arbeitsspeicher ist sehr klein in Anbetracht meiner hardware-Umgebung.
InformationsquelleAutor Arun Vasu
2

Es ist in der Tat eine Art Beispiel, der zusammen mit Hadoop. Können Sie sich, wie der Beispiel-code funktioniert mit der Prüfung der Klasse org.apache.hadoop.Beispiele.Sortieren. Dies an sich funktioniert ziemlich gut, aber wenn Sie wollen mehr Flexibilität mit Ihrer Art, Sie können überprüfen diese aus.
- Die down-stimmte das? Dies ist eine gute Antwort auf die Frage!
InformationsquelleAutor Amar
0

Sortierung in Hadoop ist mit einem Partitioner - schreiben Sie eine benutzerdefinierte Partitionierer zu Sortieren nach Ihren business-Logik benötigt. Bitte Lesen Sie diesen link, schreiben Sie eine benutzerdefinierte Partitionierer http://jugnu-life.blogspot.com/2012/05/custom-partitioner-in-hadoop.html

Ich nicht befürworten, Sortieren von terabytes von Daten unter Verwendung von plain-vanilla-linux-sort-Befehle - Sie müssen teilen Sie die Daten, um passen in den Speicher zum Sortieren von großen Dateien: Paralleles Sortieren in linux

Ist es besser und sinnvoller zu nutzen Hadoop MergeSort statt: Hadoop-MergeSort

Können Sie einen Blick auf einige Hadoop-Sortierung benchmarks und Analyse aus dem Yahoo Hadoop-team (jetzt Hortonworks) hier : Hadoop Sort-benchmarks
- Vielen Dank für Ihre wertvollen inputs. Ich habe versucht, die meisten von Ihnen und alle erforderlichen eine phase reduzieren. Ich war auf der Suche für eine Karte nur Sortieren, und ich habe es mithilfe von in-memory-Sortierung (Eliminiert schreiben über das Kontextmenü). Ich war in der Lage zu Sortieren 1TB große text-Datei, die eine Datenbank-dump und in der Lage zu generieren entsprechende HFiles unter 1.40 Stunden.
InformationsquelleAutor fjxx

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.