Wie zu vermeiden OutOfMemoryException beim ausführen von Hadoop?

Bin ich mit einem Hadoop-job über 1,5 TB an Daten mit viel pattern-matching. Ich habe mehrere Maschinen mit 16GB RAM, und ich bekomme immer OutOfMemoryException auf diesen job mit diesen Daten (ich bin mit Hive).

Ich würde gerne wissen, wie Sie optimal setzen Sie die option HADOOP_HEAPSIZE im Datei - hadoop-env.sh so, mein job würde das nicht scheitern. Ist es überhaupt möglich, setzen Sie diese option, damit meine Arbeit nicht scheitern?

Wenn ich HADOOP_HEAPSIZE zu 1,5 GB und entfernt die Hälfte der pattern-matching von query, Auftrag erfolgreich ausgeführt. Also, was ist diese option für, wenn es nicht hilft, die Vermeidung von job-Ausfälle?

Ich ment, um mehr tun, das Experimentieren mit optimalen setup, aber da diese jobs nehmen >10hr zu führen, bitte ich um euren Rat.

InformationsquelleAutor der Frage wlk | 2010-08-01

Schreibe einen Kommentar