Wie funktioniert Hadoop-Prozess zeichnet split across block boundaries?

Entsprechend der Hadoop - The Definitive Guide

Den logischen Datensätze, die FileInputFormats definieren in der Regel nicht ordentlich passen in die HDFS-Blöcke. Zum Beispiel, ein TextInputFormat der logischen Datensätze sind Linien, auf denen die cross-HDFS-Grenzen mehr als oft nicht. Dies hat keinen Einfluss auf die Funktionalität des Programm—Zeilen sind nicht zu kurz oder defekt ist, zum Beispiel—aber es lohnt sich zu wissen, darüber, wie es bedeutet, dass die Daten-lokale Karten - (Karten, die laufen auf dem gleichen host wie Ihre input-Daten) führen einige remote liest. Die geringen overhead verursacht, ist in der Regel nicht signifikant.

Angenommen, ein Datensatz ist aufgeteilt in zwei Blöcke (b1 und b2). Der mapper die Verarbeitung des ersten Blocks (b1) feststellen, dass die Letzte Zeile nicht mit einem EOL-separator und holt sich den Rest von der Zeile aus dem nächsten block von Daten (b2).

Wie funktioniert der mapper der Bearbeitung des zweiten Blocks (b2) bestimmen, dass der erste Datensatz ist unvollständig und soll-Prozess ab dem zweiten Datensatz in dem block (b2)?

InformationsquelleAutor Praveen Sripati | 2013-01-12

Schreibe einen Kommentar