Wie funktioniert Hadoop-Prozess zeichnet split across block boundaries?

Entsprechend der Hadoop - The Definitive Guide

Den logischen Datensätze, die FileInputFormats definieren in der Regel nicht ordentlich passen in die HDFS-Blöcke. Zum Beispiel, ein TextInputFormat der logischen Datensätze sind Linien, auf denen die cross-HDFS-Grenzen mehr als oft nicht. Dies hat keinen Einfluss auf die Funktionalität des Programm—Zeilen sind nicht zu kurz oder defekt ist, zum Beispiel—aber es lohnt sich zu wissen, darüber, wie es bedeutet, dass die Daten-lokale Karten - (Karten, die laufen auf dem gleichen host wie Ihre input-Daten) führen einige remote liest. Die geringen overhead verursacht, ist in der Regel nicht signifikant.

Angenommen, ein Datensatz ist aufgeteilt in zwei Blöcke (b1 und b2). Der mapper die Verarbeitung des ersten Blocks (b1) feststellen, dass die Letzte Zeile nicht mit einem EOL-separator und holt sich den Rest von der Zeile aus dem nächsten block von Daten (b2).

Wie funktioniert der mapper der Bearbeitung des zweiten Blocks (b2) bestimmen, dass der erste Datensatz ist unvollständig und soll-Prozess ab dem zweiten Datensatz in dem block (b2)?

InformationsquelleAutor Praveen Sripati | 2013-01-12

151

Interessante Frage, ich verbrachte einige Zeit auf der Suche nach dem code für die details und hier sind meine Gedanken. Die splits sind vom Kunden bearbeitet von InputFormat.getSplits, so dass Sie einen Blick auf FileInputFormat gibt folgende info:
- Für jede input-Datei, der Datei-Größe, block-Größe und berechnen Sie die split-Größe, wie max(minSize, min(maxSize, blockSize)) wo maxSize entspricht mapred.max.split.size und minSize ist mapred.min.split.size.
- Teilen Sie die Datei in verschiedene FileSplits, basierend auf dem split-Größe, die oben berechnet. Was hier wichtig ist, dass jeder FileSplit wird initialisiert mit einer start parameter entsprechend der offset in der input-Datei. Es gibt noch keine Behandlung, die Linien an diesem Punkt. Der relevante Teil des Codes sieht wie folgt aus:
```
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
  int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
  splits.add(new FileSplit(path, length-bytesRemaining, splitSize, 
                           blkLocations[blkIndex].getHosts()));
  bytesRemaining -= splitSize;
}
```
Danach, wenn man sich die LineRecordReader die definiert ist durch die TextInputFormat ist, wo die Linien behandelt werden:
- Wenn Sie initialisieren Sie Ihre LineRecordReader es zu instanziieren versucht eine LineReader was ist eine Abstraktion, die in der Lage sein zu Lesen Zeilen über FSDataInputStream. Es gibt 2 Fälle:
- Wenn es ein CompressionCodec definiert, dann wird dieser codec ist verantwortlich für den Umgang mit Grenzen. Wahrscheinlich nicht relevant für Ihre Frage.
- Wenn es keine codec allerdings, das ist, wo die Dinge sind interessant: wenn die start Ihrer InputSplit ist anders als 0, dann werden Sie backtrack 1 Zeichen und dann das überspringen der ersten Zeile, der Sie begegnen, gekennzeichnet durch \n oder \r\n (Windows) ! Der backtrack ist wichtig, weil im Falle Ihrer Linie Grenzen sind die gleichen wie split-Grenzen, dies gewährleistet, dass Sie nicht überspringen Sie die gültigen Zeile. Hier ist der relevante code:
```
if (codec != null) {
   in = new LineReader(codec.createInputStream(fileIn), job);
   end = Long.MAX_VALUE;
} else {
   if (start != 0) {
     skipFirstLine = true;
     --start;
     fileIn.seek(start);
   }
   in = new LineReader(fileIn, job);
}
if (skipFirstLine) {  //skip first line and re-establish "start".
  start += in.readLine(new Text(), 0,
                    (int)Math.min((long)Integer.MAX_VALUE, end - start));
}
this.pos = start;
```
So, da die Teilungen entsprechen den Clients, die Mapper müssen nicht nacheinander ablaufen, jeder mapper weiß schon, wenn er neds zu verwerfen, die erste Zeile ist oder nicht.

Also im Grunde, wenn Sie haben 2 Zeilen mit jeweils 100 MB in der gleichen Datei, und zur Vereinfachung nehmen wir an, der split size ist 64 MB. Dann, wenn die input-splits berechnet werden, haben wir das folgende Szenario:
- Split 1 enthält den Pfad und den Gastgebern, um diese zu blockieren. Initialisiert beim start 200-200=0Mb, Länge 64 MB.
- Split 2 initialisiert beim start 200-200+64=64Mb, Länge 64 MB.
- Split 3 initialisiert beim start 200-200+128=128 MB, Länge 64 MB.
- Split 4 initialisiert beim start 200-200+192=192Mb, Länge 8Mb.
- Ein Mapper verarbeitet die split 1, start ist 0, also nicht überspringen erste Zeile, und Lesen Sie die vollständige Linie, die geht über die 64Mb Grenze, so muss das remote Lesen.
- Mapper B Prozess-split 2, start ist != 0, so überspringen Sie die erste Zeile nach der 64Mb-1byte, das entspricht dem Ende von Linie 1 auf 100Mb die ist immer noch in split 2, wir haben 28 MB zum speichern der Zeile, in split 2, so dass remote-Lesen der restlichen 72Mb.
- Mapper C verarbeiten split 3, start ist != 0, so überspringen Sie die erste Zeile nach 128Mb-1byte, das entspricht dem Ende der Linie 2 bei 200 MB, das ist das Ende der Datei also tun wir nichts.
- Mapper D ist die gleiche wie mapper C außer es sucht nach einem newline nach 192Mb-1byte.
Auch @PraveenSripati es ist erwähnenswert, dass die Grenzfälle, wo eine Grenze wäre bei \r in ein \r\n return behandelt werden, in der LineReader.readLine Funktion, ich glaube nicht, dass es relevant ist, um Ihre Frage, aber können Sie mehr details hinzufügen, wenn nötig.
Nehmen wir an es gibt zwei Linien mit genauen 64MB in der Eingabe-und so die InputSplits passiert genau bei der Zeile Grenzen. So, der mapper immer ignorieren die Linie, im zweiten block starten, weil != 0.
In diesem Fall ist der zweite mapper werden sehen, beginnen Sie != 0, so backtrack 1 Zeichen, das bringt Sie zurück, nur vor dem \n in der ersten Zeile und dann das überspringen von bis zu folgenden \n". So wird es überspringen der ersten Zeile, aber der Prozess in der zweiten Zeile als erwartet.
ist es möglich, dass die erste Zeile der Datei wird übersprungen, irgendwie? Konkret, ich habe die erste Zeile mit key=1, und Wert a, dann gibt es zwei weitere Linien mit dem gleichen Schlüssel irgendwo in der Datei, key=1, val=b und die Taste=1, val=c. Die Sache ist die, meine reducer erhält {1, [b,c]} und {1, [a]} anstelle von {1, [a,b,c]}. Dies geschieht nicht, wenn ich hinzufügen neue Zeile an den Anfang meiner Datei. Was könnte der Grund sein, Sir?
Was ist, wenn die Datei in HDFS ist ein Binär - Datei (im Gegensatz zu text-Datei, in der \r\n, \n stellt Rekord abschneiden)?

InformationsquelleAutor Charles Menguy
15

Karte Reduzieren Algorithmus funktioniert nicht auf physischen Blöcke der Datei. Es funktioniert auf der logischen input-splits. Input-split hängt davon ab, wo der Datensatz geschrieben wurde. Ein Datensatz kann über zwei Mapper.

Den Weg HDFS eingerichtet wurde, bricht es, sehr große Dateien in großen Blöcken (Z. B. mess-128MB), und speichert drei Kopien von diesen Blöcken, die auf verschiedenen Knoten im cluster.

HDFS hat kein Bewusstsein für die Inhalte dieser Dateien. Eine Aufzeichnung kann gestartet wurden in Block-ein, aber am Ende ist der Datensatz vorhanden sein können, Block-b.

Um dieses problem zu lösen, Hadoop verwendet eine logische Darstellung der Daten in einer Datei gespeicherte Blöcke, bekannt als Eingang teilt. Wenn Sie einen MapReduce-Auftrag-client berechnet die input splits, es zahlen, wo die erste ganze Platte, ein block beginnt und wo Sie den letzten Datensatz im block endet.

Der entscheidende Punkt :

In Fällen, In denen Sie den letzten Datensatz in einem block ist unvollständig, die input-split enthält Informationen für den nächsten block und den byte-offset der Daten, die zur vollständigen Datensatz.

Haben Sie einen Blick auf unten Diagramm.

Haben Sie einen Blick auf diese Artikel und Verwandte SE Frage : Über Hadoop/HDFS-Datei-splitting

Können Sie mehr Lesen von Dokumentation

Den Map-reduce-framework stützt sich auf das InputFormat der job:
1. Validierung der input-Spezifikation des Auftrags.
2. Aufteilung der input-Datei(en) in logische InputSplits, jeder von denen ist dann jeweils von einem einzelnen Mapper.
3. Jeder InputSplit wird dann zugewiesen, um eine einzelne Mapper für die Verarbeitung. Aufgeteilt werden könnte Tupel. InputSplit[] getSplits(JobConf job,int numSplits) ist die API kümmern sich um diese Dinge.
FileInputFormat, die sich InputFormat umgesetzt getSplits () - Methode. Haben Sie einen Blick auf die Interna dieser Methode auf grepcode

InformationsquelleAutor Ravindra babu
7

Sehe ich es wie folgt: InputFormat verantwortlich ist, zum aufteilen der Daten in logische spaltet unter Berücksichtigung der Art der Daten.
Nicht daran gehindert, es zu tun, obwohl es kann zu einem erheblichen Latenz zu den job - all die Logik und Lesen Sie die gewünschte split-Größe Grenzen passieren, in den jobtracker.

Einfachste Aufzeichnung bewusst-input-format TextInputFormat. Es funktioniert wie folgt (so weit wie ich verstanden habe aus dem code) - Eingabe-format erstellen, spaltet sich nach der Größe, unabhängig von den Linien, aber LineRecordReader immer :

a) Überspringen der ersten Zeile in der split (oder einen Teil davon), wenn es nicht der erste split

b) Lesen einer Zeile nach der Grenze der split am Ende (wenn die Daten verfügbar, so ist es nicht der Letzte split).

Skip first line in the split (or part of it), if it is not the first split - wenn der erste Datensatz in nicht-ersten block abgeschlossen ist, dann ist nicht sicher, wie diese Logik funktioniert.
Soweit ich sehe, der code - jedes geteilte gelesen, was hat es + nächste Zeile. Also, wenn Zeilenumbruch ist nicht auf den block boundary - es ist ok. Wie genau behandelt den Fall, wenn der Zeilenumbruch wird exakt an den block gebunden verstanden werden - ich lese ein bisschen mehr code

InformationsquelleAutor David Gruzman
3

Von dem, was ich verstanden hab, wenn die FileSplit initialisiert wird für den ersten block, der default-Konstruktor aufgerufen wird. Deshalb werden die Werte für start und Länge gleich null sind, zunächst. Durch das Ende der Verarbeitung des Faust-block, der, wenn die Letzte Zeile unvollständig ist, dann wird der Wert der Länge wird größer sein als die Länge der split, und Lesen Sie die erste Zeile des nächsten block, wie gut. Aufgrund dieser dem Wert der start für den ersten block größer sein wird als null, und unter dieser Bedingung, die LineRecordReader überspringen die erste Zeile des zweiten Blocks. (Siehe Quelle)

Im Falle der letzten Zeile des ersten Blocks abgeschlossen ist, dann wird der Wert der Länge ist gleich der Länge des ersten Blocks und der Wert der start für den zweiten block wird gleich null sein. In diesem Fall wird die LineRecordReader wird nicht überspringen der ersten Zeile und Lesen Sie den zweiten block bilden den Anfang.

Sinn macht?

In diesem Szenario werden die Mapper haben, um miteinander zu kommunizieren und verarbeiten der Blöcke in der Reihenfolge, wenn die Letzte Zeile in einem bestimmten block nicht komplett ist. Nicht sicher, ob dies ist die Art, wie es funktioniert.

InformationsquelleAutor aa8y
1

Vom hadoop-source-code von LineRecordReader.java Konstruktor: ich finde einige Kommentare :
```
//If this is not the first split, we always throw away first record
//because we always (except the last split) read one extra line in
//next() method.
if (start != 0) {
  start += in.readLine(new Text(), 0, maxBytesToConsume(start));
}
this.pos = start;
```
von diesem ich glaube, hadoop Lesen wird eine zusätzliche Zeile für jede Teilung(am Ende der aktuellen split, Lesen die nächste Zeile in die nächste split), und wenn nicht die erste Trennung, die erste Zeile wegwerfen. so, dass keine Linie Datensatz verloren und unvollständig

InformationsquelleAutor Shenghai.Geng
0

Den Mapper nicht haben, um zu kommunizieren. Die Datei-Blöcke im HDFS und können die aktuellen mapper(RecordReader) Lesen kann der block, dass der restliche Teil der Strecke. Dies geschieht hinter den kulissen.

InformationsquelleAutor user3507308

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.