Hadoop MapReduce vs MPI (vs Spark vs Mahout vs Sofort) - Wann verwendet man einen über den anderen?

Ich bin neu auf parallel-computing und nur ab und zu versuchen, MPI und Hadoop+MapReduce auf Amazon AWS. Aber ich bin verwirrt darüber, Wann eine über die andere.

Beispielsweise eine Allgemeine Faustregel Rat, den ich sehen, kann wie folgt zusammengefasst werden...

  • Big data, nicht-iterative, fault tolerant => MapReduce
  • Geschwindigkeit, kleine Daten, iterativen, nicht-Mapper-Reducer type => MPI

Aber dann sehe ich auch, Implementierung von MapReduce auf MPI ( MR-MPI ), die keine Fehlertoleranz, aber scheint effizienter auf einige benchmarks als MapReduce auf Hadoop, und scheint zu behandeln, big data, out-of-core-memory.

Umgekehrt gibt es aber auch MPI-Implementierungen (MPICH2-GARN) auf neue generation von Hadoop-Garn mit seiner distributed file system (HDFS).

Außerdem scheint es zu sein Bestimmungen im MPI (Scatter-Gather, Checkpoint-Neustart, ULFM und andere Fehlertoleranz), die nachahmen einige features von MapReduce-Paradigma.

Und wie funktioniert Mahout, Sofort und Funken passen alles?

Welche Kriterien können verwendet werden, wenn die Entscheidung zwischen (oder combo) Hadoop MapReduce, MPI, Sofort, Funke und Mahout?

  • möglich dup stackoverflow.com/questions/1530490/... ?
  • Ich habe gelesen, dass die q&a vor der Buchung mine. Dort werden Sie sehen, dass für jede Antwort gepostet, es gibt Kommentare die sagen, dass die Antwort ist nicht korrekt. Nehmen Sie die erste Antwort, zum Beispiel. Es sind Finite-Elemente-Implementierungen mit MapReduce 1, 2.
  • Nachdem ich gebeten hatte, diese Frage, stieß ich auf ein paar mehr Optionen (um die Verwirrung hinzuzufügen) - wie Akka, die scheinen nicht beschränkt werden ", die offensichtlich parallel" - Szenarien wie MapReduce, aber auch nicht fehlertolerant und haben Bindungen für Infiniband (TCP) etc.
InformationsquelleAutor GuSuku | 2015-01-06
Schreibe einen Kommentar