Hadoop, Hive, Pig, HBase, Cassandra - Wann benutzen Sie was?

Zunächst einmal bin ich relativ neu an Big Data und Hadoop-Welt und ich habe gerade begonnen, ein wenig Experimentieren mit der Hortonworks-Sandbox (Pig-und Hive-so weit).
Ich Frage mich, in welchen Fällen könnte ich die oben genannten tools von Hadoop, Hive, Pig, HBase und Cassandra?

In meiner sandbox-Umgebung mit einer Datei von knapp 9MB Hive und Pig hatte die Reaktionszeiten von Sekunden bis Minuten. Dies ist natürlich nicht verwendbar, in einigen Situationen, zum Beispiel web-Anwendungen (es sei denn, es ist etwas wie meine virtuelle Maschine setup).

Meine Vermutungen über die korrekte Verwendungen sind:

  • Hadoop: Nur die technologische Basis für den rest, nur sehr wenige Anwendungsfälle wo es direkt verwendet werden
  • Hive oder Pig: Für analytische Prozesse, die ausgeführt werden, einmal pro Stunde oder Tag
  • HBase oder Cassandra: für Echtzeit-Anwendungen (z.B. web-Anwendungen), wo die response-Zeiten mit 100 MS oder weniger erforderlich sind

Darüber hinaus, wenn die Verwendung von HBase als Gegensatz zu, wenn für Cassandra?

Dank!

InformationsquelleAutor Daniel | 2014-01-29
Schreibe einen Kommentar