Hadoop, Hive, Pig, HBase, Cassandra - Wann benutzen Sie was?
Zunächst einmal bin ich relativ neu an Big Data und Hadoop-Welt und ich habe gerade begonnen, ein wenig Experimentieren mit der Hortonworks-Sandbox (Pig-und Hive-so weit).
Ich Frage mich, in welchen Fällen könnte ich die oben genannten tools von Hadoop, Hive, Pig, HBase und Cassandra?
In meiner sandbox-Umgebung mit einer Datei von knapp 9MB Hive und Pig hatte die Reaktionszeiten von Sekunden bis Minuten. Dies ist natürlich nicht verwendbar, in einigen Situationen, zum Beispiel web-Anwendungen (es sei denn, es ist etwas wie meine virtuelle Maschine setup).
Meine Vermutungen über die korrekte Verwendungen sind:
- Hadoop: Nur die technologische Basis für den rest, nur sehr wenige Anwendungsfälle wo es direkt verwendet werden
- Hive oder Pig: Für analytische Prozesse, die ausgeführt werden, einmal pro Stunde oder Tag
- HBase oder Cassandra: für Echtzeit-Anwendungen (z.B. web-Anwendungen), wo die response-Zeiten mit 100 MS oder weniger erforderlich sind
Darüber hinaus, wenn die Verwendung von HBase als Gegensatz zu, wenn für Cassandra?
Dank!
Du musst angemeldet sein, um einen Kommentar abzugeben.
Deine Vermutungen sind etwas genauer.
Durch Hadoop, ich denke, Sie beziehen sich auf MapReduce? Hadoop als solche ist ein ökosystem, welches aus vielen Komponenten (einschließlich MapReduce, HDFS, Pig und Hive).
MapReduce ist gut, wenn Sie schreiben müssen, das die Logik für die Verarbeitung von Daten in der Map() und Reduce () - Methode Ebene. In meiner Arbeit, ich finde MapReduce sehr nützlich, wenn ich bin den Umgang mit Daten, die unstrukturiert & Bedürfnisse gereinigt werden.
Hive,Pig: Sie sind gut für batch-Prozesse, laufen in regelmäßigen Abständen (vielleicht in Stunden oder Tagen)
HBase & Cassandra: - Unterstützung low-latency nennt. So können Sie verwendet werden, für Echtzeit-Anwendungen, wo Reaktionszeit Schlüssel ist. Haben Sie einen Blick auf diese Diskussion, um eine bessere Vorstellung über HBase vs. Cassandra.