Hadoop auf cassandra-Datenbank
Bin ich mit Cassandra zum speichern meiner Daten und Struktur zum verarbeiten meiner Daten.
Ich habe 5 Maschinen, auf denen habe ich cassandra und 2 Maschinen, die ich als analytics-Knoten(wo hive läuft)
So möchte ich Fragen, ist nicht hive tun Karte reduzieren auf nur zwei Maschinen(Analytik Knoten) und bringt Daten gibt, oder es bewegt sich der Prozess/Berechnung, um 5 cassandra Knoten und verarbeiten/berechnen der Daten, die auf diesen Maschinen.(Was ich weiß, ist in hadoop -, Prozess bewegt Daten, die nicht Daten zu verarbeiten).
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn Sie daran interessiert zu heiraten, Hadoop und Cassandra - der erste link sollte DataStax Firma, die gebaut, um dieses Konzept. http://www.datastax.com/
Sie baute und Unterstützung von hadoop mit HDFS ersetzt mit cassandra.
In meinem besten Verständnis - Sie haben Daten Ort:http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/
Es ist eine gute Antwort, Hadoop & Cassandra-Daten Ort, wenn Sie führen Sie MapReduce gegen cassandra
Cassandra und MapReduce - minimal-setup, Anforderungen
Bezogen auf deine Frage - es ist ein tradeof:
a) Wenn Sie Hadoop /Hive auf einem separaten Knoten, lösen Sie Daten-Lokalität und davon Ihre Daten Durchsatz ist begrenzt durch die Bandbreite Ihres Netzwerks.
b) Wenn Sie hadoop /Hive auf dem gleichen Knoten wie cassandra läuft - können Sie die Daten Lokalität aber MapReduce-Verarbeitung hinter hive-Abfragen könnte clogg Ihrem Netzwerk (und andere Ressourcen) und daraus Auswirkungen auf Ihre service-Qualität von cassandra.
Mein Vorschlag wird es sein, über separaten hive nodes, wenn die Leistung Ihrer cassandra-cluster von entscheidender Bedeutung sind.
Wenn Ihr cassandra ist hauptsächlich als Daten speichern und verarbeiten keine Echtzeit-Anforderungen - ausführen von hive auf jedem Knoten wird die Leistung verbessert und die hardware-Auslastung.