Was ist die Beziehung zwischen Spark, Hadoop und Cassandra
Mein Verständnis war, dass die Funke ist eine alternative zu Hadoop. Jedoch, wenn Sie versuchen zu installieren Funke, der Seite installation fragt nach einer bestehenden Hadoop-installation. Ich bin nicht in der Lage, etwas zu finden, die verdeutlicht, dass Beziehung.
Zweitens, Spark hat offenbar gute verbindungen zu Cassandra und Hive. Beide haben sql-Stil-Schnittstelle. Aber Funke hat seinen eigenen sql. Warum sollte man Cassandra/Hive statt Spark native sql? Unter der Annahme, dass dies ist ein Marke neues Projekt mit keine vorhandene installation?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Funke ist eine verteilte in-memory-processing-engine. Es muss nicht gekoppelt werden mit Hadoop, aber da Hadoop ist eine der beliebtesten big-data-processing-tools, Funke ist entworfen, um gut zu funktionieren in dieser Umgebung. Zum Beispiel Hadoop nutzt das HDFS (Hadoop Distributed File System) zum speichern von Daten, so Funke ist in der Lage, Lesen von Daten aus HDFS, und zum speichern der Ergebnisse im HDFS.
For speed, Funke hält seine Daten im Speicher. Es wird in der Regel beginnen Sie eine Aufgabe durch laden von Daten aus dem dauerhaften Speicher, wie HDFS, Hbase, eine Cassandra Datenbank, etc. Einmal in den Speicher geladen, Funke können viele Transformationen auf den Daten-Satz zu berechnen, dass das gewünschte Ergebnis erzielt. Das Endergebnis ist dann in der Regel zurück geschrieben dauerhaften Speicher.
In Bezug auf die es als alternative zu Hadoop, kann es viel schneller als Hadoop zu bestimmten Operationen. Zum Beispiel ein multi-pass-Karte reduzieren-Vorgang kann wesentlich schneller Funken als mit Hadoop, map reduzieren, da die meisten der Festplatten-I/O von Hadoop ist zu vermeiden. Funke Lesen können formatierte Daten für Apache Hive, so Funke SQL wesentlich schneller als mit HQL (Hive Query Language).
Cassandra hat seinen eigenen native query language (CQL (Cassandra Query Language), aber es ist nur eine kleine Teilmenge der vollständigen SQL und ist ganz schlecht für Dinge wie aggregation und ad-hoc-Abfragen. Also, wenn der Funke gepaart mit Kassandra, es bietet mehr feature-rich-query language und ermöglicht es Ihnen, zu tun, Daten-Analysen, native CQL nicht stellen.
Anderen Anwendungsfall für die Funke ist für die stream-Verarbeitung. Funken können so eingerichtet werden, Einlesen der eingehenden Daten in Echtzeit und verarbeiten es in Kleinst-Chargen, und speichern Sie dann das Ergebnis auf den dauerhaften Speicher, wie HDFS, Cassandra, etc.
Also Funke ist wirklich eine eigenständige in-memory-system, die kombiniert werden mit vielen verschiedenen, verteilten Datenbanken und Dateisystemen hinzufügen Leistung, eine vollständige SQL-Implementierung, und Funktionen, die Sie vielleicht fehlt so ein stream processing.
Im schreiben ein Papier über Hadoop für die Universität. Und stolperte über Ihre Frage. Spark ist nur mithilfe von Hadoop für die Persistenz und nur, wenn Sie es verwenden möchten. Es ist möglich, verwenden Sie es mit anderen Persistenz-Schichten wie Amazon EC2.
Auf der anderen Seite mit der spark mit in-memory-und es ist nicht in Erster Linie zu bauen, um verwendet werden, für die map-reduce verwenden-Fällen wie Hadoop war/ist.
Kann ich nur empfehlen, dieser Artikel, wenn Sie eine mehr detaillierte Beschreibung: https://www.xplenty.com/blog/2014/11/apache-spark-vs-hadoop-mapreduce/
In der README.md-Datei in Spark lösen Ihre Rätsel: