Was ist die Beziehung zwischen Spark, Hadoop und Cassandra

Mein Verständnis war, dass die Funke ist eine alternative zu Hadoop. Jedoch, wenn Sie versuchen zu installieren Funke, der Seite installation fragt nach einer bestehenden Hadoop-installation. Ich bin nicht in der Lage, etwas zu finden, die verdeutlicht, dass Beziehung.

Zweitens, Spark hat offenbar gute verbindungen zu Cassandra und Hive. Beide haben sql-Stil-Schnittstelle. Aber Funke hat seinen eigenen sql. Warum sollte man Cassandra/Hive statt Spark native sql? Unter der Annahme, dass dies ist ein Marke neues Projekt mit keine vorhandene installation?

InformationsquelleAutor Shahbaz | 2015-06-27

56

Funke ist eine verteilte in-memory-processing-engine. Es muss nicht gekoppelt werden mit Hadoop, aber da Hadoop ist eine der beliebtesten big-data-processing-tools, Funke ist entworfen, um gut zu funktionieren in dieser Umgebung. Zum Beispiel Hadoop nutzt das HDFS (Hadoop Distributed File System) zum speichern von Daten, so Funke ist in der Lage, Lesen von Daten aus HDFS, und zum speichern der Ergebnisse im HDFS.

For speed, Funke hält seine Daten im Speicher. Es wird in der Regel beginnen Sie eine Aufgabe durch laden von Daten aus dem dauerhaften Speicher, wie HDFS, Hbase, eine Cassandra Datenbank, etc. Einmal in den Speicher geladen, Funke können viele Transformationen auf den Daten-Satz zu berechnen, dass das gewünschte Ergebnis erzielt. Das Endergebnis ist dann in der Regel zurück geschrieben dauerhaften Speicher.

In Bezug auf die es als alternative zu Hadoop, kann es viel schneller als Hadoop zu bestimmten Operationen. Zum Beispiel ein multi-pass-Karte reduzieren-Vorgang kann wesentlich schneller Funken als mit Hadoop, map reduzieren, da die meisten der Festplatten-I/O von Hadoop ist zu vermeiden. Funke Lesen können formatierte Daten für Apache Hive, so Funke SQL wesentlich schneller als mit HQL (Hive Query Language).

Cassandra hat seinen eigenen native query language (CQL (Cassandra Query Language), aber es ist nur eine kleine Teilmenge der vollständigen SQL und ist ganz schlecht für Dinge wie aggregation und ad-hoc-Abfragen. Also, wenn der Funke gepaart mit Kassandra, es bietet mehr feature-rich-query language und ermöglicht es Ihnen, zu tun, Daten-Analysen, native CQL nicht stellen.

Anderen Anwendungsfall für die Funke ist für die stream-Verarbeitung. Funken können so eingerichtet werden, Einlesen der eingehenden Daten in Echtzeit und verarbeiten es in Kleinst-Chargen, und speichern Sie dann das Ergebnis auf den dauerhaften Speicher, wie HDFS, Cassandra, etc.

Also Funke ist wirklich eine eigenständige in-memory-system, die kombiniert werden mit vielen verschiedenen, verteilten Datenbanken und Dateisystemen hinzufügen Leistung, eine vollständige SQL-Implementierung, und Funktionen, die Sie vielleicht fehlt so ein stream processing.
- Fantastische Antwort! Auf der Hive vs Spark SQL-front kann es aufschlussreich zu erwähnen, dass Hive ist in den Prozess der Annahme Funke als seine Ausführung backend (als alternative zu MapReduce). Ich glaube, an diesem Punkt der Unterschied zwischen Stock und Spark SQL wird nur die Ausführung der Abfrage Planer Umsetzung.
- Ich war der Annahme, dass Spark RDDs in HDFS gespeichert sind, und dass es wahrscheinlich nutzt hadoop ist Tierpfleger und andere Infrastruktur. Sie scheinen (@Jim Meyer) scheinen zu implizieren, dass spark keine harte Abhängigkeit und der Funke hat seine eigenen gegen-Teile zu den Komponenten?
- Auch, immer wieder lese ich über die Funke ein in-memory-system. Ich bin auf der Suche auf ein system, um rund zwei terra-Byte (komprimiert) Daten jeden Tag. Es gibt keine Weise, die ich halten, halten Sie in Erinnerung, auch wenn Sie mit einem cluster von Computern. Wenn ich brauchen, um Platten zu spielen, wo bleiben spark? Es tut verlieren Ihre Kante über hadoop/cassandra/hive oder haben Sie überhaupt etwas zu bieten?
- Spark mag eine Menge Speicher, mit zu arbeiten. Wenn Ihr die Daten nicht alle passen in den Speicher, Funken haben, entfernen Sie einige Daten aus dem Speicher, was natürlich die Leistung reduzieren. Zu verarbeiten 2 TB/Tag, würden Sie in der Regel brechen Sie in kleinere Verarbeitung von Abschnitten als einen Tag (z.B. eine Stunde in einer Zeit, etc.)
InformationsquelleAutor Jim Meyer
3

Im schreiben ein Papier über Hadoop für die Universität. Und stolperte über Ihre Frage. Spark ist nur mithilfe von Hadoop für die Persistenz und nur, wenn Sie es verwenden möchten. Es ist möglich, verwenden Sie es mit anderen Persistenz-Schichten wie Amazon EC2.

Auf der anderen Seite mit der spark mit in-memory-und es ist nicht in Erster Linie zu bauen, um verwendet werden, für die map-reduce verwenden-Fällen wie Hadoop war/ist.

Kann ich nur empfehlen, dieser Artikel, wenn Sie eine mehr detaillierte Beschreibung: https://www.xplenty.com/blog/2014/11/apache-spark-vs-hadoop-mapreduce/
- schöner Artikel. Sie erwähnen, dass spark laufen kann im stand-alone-Modus. jedoch, Ihre eigenen download-Seite nicht geben mir, dass option. das ist, was begann die Verwirrung. alle download-Optionen Referenz-hadoop!
- Sie erwähnen auch, dass Funke sollte den Arbeitsspeicher gleich die Daten verarbeitet werden. allerdings Funken die Zielseite Ansprüche 10x Verbesserung gegenüber hadoop für disk-basierende verarbeitet (100x für memory-based). haben Sie feststellen, dass Sie etwas Interessantes zu bieten für disk-basierte Daten-wie auch? für große Datenmengen, haben Sie eine alternative zu hdfs?
- ich weiß, es ist ein bisschen spät für die Antwort, aber ich war gestresst. Mein Thema war mehr die hadoop-Seite und der Funke war einfach aufspringen, also ich bin nicht wirklich sicher, ob es das laden der gesamten Daten in den Speicher, oder wenn es nur laden teilen, aber ich denke, der zweite Punkt ist mehr zumutbar ist. In Bezug auf mein Fazit ich denke, Sie brauchen nicht die gleiche Menge an Speicher für den Speicher, aber Sie brauchen eine Menge. Ich denke, es ist interessant, zu nehmen einen näheren Blick auf dieses Thema.
InformationsquelleAutor sascha10000
0

In der README.md-Datei in Spark lösen Ihre Rätsel:

Einen Hinweis Über Die Hadoop-Versionen

Spark verwendet das Hadoop core-Bibliothek zu sprechen HDFS und andere Hadoop-unterstützt
storage-Systeme. Da die Protokolle geändert haben verschiedene Versionen von
Hadoop, müssen Sie bauen, Funken mit der gleichen version, dass der cluster läuft.

Entnehmen Sie bitte den build-Dokumentation
"Die Angabe der Hadoop-Version"
für detaillierte Informationen, Gebäude für eine bestimmte distribution von Hadoop, einschließlich
Gebäude, die für eine Besondere Hive und Hive Thriftserver Distributionen.

InformationsquelleAutor puppylpg

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Einen Hinweis Über Die Hadoop-Versionen