Apache Spark: Unterschiede zwischen client und cluster bereitstellen Modi

TL;DR: In einem Spark-Standalone-cluster, was sind die Unterschiede zwischen client und cluster bereitstellen Modi? Wie kann ich einstellen, in welchem Modus meine Anwendung ausgeführt wird, auf?

Haben wir einen Funken Standalone-cluster mit drei Computern, alle mit Spark 1.6.1:

Eine master-Maschine, die auch ist, wo unsere Anwendung ausführen, verwenden spark-submit
2 identische Arbeiter Maschinen

Aus der Spark-Dokumentation, ich lese:

(...) Für die standalone-Cluster, Funke unterstützt aktuell zwei Modi bereitstellen. Im client-Modus, der Treiber gestartet wird, in dem gleichen Prozess wie der client, sendet die Anwendung. Im cluster-Modus, allerdings ist der Fahrer startete von einem der Worker-Prozesse innerhalb des Clusters, und der client-Prozess beendet sich, sobald es erfüllt seine Verantwortung der Einreichung des Antrags, ohne zu warten, für die Anwendung fertig zu stellen.

Jedoch ich don ' T wirklich verstehen die praktischen Unterschiede hier Lesen, und ich verstehe nicht, was sind die vor-und Nachteile der verschiedenen Modi bereitstellen.

Außerdem, wenn ich meine Anwendung mit den start-reichen, auch wenn ich die Eigenschaft spark.submit.deployMode zu "cluster", die Funke-UI für meinen Kontext zeigt den folgenden Eintrag:

Apache Spark: Unterschiede zwischen client und cluster bereitstellen Modi

So, ich bin nicht in der Lage zu testen, in beiden Modi finden Sie in der praktischen Unterschiede. Dass gesagt wird, meine Fragen sind:

1) Was sind die praktischen Unterschiede zwischen Spark-Standalone client bereitstellen-Modus und cluster bereitstellen-Modus? Was sind die pro 's und con' s der mit jedem?

2) Wie kann ich auswählen, welches meine Anwendung wird ausgeführt, mit spark-submit?

InformationsquelleAutor Daniel de Paula | 2016-05-04

apache-spark apache-spark-standalone

52

Was sind die praktischen Unterschiede zwischen Spark-Standalone-client
bereitstellen-Modus und cluster-Modus bereitstellen? Was sind die pro 's und con' s von
mit jeder?

Lassen Sie uns versuchen, die Unterschiede zwischen client-und cluster-Modus.

Client:
- Treiber läuft auf einem dedizierten server (Master-Knoten) in einem dedizierten Prozess. Das bedeutet, es hat alle verfügbaren Ressourcen verfügen, um das ausführen von Arbeit.
- Fahrer öffnet eine spezielle Netty HTTP server und verteilt die angegebenen JAR-Dateien für alle Worker-Knoten (großer Vorteil).
- Weil der Master-Knoten hat eine dedizierte Ressourcen von selbst, Sie brauchen nicht zu "konsumieren" Arbeitskraft-Ressourcen für die Treiber-Programm.
- Wenn der Fahrer den Prozess stirbt, müssen Sie ein externes monitoring-system, um es zurückzusetzen Ausführung.
Cluster:
- Treiber läuft auf einem der cluster-Worker-Knoten. Der worker wird gewählt, indem die Master-leader
- - Treiber wird als engagierter, eigenständiger Prozess innerhalb der Arbeiter.
- Treiber-Programme nimmt mindestens 1 Kern und einer dedizierten Arbeitsspeicher von einem der Arbeiter (dies kann konfiguriert werden).
- Treiber-Programm überwacht werden können von dem Master-Knoten mithilfe der --supervise Flagge und zurückgesetzt werden, falls es stirbt.
- Bei der Arbeit im Cluster-Modus werden alle Gläser mit der Ausführung Ihrer Anwendung benötigt werden, öffentlich zugänglich für alle Arbeitnehmer. Das bedeutet, Sie können entweder manuell legen Sie Sie in einem gemeinsamen Ort oder in einem Ordner für jeden der Arbeiter.
Welches ist besser? Nicht sicher, das ist eigentlich für Sie, zu Experimentieren und entscheiden. Dies ist keine bessere Entscheidung hier erhalten Sie Dinge, die von den ersteren und letzteren, es ist bis zu Ihnen, um zu sehen, welcher funktioniert besser für Ihren Anwendungsfall.

Wie ich wählen, welche meine Anwendung wird ausgeführt
mit spark-submit

Den Weg zu wählen, welcher Modus ausgeführt, ist die Verwendung des --deploy-mode Flagge. Aus der Spark-Konfiguration Seite:
```
/bin/spark-submit \
  --class <main-class>
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  ... # other options
  <application-jar> \
  [application-arguments]
```
- Etwas, das ich bemerkt habe, ist, dass der Fahrer muss Zugang zu den Daten als gut, obwohl es nicht etwas zu tun mit diesem. Also, wenn Sie eine Datei-system hält einige Dateien, die Sie benötigen, dieselben Dateien sowohl auf der Treiber-Knoten und auch auf dem cluster.
- Welchen Modus beziehen Sie sich?
- Im Client-Modus.
- Im client-Modus, wenn Sie ausführen, die Fahrer aus Ihren Master-Knoten, dann sind Sie sicher, dass der master-Knoten müssen alle Dateien zur Verfügung, da er den Beginn Ihrer SparkContext.
- Nicht nur vom Master-Knoten, Wenn ich ausgehend von einem Knoten vollständig außerhalb des Clusters, die es immer noch erwartet, dass die Dateien zugänglich sein aus dem Treiber.
- Du hast Recht, der Master-Knoten war nur ein Beispiel.
- Wissen Sie, warum der Treiber erwartet, dass die Daten vorhanden sein, mit sich selbst auch? Weil ich fand, dass es am Ende nicht etwas zu tun mit es erwartet aber trotzdem die Daten.
- Da der Treiber ist die eine Initialisierung der SparkContext ist, muss er den code selbst zu präsentieren, wie Sie sonst den job anzufangen?
- Ich Rede über die Daten. Treiber erwartet, dass Sie den code, und das ist in Ordnung. Aber warum tut man es erwarten, dass die Daten der Fahrer als auch (im Falle einer Datei-system-Datei)?
- Lassen Sie uns weiterhin diese Diskussion im chat.
- Was tun Sie Jungs, die meinen, durch "Treiber erwartet, dass die Daten, die anwesend zu sein in sich selbst" ? Ich bin mit einem single-node-setup, so dass es heißt, ich sollte die Daten in das setup selbst, richtig ? es sollte nicht auf einem externen Speicherort. Bin ich richtig ?? @YuvalItzchakov
InformationsquelleAutor Yuval Itzchakov
1

Ich bin auch mit dem gleichen Szenario, hier master-Knoten verwenden Sie ein standalone-ec2-cluster. In diesem setup-client-Modus geeignet ist. In diesem Treiber gestartet wird direkt in der Funke-submit-Prozess fungiert als client zu cluster. Input & output der Applikation wird an der Konsole.Somit ist dieser Modus eignet sich besonders für Anwendungen, bei denen REPL.

Anderes, wenn Ihr Antrag von einem Computer, weit entfernt von dem Arbeiter Maschinen und dann ist es durchaus üblich, in den cluster-Modus zu minimieren, die Netzwerk-Latenz b/w-Treiber & executor.

InformationsquelleAutor jeevan kishore
1

Angenommen, Sie führen ein Funke reichen in EMR-by-doing SSH auf den master-Knoten.
Wenn Sie die option --deploy-Modus-cluster, dann werden folgende Dinge passieren.
1. Sie nicht in der Lage, um zu sehen, die ausführlichen Protokolle in der Klemme.
2. Da der Treiber nicht erstellt, in der der Meister selbst, Sie werden nicht in der Lage zu beenden, den job aus der Klemme.
Aber im Falle von-deploy-client-Modus:
1. Werden Sie in der Lage, um zu sehen, die ausführlichen Protokolle in der Klemme.
2. Sie werden in der Lage sein, zu kündigen, den job aus dem terminal selbst.
Diese sind die grundlegenden Dinge, die ich bemerkt habe, bis jetzt.

InformationsquelleAutor Suman Sushovan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.