Apache Spark - foreach-Vs foreachPartitions, Wann, Was?

Ich würde gerne wissen, ob die foreachPartitions wird zu besserer Leistung führt, aufgrund einer höheren Ebene der Parallelität ist, im Vergleich zu den foreach - Methode unter Berücksichtigung der Fall, in denen ich bin, die durch einen RDD um einige Summen in eine Akkumulator-variable.

InformationsquelleAutor Beniamino Del Pizzo | 2015-05-27

20

foreach auto ausführen der Schleife auf vielen Knoten.

Aber manchmal möchte man einige Operationen auf jeden Knoten. Zum Beispiel, stellen Sie eine Verbindung zur Datenbank. Sie können nicht nur eine Verbindung, und übergeben es in die foreach Funktion: die Verbindung ist nur auf einem Knoten.

Also mit foreachPartition können Sie eine Verbindung zur Datenbank auf die einzelnen Knoten vor der Ausführung der Schleife.
- dies ist noch nicht pro Knoten, es ist pro partition. es kann viele mehr Partitionen als Knoten. Wenn Sie brauchen, ein Anschluss pro Knoten (eher pro JVM oder den container, in GARN AGB), müssen Sie eine andere Lösung.
- Haben Sie eine Idee, wie man eine einzige Klasse pro jvm und pro executer.
- Wenn mit Scala, eine Möglichkeit ist die Verwendung einer lazy val in einem Objekt oder einer Klasse, das wäre initialisiert, die in der JVM das erste mal ist es, auf die verwiesen wird. Aber das hat auch Nachteile, wenn Sie mehrere threads pro Testamentsvollstrecker müssen Sie vorsichtig sein, über das Objekt, das es Punkte zu thread-sicher. Es ist auch schwierig, pass runtime-Initialisierung params, wie Konfiguration, die für die Initialisierung.
InformationsquelleAutor Bin Wang
20

foreach und foreachPartitions Aktionen.

foreach(Funktion): Einheit

Eine generische Funktion für das aufrufen der Operationen mit Nebenwirkungen. Für jeden
element in der RDD, ruft es die Funktion übergeben . Das ist
in der Regel verwendet für die Manipulation von Akkumulatoren oder schreiben auf externe
speichert.

Hinweis: ändern von Variablen in anderen als Akkumulatoren außerhalb des foreach() möglicherweise nicht definiertes Verhalten zur Folge. Sehen Verständnis Verschlüsse für mehr details.

Beispiel :
```
scala> val accum = sc.longAccumulator("My Accumulator")
accum: org.apache.spark.util.LongAccumulator = LongAccumulator(id: 0, name: Some(My Accumulator), value: 0)

scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum.add(x))
...
10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s

scala> accum.value
res2: Long = 10
```
foreachPartition(Funktion): Einheit

Ähnlich foreach() , sondern Aufruf der Funktion für jede
element, er fordert es für jede partition. Die Funktion sollte in der Lage sein
zu akzeptieren einen iterator. Dies ist effizienter, als foreach() weil
es reduziert die Anzahl der Funktionsaufrufe (wie mapPartitions() ).

Nutzung von foreachPartition Beispiele:
- Beispiel1 : für jede partition eine Datenbank-Verbindung (Innerhalb der für jede partition-block), die Sie verwenden möchten, dann ist dies ein Beispiel, wie es getan werden kann, mit scala.
```
/** 
* Legen Sie in der Datenbank mit foreach-partition. 
* 
* @param sqlDatabaseConnectionString 
* @param sqlTableName 
*/
def insertToTable(sqlDatabaseConnectionString: String, sqlTableName: String): Unit = { 

//numPartitions = Anzahl gleichzeitiger DB-verbindungen können Sie planen, geben Sie 

datframe.neu partitionieren(numofpartitionsyouwant) 

val tableHeader: String = dataFrame.Spalten.mkString(",") 
dataFrame.foreachPartition { partition => 
//Hinweis : für Jede partition eine Verbindung (mehr bessere Weg ist die Verwendung von connection pools) 
val sqlExecutorConnection: Connection = DriverManager.getConnection(sqlDatabaseConnectionString) 
//Batch-Größe von 1000 verwendet, da einige Datenbanken verwenden können batch-Größe von mehr als 1000 für die ex : Azure sql 
partition.gruppiert(1000).foreach { 
group => 
val insertString: scala.Sammlung.veränderlich.StringBuilder = new scala.Sammlung.veränderlich.StringBuilder() 
Gruppe.foreach { 
Datensatz => insertString.append("('" + record.mkString(",") + "'),") 
} 

sqlExecutorConnection.createStatement() 
.executeUpdate(f"INSERT INTO [$sqlTableName] ($tableHeader) WERTE" 
+ insertString.stripSuffix(",")) 
} 


sqlExecutorConnection.close() //schließen der Verbindung, so dass verbindungen nicht erschöpfen. 
} 
} 
```
- Beispiel2 :
Nutzung von foreachPartition mit sparkstreaming (dstreams) und kafka producer
```
dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
//only once per partition You can safely share a thread-safe Kafka //producer instance.
    val producer = createKafkaProducer()
    partitionOfRecords.foreach { message =>
      producer.send(message)
    }
    producer.close()
  }
}
```
Hinweis:, Wenn Sie es vermeiden möchten, diese Möglichkeit zu schaffen, Produzent einmal pro partition, betterway ist die broadcast-Produzent mit
sparkContext.broadcast seit Kafka producer ist asynchron und
Puffer Daten stark, bevor Sie senden.

Akku-Proben snippet zu spielen, um mit ihm durch die...
Sie können testen, die Leistung
```
 - test("Foreach - Spark") { 
import spark.implicits._ 
var accum = sc.longAccumulator 
sc.parallelisieren(Seq(1,2,3)).foreach(x => accum.add(x)) 
assert(accum.Wert == 6L) 
} 

test("Foreach-partition - Spark") { 
import spark.implicits._ 
var accum = sc.longAccumulator 
sc.parallelisieren(Seq(1,2,3)).foreachPartition(x => x.foreach(accum.add(_))) 
assert(accum.Wert == 6L) 
} 
```
Fazit :

foreachPartition Operationen auf Partitionen, so offensichtlich, es wäre
besser edge als foreach

Faustregel :

foreachPartition sollte verwendet werden, wenn Sie den Zugriff auf teure
Ressourcen wie Datenbankverbindungen oder kafka Produzent usw.. das würde initialisieren
eine pro-partition eher als ein pro-element(foreach). wenn es
kommt Akkumulatoren, können Sie Messen die Leistung durch die oben genannten test
Methoden, die sollten schneller arbeiten, im Fall von Akkumulatoren als auch..

Auch... siehe Karte vs mappartitions, die hat ein ähnliches Konzept, aber Sie sind Transformationen.
- Eine Super Erklärung kannst du bitte hinzufügen Szenarien, in denen die foreach-partition langsamer als foreach (im Falle von können sagen, Akkumulatoren), da in diesem Szenario foreachpartition rufen foreach-intern.
- wir haben eine ähnliche Funktionalität in JAVA. Wenn ich versuche, gruppiert() auf jeder partition zeigt er keinerlei solche Methode zur Verfügung. Ich bin mit Spark 2.1.0
- AFAIK scala seine zur Verfügung. also nicht alle in java l können Sie tun, normale batch Art von operation. Ich meine, Sie tun können, ähnliche Art von
- 30 Partitionen und 30 Kerne , kopieren von 15GB Daten zu cassandra , Während der Ausführung SparkJob ich nur einen Prozessor nehmen alle Last , anderen Testamentsvollstrecker nicht in der Lage zu beteiligen in der Verarbeitung. übrigens, ich bin fertig mit Parkett-Datei-format in hdfs , Können Sie mir helfen
- print partition-Länge. wenn die 1(da eine partition ist unter Last), dann versuchen Sie zu re-partition und dann tun foeach partition.
- Ghadiyaram `` val company_model_vals_df = enriched_company_model_vals_df.neu partitionieren(col("model_id"), col("fiscal_quarter"),col("fiscal_year")) writeAsParquet(company_model_vals_df) Wie schreibt man dieses mit foreachPartition ???
InformationsquelleAutor Ram Ghadiyaram
15

Es ist wirklich nicht so viel Unterschied zwischen foreach und foreachPartitions. Unter der Decke, alle, die foreach tut, ist den Aufruf der iterator ist foreach mithilfe der bereitgestellten Funktion. foreachPartition nur gibt Ihnen die Gelegenheit, etwas zu tun außerhalb der Schleife den iterator in der Regel etwas teurer wie Spinnen eine Datenbank-Verbindung oder etwas entlang jenen Linien. Also, wenn Sie don ' T haben alles, was getan werden könnte, einmal für jeden Knoten iterator und wiederverwendet ganzen, dann würde ich vorschlagen, mit foreach für verbesserte Klarheit und die Komplexität reduziert.

InformationsquelleAutor Justin Pihony
4

Den foreachPartition bedeutet nicht, es ist pro Knoten Aktivität, sondern es wird ausgeführt, für jede partition und es ist möglich, dass Sie möglicherweise eine große Anzahl von partition im Vergleich zur Anzahl der Knoten in diesem Fall Ihre Leistung kann beeinträchtigt werden. Wenn Sie beabsichtigen, tun eine Aktivität auf node-Ebene die Lösung erklärt hier kann nützlich sein, es ist zwar nicht von mir getesteten
- Ich habe benutzt ähnlichen code für das einfügen von Daten in Oracle mit foreachPartition. Die Leistung wird extrem langsam.
InformationsquelleAutor deenbandhu
3

foreachPartition ist nur dann hilfreich, wenn Sie Durchlaufen die Daten, die Sie aggregieren von partition.

Ein gutes Beispiel ist die Verarbeitung clickstreams pro Benutzer. Sie wollen, um zu löschen Sie Ihren cache Berechnung jedes mal, wenn Sie fertig sind einen Benutzer, der Strom der Ereignisse, aber halten Sie es zwischen den Datensätzen mit dem gleichen Benutzer an, um zu berechnen, einige user-Verhalten Erkenntnisse.

InformationsquelleAutor Oren

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

foreach(Funktion): Einheit

foreachPartition(Funktion): Einheit

Fazit :

Faustregel :