Spark - Random Number Generation

Ich habe geschrieben eine Methode, die berücksichtigen muss, eine Zufallszahl zu simulieren, die eine Bernoulli-Verteilung. Ich bin mit random.nextDouble generiert eine Zahl zwischen 0 und 1 ist, dann macht meine Entscheidung basierend auf diesem Wert, da meine Wahrscheinlichkeit parameter.

Mein problem ist, dass Funke die Erzeugung der gleichen Zufallszahlen innerhalb jeder iteration von meiner for-Schleife mapping-Funktion. Ich bin mit der DataFrame API. Mein code hat Folgendes format:

val myClass = new MyClass()
val M = 3
val myAppSeed = 91234
val rand = new scala.util.Random(myAppSeed)

for (m <- 1 to M) {
  val newDF = sqlContext.createDataFrame(myDF
    .map{row => RowFactory
      .create(row.getString(0),
        myClass.myMethod(row.getString(2), rand.nextDouble())
    }, myDF.schema)
}

Hier ist die Klasse:

class myClass extends Serializable {
  val q = qProb

  def myMethod(s: String, rand: Double) = {
    if (rand <= q) //do something
    else //do something else
  }
}

Brauche ich eine neue Zufallszahl jedes mal myMethod genannt wird. Ich habe auch versucht, die Generierung der Nummer in meiner Methode mit java.util.Random (scala.util.Random v10 nicht verlängern Serializable) wie unten, aber ich bin noch immer die gleichen zahlen innerhalb der einzelnen for-Schleife

val r = new java.util.Random(s.hashCode.toLong)
val rand = r.nextDouble()

Ich habe einige der Forschung getan, und es scheint, dies hat zu tun mit Funken deterministische Natur.

InformationsquelleAutor Brian Vanover | 2016-04-06

4

Der Grund, warum die gleiche Sequenz wiederholt wird, ist, dass der Zufallsgenerator wird erstellt und initialisiert, mit einem Samen, bevor die Daten partitioniert ist. Jede partition beginnt dann, aus den gleichen random-seed. Vielleicht nicht der effizienteste Weg, es zu tun, aber Folgendes sollte funktionieren:
```
val myClass = new MyClass()
val M = 3

for (m <- 1 to M) {
  val newDF = sqlContext.createDataFrame(myDF
    .map{ 
       val rand = scala.util.Random
       row => RowFactory
      .create(row.getString(0),
        myClass.myMethod(row.getString(2), rand.nextDouble())
    }, myDF.schema)
}
```
- Ich veränderte dies etwas mein problem zu lösen. Ich ging die Random val in meine Methode und generiert zufällige zahlen aus, die innerhalb es. Dies löste mein problem, aber ich musste java.util.Random für serializeability Gründen.
InformationsquelleAutor Pascal Soucy

Verwenden Sie einfach die SQL-Funktion rand:

import org.apache.spark.sql.functions._

//df: org.apache.spark.sql.DataFrame = [key: int]

df.select($"key", rand() as "rand").show
+---+-------------------+
|key|               rand|
+---+-------------------+
|  1| 0.8635073400704648|
|  2| 0.6870153659986652|
|  3|0.18998048357873532|
+---+-------------------+


df.select($"key", rand() as "rand").show
+---+------------------+
|key|              rand|
+---+------------------+
|  1|0.3422484248879837|
|  2|0.2301384925817671|
|  3|0.6959421970071372|
+---+------------------+

Dies trifft nicht ganz mein problem lösen, aber eine elegante Lösung, die ich wahrscheinlich in Zukunft nutzen, also +1

InformationsquelleAutor David Griffin

Laut dieser Beitrag, die beste Lösung ist, nicht zu den new scala.util.Random im inneren der Karte, noch völlig außerhalb (dh. in der Treiber-code), sondern in einem Zwischenschritt mapPartitionsWithIndex:

import scala.util.Random
val myAppSeed = 91234
val newRDD = myRDD.mapPartitionsWithIndex { (indx, iter) =>
   val rand = new scala.util.Random(indx+myAppSeed)
   iter.map(x => (x, Array.fill(10)(rand.nextDouble)))
}

InformationsquelleAutor leo9r

0

Verwendung von Spark-Dataset API, vielleicht für den Einsatz in einem Akkumulator:
```
df.withColumn("_n", substring(rand(),3,4).cast("bigint"))
```
InformationsquelleAutor Joshua David Lickteig

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.