Random-sampling in pyspark mit Ersatz

Ich habe einen dataframe df mit 9000 eindeutige ids.

wie

| id |
  1 
  2 

Möchte ich zum generieren einer Zufallsstichprobe mit Ersatz diese 9000-ids 100000 mal.
Wie mache ich es in pyspark

Versuchte ich

df.sample(True,0.5,100)

Aber ich weiß nicht, wie man 100000 Anzahl genaue

  • Um klar zu sein, müssen Sie nehmen eine Stichprobe von 9000-ids, wobei jede Probe hat 4.500-ids in es (das wiederholen könnte, da wir eine Probe mit Ersatz), und Sie müssen 100.000 von diesen samples?
  • 9000 ist die Bevölkerung von eindeutigen ids, die ich habe, möchte ich oversample der Bevölkerung zu 100000 mit Ersatz und zufällig. also im Klartext, ich soll Sie abholen eine zufällige id 100000 mal aus einer jar-9000-ids in einer zufälligen Weise. Ich hoffe, das hilft.
  • Hab es, danke. Ich werde versuchen, es jetzt durch.
Schreibe einen Kommentar