Mit monotonically_increasing_id() für die Zuweisung der Zeilennummer an pyspark dataframe

Ich bin mit monotonically_increasing_id() zuweisen Zeilennummer pyspark dataframe mit syntax unter:

df1 = df1.withColumn("idx", monotonically_increasing_id())

Nun df1 hat 26,572,528 records. Also ich hatte erwartet, idx Wert von 0-26,572,527.

Aber wenn ich select max(idx), sein Wert ist komischerweise riesig: 335,008,054,165.

Was ist Los mit dieser Funktion?
ist es zuverlässig, um diese Funktion zu verwenden, die für die Verschmelzung mit einem anderen dataset mit einer ähnlichen Anzahl von Datensätzen?

Habe ich rund 300 dataframes, die ich will, zu vereinen in einer einzigen dataframe. So ein dataframe enthält IDs und andere enthalten unterschiedliche Aufzeichnungen, die Ihnen entsprechenden row-wise

InformationsquelleAutor muni | 2018-01-11

Schreibe einen Kommentar