Wie man der letzten Zeile des DataFrame?

Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun?

dies ist mein input:

+-----+---------+
|value|timestamp|
+-----+---------+
|    1|        1|
|    4|        2|
|    3|        3|
|    2|        4|
|    5|        5|
|    7|        6|
|    3|        7|
|    5|        8|
|    4|        9|
|   18|       10|
+-----+---------+

dies ist mein code:

    val arr = Array((1,1),(4,2),(3,3),(2,4),(5,5),(7,6),(3,7),(5,8),(4,9),(18,10))
    var df=m_sparkCtx.parallelize(arr).toDF("value","timestamp")

dies ist mein erwartetes Ergebnis:

+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+

Würde df.where($"timestamp" === max($"timestamp") Arbeit?
Es doesnot Arbeit mit Exchange rangepartitioning(ts#7 ASC NULLS FIRST, 200)

InformationsquelleAutor mentongwu | 2017-07-31

Ich würde einfach reduce:

df.reduce { (x, y) => 
  if (x.getAs[Int]("timestamp") > y.getAs[Int]("timestamp")) x else y 
}

InformationsquelleAutor hi-zir

7

Versuchen Sie dieses, es funktioniert für mich.
```
df.orderBy($"value".desc).show(1)
```
InformationsquelleAutor Mimii Cheng
4

Ich würde einfach die Abfrage,
- Bestellungen Ihre Tabelle in absteigender Reihenfolge
- nimmt den 1. Wert aus dieser Bestellung
```
df.createOrReplaceTempView("table_df")
query_latest_rec = """SELECT * FROM table_df ORDER BY value DESC limit 1"""
latest_rec = self.sqlContext.sql(query_latest_rec)
latest_rec.show()
```
- Ich bin mit dieser Lösung, es ist die offensichtliche ein.
InformationsquelleAutor Danylo Zherebetskyy

Wenn Ihr timestamp-Spalte ist einzigartig und wird (in aufsteigender Reihenfolge), dann gibt es folgende Möglichkeiten, um die Letzte Zeile

println(df.sort($"timestamp", $"timestamp".desc).first())

//Output [1,1]

df.sort($"timestamp", $"timestamp".desc).take(1).foreach(println)

//Output [1,1]

df.where($"timestamp" === df.count()).show

Ausgabe:

+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+

Wenn nicht, erstellen Sie eine neue Spalte mit dem index und wählen Sie den letzten index, wie unten

val df1 = spark.sqlContext.createDataFrame(
    df.rdd.zipWithIndex.map {
  case (row, index) => Row.fromSeq(row.toSeq :+ index)
},
StructType(df.schema.fields :+ StructField("index", LongType, false)))

df1.where($"timestamp" === df.count()).drop("index").show

Ausgabe:

+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+

Sortieren Funktion ist ineffizient,ich donnot möchten, verwenden Sie sort-Funktion
als Sie verwenden können df.where($"timestamp" === df.count())

InformationsquelleAutor Shankar Koirala

Der effizienteste Weg ist, um reduce Ihre DataFrame. Dies gibt Ihnen eine einzelne Zeile, die Sie konvertieren wieder zu einem DataFrame, aber es enthält nur 1 Datensatz, das macht nicht viel Sinn.

sparkContext.parallelize(
  Seq(
  df.reduce {
    (a, b) => if (a.getAs[Int]("timestamp") > b.getAs[Int]("timestamp")) a else b 
   } match {case Row(value:Int,timestamp:Int) => (value,timestamp)}
  )
)
.toDF("value","timestamp")
.show


+-----+---------+
|value|timestamp|
+-----+---------+
|   18|       10|
+-----+---------+

Weniger effizient (es muss mischen) ist zwar kürzer ist diese Lösung:

df
.where($"timestamp" === df.groupBy().agg(max($"timestamp")).map(_.getInt(0)).collect.head)

InformationsquelleAutor Raphael Roth

Java:

Dataset<Row> sortDF = inputDF.orderBy(org.apache.spark.sql.functions.col(config.getIncrementingColumn()).desc());
Row row = sortDF.first()

InformationsquelleAutor Suneel

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.