Tag: spark-dataframe

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

2 Antworten

Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

Verhindern DataFrame.partitionBy() entfernen partitionierten Spalten aus einem schema

2 Antworten

Ich bin Partitionierung ein DataFrame wie folgt: df.write.partitionBy("type", "category").parquet(config.outpath) Den code gibt die erwarteten Ergebnisse (d.h. die Daten partitioniert, die von Art & Kategorie). Aber der "Typ" und "Kategorie" - Spalten werden entfernt, das Daten /schema. Gibt

apache-spark spark-dataframe

speichern dataframe als externe hive-Tabelle

3 Antworten

Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar

apache-spark apache-spark-sql hive spark-dataframe

Filterung pyspark dataframe, wenn die Spalte text enthält Wörter in der angegebenen Liste

2 Antworten

Ich gesehen habe Fragen, die hier gepostet, die ähnlich wie mir, aber ich bin noch immer Fehler in meinem code, wenn Sie versuchen, einige Antworten akzeptiert. Ich habe einen dataframe mit drei Spalten--erstellt _am, text und Wörter

pyspark python spark-dataframe

Lesen lokales Parkett-Dateien in Spark 2.0

1 Antworten

Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um

apache-spark parquet spark-dataframe

Wie kann ich eine for-Schleife zu parallelisieren, in der Funke mit scala?

2 Antworten

Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val

apache-spark apache-spark-sql scala spark-dataframe

pyspark: ValueError: Einige Arten nicht bestimmt werden kann nach der Herleitung

5 Antworten

Habe ich ein Pandabären-Daten-frame my_df, und my_df.dtypes uns gibt: ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype: object Dann bin ich versucht zu konvertieren, die pandas data frame my_df zu Funken-Daten-frame-by-doing unter:

pandas pyspark python python-2.7 spark-dataframe

FEHLER Vollzieher: Ausnahme, die im task-0.0 Bühne 6.0 Funke scala?

1 Antworten

Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data

apache-spark apache-spark-sql scala spark-dataframe user-defined-functions

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

1 Antworten

Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

apache-spark dataframe rdd spark-csv spark-dataframe

Wie man der letzten Zeile des DataFrame?

6 Antworten

Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun? dies ist mein input: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| 2|

apache-spark apache-spark-sql scala spark-dataframe

Erstellen eines dictionary-Typ-Spalte in dataframe

3 Antworten

Betrachten Sie die folgenden dataframe: ------------+--------------------+ |id| values +------------+--------------------+ | 39|a,a,b,b,c,c,c,c,d | 520|a,b,c | 832|a,a Möchte ich es konvertieren in die folgenden DataFrame: ------------+--------------------+ |id| values +------------+--------------------+ | 39|{"a":2, "b": 2,"c": 4,"d": 1} | 520|{"a": 1,"b": 1,"c":

pyspark python spark-dataframe

Spark saveAsTextFile() Ergebnisse in Mkdirs Fehler beim erstellen der Hälfte der directory

7 Antworten

Ich bin derzeit ein Java-Spark-Anwendung in tomcat ein und erhalten die folgende Ausnahme: Caused by: java.io.IOException: Mkdirs failed to create file:/opt/folder/tmp/file.json/_temporary/0/_temporary/attempt_201603031703_0001_m_000000_5 auf der Linie text.saveAsTextFile("/opt/folder/tmp/file.json") //where text is a JavaRDD<String> Das Problem ist, dass /opt/Ordner/tmp/schon existiert und

apache-spark java spark-dataframe tomcat

Wie berechne Perzentil der Spalte in einen DataFrame in der Funke?

2 Antworten

Ich versuche zu berechnen Perzentil einer Spalte in einem DataFrame? Ich kann nicht finden, percentile_approx Funktion in der Funke-aggregation-Funktionen. Z.B. im Hive-wir haben percentile_approx und wir können es verwenden, in der folgenden Weise hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

apache-spark apache-spark-sql scala spark-dataframe

Gewusst wie: filtern von Daten mithilfe von Fenster-Funktionen in der Funke

1 Antworten

Habe ich folgende Daten : rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c

apache-spark scala spark-dataframe window-functions

Was ist falsch mit spark sql substring-Funktion?

1 Antworten

Verlangt keine Erklärung. Aber könnte mir jemand beschreiben, der die Logik hinter dem pos-parameter von substring, weil ich nicht den Sinn dieses (Mit Spark 2.1): scala> val df = Seq("abcdef").toDS() df: org.apache.spark.sql.Dataset[String] = [value: string] scala> df.show

apache-spark-sql spark-dataframe

Top Werte aus einer spark-dataframe Spalte in Scala

3 Antworten

val df = sc.parallelize(Seq((201601, a), (201602, b), (201603, c), (201604, c), (201607, c), (201604, c), (201608, c), (201609, c), (201605, b))).toDF("col1", "col2") Ich will top-3-Werte col1. Kann jeder bitte lassen Sie mich wissen, die bessere Möglichkeit, dies

apache-spark apache-spark-sql scala spark-dataframe

So Lesen Sie eine Datei mit fester Länge in Spark mit DataFrame API und SCALA

2 Antworten

Ich habe eine Datei mit fester Länge ( siehe nachstehendes Beispiel) und ich möchte diese Datei zu Lesen, mithilfe von DataFrames API-Zündkerzen mit SCALA(nicht python oder java). Mit DataFrames-API, es gibt Möglichkeiten zum Lesen von Text -,

apache-spark scala spark-dataframe

So finden die nächsten Nachbarn von 1 Milliarde Datensätze mit Spark?

3 Antworten

Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top

apache-spark euclidean-distance nearest-neighbor pyspark spark-dataframe

Zählen Sie auf Spark Dataframe ist extrem langsam

2 Antworten

Ich bin erstellen Sie ein neues DataFrame mit einer Handvoll von Datensätzen aus einer Beitreten. val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) joined_df.cache() joined_df.count() Alles ist schnell (unter einer Sekunde), außer die count-Methode.

apache-spark count rdd scala spark-dataframe

pass RDD als parameter und return-dataframe, um eine Funktion - scala

1 Antworten

Ich versuche zu erstellen-Funktion, die string-oder RDD als ein argument aber gibt dataframe. Code: def udf1 (input: String) = { val file = sc.textFile(input); file.map(p => Person( (p.substring(1, 15)), p.substring(16, 20))).toDF() } def main() { case class

apache-spark scala spark-dataframe

Was ist StringIndexer , VectorIndexer, und wie benutzt man Sie?

2 Antworten

Dataset<Row> dataFrame = ... ; StringIndexerModel labelIndexer = new StringIndexer() .setInputCol("label") .setOutputCol("indexedLabel") .fit(dataFrame); VectorIndexerModel featureIndexer = new VectorIndexer() .setInputCol("s") .setOutputCol("indexedFeatures") .setMaxCategories(4) .fit(dataFrame); IndexToString labelConverter = new IndexToString() .setInputCol("prediction") .setOutputCol("predictedLabel") .setLabels(labelIndexer.labels()); Was ist StringIndexer, VectorIndexer, IndexToString und was

apache-spark dataset spark-dataframe

Wie konnte ich das order by sum, in einen DataFrame in PySpark?

1 Antworten

Analog: order_items.groupBy("order_item_order_id").count().orderBy(desc("count")).show() Habe ich versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("sum")).show() aber das gibt einen Fehler: Py4JJavaError: Fehler beim aufrufen von o501.Art. : org.apache.spark.sql.AnalysisException: cannot resolve 'Summe' gegeben Eingabespalten order_item_order_id, SUM(order_item_subtotal#429); Habe ich auch schon versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("SUM(order_item_subtotal)")).show() aber ich bekomme den gleichen

pyspark python spark-dataframe

Wie Tropfen Spalten die gleichen Werte in allen Zeilen über pandas oder spark dataframe?

2 Antworten

Glaube, ich habe die Daten ähnlich der folgenden: index id name value value2 value3 data1 val5 0 345 name1 1 99 23 3 66 1 12 name2 1 99 23 2 66 5 2 name6 1 99

duplicates multiple-columns pandas python spark-dataframe

Geteilte Inhalte von String-Spalte in PySpark Dataframe

1 Antworten

Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good

apache-spark apache-spark-mllib pyspark spark-dataframe

Wie die Verkettung von einem string und einer Spalte in einem dataframe in der Funke?

2 Antworten

Habe ich das heutige Datum als string. Ich brauche, um zu verketten, es mit einem Zeit-Wert, der vorhanden ist, wie eine Spalte in einem dataframe. Wenn ich versuche, bekomme ich String Index out of bounds Ausnahme. Mein

apache-spark dataframe spark-dataframe

pyspark Fehler: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

1 Antworten

Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten

apache-spark apache-spark-2.0 spark-dataframe

DataFrame filtern, basierend auf der zweiten Dataframe

2 Antworten

Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

apache-spark apache-spark-sql dataframe java spark-dataframe

Ist Spark SQL UDAF (user defined aggregate-Funktion) verfügbar in der Python-API?

1 Antworten

Als der Funke 1.5.0 scheint es möglich, eigene zu schreiben, UDAF für benutzerdefinierte Aggregationen auf DataFrames: Spark 1.5 DataFrame API-Highlights: Datum/Zeit/String-Handling, Zeit-Abständen, und UDAFs Es ist jedoch unklar ist mir, ob diese Funktionalität unterstützt wird, in die

apache-spark apache-spark-sql spark-dataframe

Holen Liste von Datentypen aus einem schema in Apache Spark

3 Antworten

Ich habe den folgenden code in Spark-Python, um die Liste der Namen von dem schema eines DataFrame, welche gut funktioniert, aber wie bekomme ich die Liste der Datentypen? columnNames = df.schema.names Zum Beispiel, etwas wie: columnTypes =

apache-spark python schema spark-dataframe types

Was ist die version der library Funke unterstützt SparkSession

2 Antworten

Code Spark mit SparkSession. import org.apache.spark.SparkConf import org.apache.spark.SparkContext val conf = SparkSession.builder .master("local") .appName("testing") .enableHiveSupport() //<- enable Hive support. .getOrCreate() Code pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.cms.spark</groupId> <artifactId>cms-spark</artifactId> <version>0.0.1-SNAPSHOT</version> <name>cms-spark</name> <pluginRepositories> <pluginRepository> <id>scala-tools.org</id> <name>Scala-tools Maven2

apache-spark apache-spark-sql hadoop scala spark-dataframe

Spark - Random Number Generation

4 Antworten

Ich habe geschrieben eine Methode, die berücksichtigen muss, eine Zufallszahl zu simulieren, die eine Bernoulli-Verteilung. Ich bin mit random.nextDouble generiert eine Zahl zwischen 0 und 1 ist, dann macht meine Entscheidung basierend auf diesem Wert, da meine

apache-spark random scala spark-dataframe

Wie zu vermeiden, die Erzeugung von crc-Dateien und ERFOLG-Dateien beim speichern ein DataFrame?

1 Antworten

Ich bin mit dem folgenden code zum speichern einer spark-DataFrame zu JSON-Datei unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json") das Endergebnis ist: part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8 .part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8 .part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc _SUCCESS ._SUCCESS.crc Wie erstelle ich eine einzige JSON-Datei und nicht eine Datei pro Zeile? Wie kann ich

apache-spark json spark-dataframe

Wie Spalte filter auf Werte in der Liste in pyspark?

1 Antworten

Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

Flatten Verschachtelte Spark-Dataframe

3 Antworten

Ist es ein Weg, zu glätten, eine beliebig verschachtelte Funke Dataframe? Die meisten der Arbeit, die ich bin, zu sehen, geschrieben für bestimmten schema, und ich möchte in der Lage sein zu generisch glätten Sie ein Dataframe

apache-spark pyspark spark-dataframe

Scala: Spark SQL to_date(unix_timestamp) NULL zurückgeben

1 Antworten

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich bin das laden eines raw-csv zu einem DataFrame. In csv -, obwohl die Spalte ist zu unterstützen, die im Datum-format, Sie werden so geschrieben, wie 20161025 statt 2016-10-25. Die parameter date_format

apache-spark apache-spark-sql scala spark-csv spark-dataframe

Dataframe aus der Liste<String> in Java

3 Antworten

Spark Version : 1.6.2 Java-Version: 7 Ich habe eine List<String> Daten. So etwas wie: [[dev, engg, 10000], [karthik, engg, 20000]..] Ich weiß schema für diese Daten. name (String) degree (String) salary (Integer) Habe ich versucht: JavaRDD<String> data

apache-spark java spark-dataframe

Verständnis Spark-Serialisierung

1 Antworten

Zündkerzen Woher weiß man, welche Objekte instanziiert sind auf Fahrer-und die sind instanziiert, auf der executor , und damit, wie legt man fest, welche Klassen implementiert werden muss Serialisierbar ? Diesem blog-post kann hilfreich sein InformationsquelleAutor KrazyGautam

apache-spark lambda serialization spark-dataframe

Tun, exit-codes und exit-Status bedeutet nichts in der Funke?

1 Antworten

Sehe ich exit-codes und der exit-Status die ganze Zeit beim laufen spark auf Garn: Hier sind ein paar: CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM ...failed 2 times due to AM Container for application_1431523563856_0001_000002 exited with exitCode: 10... ...Exit

apache-spark hadoop pyspark spark-dataframe yarn

scala.Sammlung.veränderlich.WrappedArray$ofRef nicht cast zu Integer

1 Antworten

Ich bin ziemlich neu zu entfachen, und Scala. Ich versuche, eine Funktion aufzurufen, die wie ein Funke UDF, aber ich mit diesem Fehler, ich kann nicht scheinen, um zu lösen. Verstehe ich, dass in Scala, Array und

apache-spark apache-spark-sql spark-dataframe

mehrere Kriterien für die aggregation auf pySpark Dataframe

1 Antworten

Ich habe eine pySpark dataframe, der wie folgt aussieht: +-------------+----------+ | sku| date| +-------------+----------+ |MLA-603526656|02/09/2016| |MLA-603526656|01/09/2016| |MLA-604172009|02/10/2016| |MLA-605470584|02/09/2016| |MLA-605502281|02/10/2016| |MLA-605502281|02/09/2016| +-------------+----------+ Möchte ich group by sku, und dann berechnen Sie die min-und max-Daten. Wenn ich dies tun:

apache-spark pyspark spark-dataframe

Wie zu verwenden orderby() mit absteigender Reihenfolge in Spark-Fenster-Funktionen?

2 Antworten

Ich brauche eine window-Funktion, die Partitionen, die von einigen Tasten (=Spaltennamen), Aufträge durch einen anderen Spaltennamen und gibt die Zeilen zurück, mit top-x rangiert. Dies funktioniert gut für die aufsteigende Reihenfolge: def getTopX(df: DataFrame, top_x: String, top_key:

apache-spark apache-spark-sql scala spark-dataframe

TypeError: 'Spalte' Objekt ist nicht aufrufbar mit WithColumn

2 Antworten

Möchte ich anfügen einer neuen Spalte dataframe "df" aus der Funktion get_distance: def get_distance(x, y): dfDistPerc = hiveContext.sql("select column3 as column3, \ from tab \ where column1 = '" + x + "' \ and column2 =

apache-spark apache-spark-sql pyspark spark-dataframe

so wählen Sie alle Spalten, die beginnt mit einem gemeinsamen Etikett

1 Antworten

Ich habe einen dataframe in Spark 1.6 und möchten Sie nur einige Spalten aus ihm heraus. Sind die Spaltennamen wie: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2 Ich weiß, dass ich tun kann, wie das auswählen

apache-spark scala spark-dataframe

Die Anwendung einer Fenster-Funktion zu berechnen, die Unterschiede in pySpark

2 Antworten

Ich bin mit pySpark, und haben mein dataframe mit zwei Spalten, in denen täglich ein Vermögenswert Preis wie folgt: ind = sc.parallelize(range(1,5)) prices = sc.parallelize([33.3,31.1,51.2,21.3]) data = ind.zip(prices) df = sqlCtx.createDataFrame(data,["day","price"]) Den ich nach der Anwendung df.show():

pyspark pyspark-sql spark-dataframe window-functions

Wie zählt die Anzahl der Zeilen in einer spark-dataframe basierend auf einem Wert (primary key) aus einer anderen dataframe?

2 Antworten

Habe ich zwei dataframes df1 und df2. Beide haben eine Spalte 'Datum', wie unten gezeigt. Struktur von df1 +----------+ | date| +----------+ |02-01-2015| |02-02-2015| |02-03-2015| +----------+ Struktur df2 +---+-------+-----+----------+ | ID|feature|value| date| +---+-------+-----+----------+ | 1|balance| 100|01-01-2015| |

apache-spark scala spark-dataframe

Mode von gruppierten Daten in (py)Funken

1 Antworten

Ich habe eine spark-DataFrame mit mehreren Spalten. Ich möchte die Gruppe die Zeilen basierend auf Spalte, und klicken Sie dann den Modus der zweiten Spalte für jede Gruppe. Arbeiten mit ein pandas DataFrame, ich würde so etwas

apache-spark pyspark python spark-dataframe

Abfragen mit streaming-Quellen müssen mit ausgeführt werden writeStream.start();

4 Antworten

Ich versuche, die Botschaften zu Lesen von kafka (version 10) Zündkerzen und versuchen, es zu drucken. import spark.implicits._ val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.master", "local") .getOrCreate() val ds1 = spark.readStream.format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topicA") .load() ds1.collect.foreach(println)

scala spark-dataframe spark-streaming

Wie sich zwei DataFrames in Scala und Apache Spark?

3 Antworten

apache-spark apache-spark-sql scala spark-dataframe

Wie union Spark SQL Dataframes in Python

1 Antworten

Hier sind mehrere Möglichkeiten der Schaffung einer union des dataframes, die (falls vorhanden) ist am besten /empfohlen, wenn wir reden über die großen dataframes? Sollte ich eine leere dataframe ersten oder kontinuierlich union zum ersten dataframe erstellt?

pyspark python spark-dataframe

Spark 2.2 Illegale Muster Komponente: XXX java.lang.IllegalArgumentException: Illegal pattern-Komponente: XXX

3 Antworten

Ich versuche, ein upgrade von Spark 2.1 zu 2.2. Wenn ich versuche zum Lesen oder schreiben eines dataframe zu einer Position (CSV oder JSON) ich erhalte diese Fehlermeldung: Illegal pattern component: XXX java.lang.IllegalArgumentException: Illegal pattern component: XXX

apache-spark scala spark-dataframe