Tag: spark-dataframe

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

Anzahl der Antworten 2 Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

Verhindern DataFrame.partitionBy() entfernen partitionierten Spalten aus einem schema

Anzahl der Antworten 2 Antworten
Ich bin Partitionierung ein DataFrame wie folgt: df.write.partitionBy("type", "category").parquet(config.outpath) Den code gibt die erwarteten Ergebnisse (d.h. die Daten partitioniert, die von Art & Kategorie). Aber der "Typ" und "Kategorie" - Spalten werden entfernt, das Daten /schema. Gibt

speichern dataframe als externe hive-Tabelle

Anzahl der Antworten 3 Antworten
Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar

Filterung pyspark dataframe, wenn die Spalte text enthält Wörter in der angegebenen Liste

Anzahl der Antworten 2 Antworten
Ich gesehen habe Fragen, die hier gepostet, die ähnlich wie mir, aber ich bin noch immer Fehler in meinem code, wenn Sie versuchen, einige Antworten akzeptiert. Ich habe einen dataframe mit drei Spalten--erstellt _am, text und Wörter

Lesen lokales Parkett-Dateien in Spark 2.0

Anzahl der Antworten 1 Antworten
Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um

Wie kann ich eine for-Schleife zu parallelisieren, in der Funke mit scala?

Anzahl der Antworten 2 Antworten
Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val

pyspark: ValueError: Einige Arten nicht bestimmt werden kann nach der Herleitung

Anzahl der Antworten 5 Antworten
Habe ich ein Pandabären-Daten-frame my_df, und my_df.dtypes uns gibt: ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype: object Dann bin ich versucht zu konvertieren, die pandas data frame my_df zu Funken-Daten-frame-by-doing unter:

FEHLER Vollzieher: Ausnahme, die im task-0.0 Bühne 6.0 Funke scala?

Anzahl der Antworten 1 Antworten
Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

Anzahl der Antworten 1 Antworten
Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

Wie man der letzten Zeile des DataFrame?

Anzahl der Antworten 6 Antworten
Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun? dies ist mein input: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| 2|

Erstellen eines dictionary-Typ-Spalte in dataframe

Anzahl der Antworten 3 Antworten
Betrachten Sie die folgenden dataframe: ------------+--------------------+ |id| values +------------+--------------------+ | 39|a,a,b,b,c,c,c,c,d | 520|a,b,c | 832|a,a Möchte ich es konvertieren in die folgenden DataFrame: ------------+--------------------+ |id| values +------------+--------------------+ | 39|{"a":2, "b": 2,"c": 4,"d": 1} | 520|{"a": 1,"b": 1,"c":

Spark saveAsTextFile() Ergebnisse in Mkdirs Fehler beim erstellen der Hälfte der directory

Anzahl der Antworten 7 Antworten
Ich bin derzeit ein Java-Spark-Anwendung in tomcat ein und erhalten die folgende Ausnahme: Caused by: java.io.IOException: Mkdirs failed to create file:/opt/folder/tmp/file.json/_temporary/0/_temporary/attempt_201603031703_0001_m_000000_5 auf der Linie text.saveAsTextFile("/opt/folder/tmp/file.json") //where text is a JavaRDD<String> Das Problem ist, dass /opt/Ordner/tmp/schon existiert und

Wie berechne Perzentil der Spalte in einen DataFrame in der Funke?

Anzahl der Antworten 2 Antworten
Ich versuche zu berechnen Perzentil einer Spalte in einem DataFrame? Ich kann nicht finden, percentile_approx Funktion in der Funke-aggregation-Funktionen. Z.B. im Hive-wir haben percentile_approx und wir können es verwenden, in der folgenden Weise hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

Gewusst wie: filtern von Daten mithilfe von Fenster-Funktionen in der Funke

Anzahl der Antworten 1 Antworten
Habe ich folgende Daten : rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c

Was ist falsch mit spark sql substring-Funktion?

Anzahl der Antworten 1 Antworten
Verlangt keine Erklärung. Aber könnte mir jemand beschreiben, der die Logik hinter dem pos-parameter von substring, weil ich nicht den Sinn dieses (Mit Spark 2.1): scala> val df = Seq("abcdef").toDS() df: org.apache.spark.sql.Dataset[String] = [value: string] scala> df.show

Top Werte aus einer spark-dataframe Spalte in Scala

Anzahl der Antworten 3 Antworten
val df = sc.parallelize(Seq((201601, a), (201602, b), (201603, c), (201604, c), (201607, c), (201604, c), (201608, c), (201609, c), (201605, b))).toDF("col1", "col2") Ich will top-3-Werte col1. Kann jeder bitte lassen Sie mich wissen, die bessere Möglichkeit, dies

So Lesen Sie eine Datei mit fester Länge in Spark mit DataFrame API und SCALA

Anzahl der Antworten 2 Antworten
Ich habe eine Datei mit fester Länge ( siehe nachstehendes Beispiel) und ich möchte diese Datei zu Lesen, mithilfe von DataFrames API-Zündkerzen mit SCALA(nicht python oder java). Mit DataFrames-API, es gibt Möglichkeiten zum Lesen von Text -,

So finden die nächsten Nachbarn von 1 Milliarde Datensätze mit Spark?

Anzahl der Antworten 3 Antworten
Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top

Zählen Sie auf Spark Dataframe ist extrem langsam

Anzahl der Antworten 2 Antworten
Ich bin erstellen Sie ein neues DataFrame mit einer Handvoll von Datensätzen aus einer Beitreten. val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) joined_df.cache() joined_df.count() Alles ist schnell (unter einer Sekunde), außer die count-Methode.

pass RDD als parameter und return-dataframe, um eine Funktion - scala

Anzahl der Antworten 1 Antworten
Ich versuche zu erstellen-Funktion, die string-oder RDD als ein argument aber gibt dataframe. Code: def udf1 (input: String) = { val file = sc.textFile(input); file.map(p => Person( (p.substring(1, 15)), p.substring(16, 20))).toDF() } def main() { case class

Was ist StringIndexer , VectorIndexer, und wie benutzt man Sie?

Anzahl der Antworten 2 Antworten
Dataset<Row> dataFrame = ... ; StringIndexerModel labelIndexer = new StringIndexer() .setInputCol("label") .setOutputCol("indexedLabel") .fit(dataFrame); VectorIndexerModel featureIndexer = new VectorIndexer() .setInputCol("s") .setOutputCol("indexedFeatures") .setMaxCategories(4) .fit(dataFrame); IndexToString labelConverter = new IndexToString() .setInputCol("prediction") .setOutputCol("predictedLabel") .setLabels(labelIndexer.labels()); Was ist StringIndexer, VectorIndexer, IndexToString und was

Wie konnte ich das order by sum, in einen DataFrame in PySpark?

Anzahl der Antworten 1 Antworten
Analog: order_items.groupBy("order_item_order_id").count().orderBy(desc("count")).show() Habe ich versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("sum")).show() aber das gibt einen Fehler: Py4JJavaError: Fehler beim aufrufen von o501.Art. : org.apache.spark.sql.AnalysisException: cannot resolve 'Summe' gegeben Eingabespalten order_item_order_id, SUM(order_item_subtotal#429); Habe ich auch schon versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("SUM(order_item_subtotal)")).show() aber ich bekomme den gleichen

Wie Tropfen Spalten die gleichen Werte in allen Zeilen über pandas oder spark dataframe?

Anzahl der Antworten 2 Antworten
Glaube, ich habe die Daten ähnlich der folgenden: index id name value value2 value3 data1 val5 0 345 name1 1 99 23 3 66 1 12 name2 1 99 23 2 66 5 2 name6 1 99

Geteilte Inhalte von String-Spalte in PySpark Dataframe

Anzahl der Antworten 1 Antworten
Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good

Wie die Verkettung von einem string und einer Spalte in einem dataframe in der Funke?

Anzahl der Antworten 2 Antworten
Habe ich das heutige Datum als string. Ich brauche, um zu verketten, es mit einem Zeit-Wert, der vorhanden ist, wie eine Spalte in einem dataframe. Wenn ich versuche, bekomme ich String Index out of bounds Ausnahme. Mein

pyspark Fehler: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

Anzahl der Antworten 1 Antworten
Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten

DataFrame filtern, basierend auf der zweiten Dataframe

Anzahl der Antworten 2 Antworten
Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

Ist Spark SQL UDAF (user defined aggregate-Funktion) verfügbar in der Python-API?

Anzahl der Antworten 1 Antworten
Als der Funke 1.5.0 scheint es möglich, eigene zu schreiben, UDAF für benutzerdefinierte Aggregationen auf DataFrames: Spark 1.5 DataFrame API-Highlights: Datum/Zeit/String-Handling, Zeit-Abständen, und UDAFs Es ist jedoch unklar ist mir, ob diese Funktionalität unterstützt wird, in die

Holen Liste von Datentypen aus einem schema in Apache Spark

Anzahl der Antworten 3 Antworten
Ich habe den folgenden code in Spark-Python, um die Liste der Namen von dem schema eines DataFrame, welche gut funktioniert, aber wie bekomme ich die Liste der Datentypen? columnNames = df.schema.names Zum Beispiel, etwas wie: columnTypes =

Was ist die version der library Funke unterstützt SparkSession

Anzahl der Antworten 2 Antworten
Code Spark mit SparkSession. import org.apache.spark.SparkConf import org.apache.spark.SparkContext val conf = SparkSession.builder .master("local") .appName("testing") .enableHiveSupport() //<- enable Hive support. .getOrCreate() Code pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.cms.spark</groupId> <artifactId>cms-spark</artifactId> <version>0.0.1-SNAPSHOT</version> <name>cms-spark</name> <pluginRepositories> <pluginRepository> <id>scala-tools.org</id> <name>Scala-tools Maven2

Spark - Random Number Generation

Anzahl der Antworten 4 Antworten
Ich habe geschrieben eine Methode, die berücksichtigen muss, eine Zufallszahl zu simulieren, die eine Bernoulli-Verteilung. Ich bin mit random.nextDouble generiert eine Zahl zwischen 0 und 1 ist, dann macht meine Entscheidung basierend auf diesem Wert, da meine

Wie zu vermeiden, die Erzeugung von crc-Dateien und ERFOLG-Dateien beim speichern ein DataFrame?

Anzahl der Antworten 1 Antworten
Ich bin mit dem folgenden code zum speichern einer spark-DataFrame zu JSON-Datei unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json") das Endergebnis ist: part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8 .part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8 .part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc _SUCCESS ._SUCCESS.crc Wie erstelle ich eine einzige JSON-Datei und nicht eine Datei pro Zeile? Wie kann ich

Wie Spalte filter auf Werte in der Liste in pyspark?

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly

Flatten Verschachtelte Spark-Dataframe

Anzahl der Antworten 3 Antworten
Ist es ein Weg, zu glätten, eine beliebig verschachtelte Funke Dataframe? Die meisten der Arbeit, die ich bin, zu sehen, geschrieben für bestimmten schema, und ich möchte in der Lage sein zu generisch glätten Sie ein Dataframe

Scala: Spark SQL to_date(unix_timestamp) NULL zurückgeben

Anzahl der Antworten 1 Antworten
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich bin das laden eines raw-csv zu einem DataFrame. In csv -, obwohl die Spalte ist zu unterstützen, die im Datum-format, Sie werden so geschrieben, wie 20161025 statt 2016-10-25. Die parameter date_format

Dataframe aus der Liste<String> in Java

Anzahl der Antworten 3 Antworten
Spark Version : 1.6.2 Java-Version: 7 Ich habe eine List<String> Daten. So etwas wie: [[dev, engg, 10000], [karthik, engg, 20000]..] Ich weiß schema für diese Daten. name (String) degree (String) salary (Integer) Habe ich versucht: JavaRDD<String> data

Verständnis Spark-Serialisierung

Anzahl der Antworten 1 Antworten
Zündkerzen Woher weiß man, welche Objekte instanziiert sind auf Fahrer-und die sind instanziiert, auf der executor , und damit, wie legt man fest, welche Klassen implementiert werden muss Serialisierbar ? Diesem blog-post kann hilfreich sein InformationsquelleAutor KrazyGautam

Tun, exit-codes und exit-Status bedeutet nichts in der Funke?

Anzahl der Antworten 1 Antworten
Sehe ich exit-codes und der exit-Status die ganze Zeit beim laufen spark auf Garn: Hier sind ein paar: CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM ...failed 2 times due to AM Container for application_1431523563856_0001_000002 exited with exitCode: 10... ...Exit

scala.Sammlung.veränderlich.WrappedArray$ofRef nicht cast zu Integer

Anzahl der Antworten 1 Antworten
Ich bin ziemlich neu zu entfachen, und Scala. Ich versuche, eine Funktion aufzurufen, die wie ein Funke UDF, aber ich mit diesem Fehler, ich kann nicht scheinen, um zu lösen. Verstehe ich, dass in Scala, Array und

mehrere Kriterien für die aggregation auf pySpark Dataframe

Anzahl der Antworten 1 Antworten
Ich habe eine pySpark dataframe, der wie folgt aussieht: +-------------+----------+ | sku| date| +-------------+----------+ |MLA-603526656|02/09/2016| |MLA-603526656|01/09/2016| |MLA-604172009|02/10/2016| |MLA-605470584|02/09/2016| |MLA-605502281|02/10/2016| |MLA-605502281|02/09/2016| +-------------+----------+ Möchte ich group by sku, und dann berechnen Sie die min-und max-Daten. Wenn ich dies tun:

Wie zu verwenden orderby() mit absteigender Reihenfolge in Spark-Fenster-Funktionen?

Anzahl der Antworten 2 Antworten
Ich brauche eine window-Funktion, die Partitionen, die von einigen Tasten (=Spaltennamen), Aufträge durch einen anderen Spaltennamen und gibt die Zeilen zurück, mit top-x rangiert. Dies funktioniert gut für die aufsteigende Reihenfolge: def getTopX(df: DataFrame, top_x: String, top_key:

TypeError: 'Spalte' Objekt ist nicht aufrufbar mit WithColumn

Anzahl der Antworten 2 Antworten
Möchte ich anfügen einer neuen Spalte dataframe "df" aus der Funktion get_distance: def get_distance(x, y): dfDistPerc = hiveContext.sql("select column3 as column3, \ from tab \ where column1 = '" + x + "' \ and column2 =

so wählen Sie alle Spalten, die beginnt mit einem gemeinsamen Etikett

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe in Spark 1.6 und möchten Sie nur einige Spalten aus ihm heraus. Sind die Spaltennamen wie: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2 Ich weiß, dass ich tun kann, wie das auswählen

Die Anwendung einer Fenster-Funktion zu berechnen, die Unterschiede in pySpark

Anzahl der Antworten 2 Antworten
Ich bin mit pySpark, und haben mein dataframe mit zwei Spalten, in denen täglich ein Vermögenswert Preis wie folgt: ind = sc.parallelize(range(1,5)) prices = sc.parallelize([33.3,31.1,51.2,21.3]) data = ind.zip(prices) df = sqlCtx.createDataFrame(data,["day","price"]) Den ich nach der Anwendung df.show():

Wie zählt die Anzahl der Zeilen in einer spark-dataframe basierend auf einem Wert (primary key) aus einer anderen dataframe?

Anzahl der Antworten 2 Antworten
Habe ich zwei dataframes df1 und df2. Beide haben eine Spalte 'Datum', wie unten gezeigt. Struktur von df1 +----------+ | date| +----------+ |02-01-2015| |02-02-2015| |02-03-2015| +----------+ Struktur df2 +---+-------+-----+----------+ | ID|feature|value| date| +---+-------+-----+----------+ | 1|balance| 100|01-01-2015| |

Mode von gruppierten Daten in (py)Funken

Anzahl der Antworten 1 Antworten
Ich habe eine spark-DataFrame mit mehreren Spalten. Ich möchte die Gruppe die Zeilen basierend auf Spalte, und klicken Sie dann den Modus der zweiten Spalte für jede Gruppe. Arbeiten mit ein pandas DataFrame, ich würde so etwas

Abfragen mit streaming-Quellen müssen mit ausgeführt werden writeStream.start();

Anzahl der Antworten 4 Antworten
Ich versuche, die Botschaften zu Lesen von kafka (version 10) Zündkerzen und versuchen, es zu drucken. import spark.implicits._ val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.master", "local") .getOrCreate() val ds1 = spark.readStream.format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topicA") .load() ds1.collect.foreach(println)

Wie sich zwei DataFrames in Scala und Apache Spark?

Anzahl der Antworten 3 Antworten
Gibt es zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Entspricht MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Personenbezogene Daten Player | BirthYear --------------------------------

Wie union Spark SQL Dataframes in Python

Anzahl der Antworten 1 Antworten
Hier sind mehrere Möglichkeiten der Schaffung einer union des dataframes, die (falls vorhanden) ist am besten /empfohlen, wenn wir reden über die großen dataframes? Sollte ich eine leere dataframe ersten oder kontinuierlich union zum ersten dataframe erstellt?

Spark 2.2 Illegale Muster Komponente: XXX java.lang.IllegalArgumentException: Illegal pattern-Komponente: XXX

Anzahl der Antworten 3 Antworten
Ich versuche, ein upgrade von Spark 2.1 zu 2.2. Wenn ich versuche zum Lesen oder schreiben eines dataframe zu einer Position (CSV oder JSON) ich erhalte diese Fehlermeldung: Illegal pattern component: XXX java.lang.IllegalArgumentException: Illegal pattern component: XXX