Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Berechnen quantile für gruppierte Daten im Dataframe Funke

Anzahl der Antworten 1 Antworten
Habe ich Folgendes Funke dataframe : agent_id|payment_amount| +--------+--------------+ | a| 1000| | b| 1100| | a| 1100| | a| 1200| | b| 1200| | b| 1250| | a| 10000| | b| 9000| +--------+--------------+ mein Wunsch Ausgabe wäre

Spark dataframe: collect () vs select ()

Anzahl der Antworten 4 Antworten
Aufrufen collect() auf eine RDD wird wieder die gesamte dataset-Treiber, die verursachen können, aus dem Speicher, und wir sollten vermeiden, dass. Wird collect() die gleiche Weise Verhalten, wenn es auf einem dataframe? Was ist mit den select()

Spark dataframe Holen-Spalte-Wert in eine string variable

Anzahl der Antworten 2 Antworten
Ich versuche extrahieren Spalte Wert in eine variable, so dass ich den Wert irgendwo anders im code. Ich versuche wie folgt val name= test.filter(test("id").equalTo("200")).select("name").col("name") Gibt es name org.apache.spark.sql.Column = name wie man den Wert? Upvoting, weil, wie

Wie zu verwenden collect_set und collect_list Funktionen in windowed aggregation in Spark 1.6?

Anzahl der Antworten 1 Antworten
Zündkerzen 1.6.0 /Scala, ist es eine Gelegenheit, um collect_list("colC") oder collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")? InformationsquelleAutor Dzmitry Haikov | 2017-07-16

spark-in-Garn-cluser 'sc' nicht definiert

Anzahl der Antworten 2 Antworten
Bin ich mit spark 1.3.1. Muss ich erklären, sc, wenn die Funken laufen in Garn-cluster-Modus? Ich habe kein problem mit der gleichen python-Programm in spark python-shell. Dies ist, wie ich behaupte der job : /bin/spark-submit --master yarn-cluster

SparkSQL : Kann ich explodieren zwei verschiedene Variablen in der gleichen Abfrage?

Anzahl der Antworten 3 Antworten
Habe ich Folgendes explodieren-Abfrage, die funktioniert: data1 = sqlContext.sql("select explode(names) as name from data") Will ich explodieren, ein weiteres Feld "Farben", so dass die endgültige Ausgabe könnte das kartesische Produkt von Namen und Farben. Also ich hab:

Methoden max() und sum() undefiniert in der Java-Spark-Dataframe API (1.4.1)

Anzahl der Antworten 4 Antworten
Setzen Beispiel-code von DataFrame.groupBy() in meinem code, aber es gezeigt, die Methoden der max() und sum() undefiniert. df.groupBy("department").agg(max("age"), sum("expense")); Welche Java-Paket muss ich importieren, wenn ich Sie benutzen will max() und sum() Methode? Ist die korrekte Syntax,

Wie nehmen Sie eine zufällige Zeile aus einer PySpark DataFrame?

Anzahl der Antworten 1 Antworten
Wie bekomme ich eine zufällige Zeile aus einer PySpark DataFrame? Ich sehe nur die Methode sample() nimmt einen Bruch als parameter. Die Einstellung dieser Fraktion zu 1/numberOfRows führt zu zufälligen Ergebnissen, wo ich manchmal keine Zeile. Auf

Wie konvertiert Spalte des arrays von strings an strings?

Anzahl der Antworten 3 Antworten
Ich habe eine Spalte, die den Typ array < string > im spark-Tabellen. Ich bin mit SQL-Abfrage dieser Funke Tabellen. Ich wollte zu konvertieren, die array < string > in string. Wenn verwendet die folgende syntax: select

Wie man die erste Zeile als Kopfzeile beim Lesen einer Datei in PySpark und konvertieren Sie es für Pandas Dataframe

Anzahl der Antworten 2 Antworten
Ich lese eine Datei in PySpark und bilden die rdd. Ich habe dann konvertieren Sie es in einem normalen dataframe und dann zu pandas dataframe. Das Problem, das ich habe, ist, dass es header-Zeile in meine input-Datei

Sie brauchen, um zu bauen Funken, bevor Sie dieses Programm ausführen Fehler beim ausführen von/bin / pyspark

Anzahl der Antworten 3 Antworten
Ich bin erste Schritte mit Spark. Bin ich immer ein Problem beim starten Funken. Ich heruntergeladen Funke offiziellen website, ich bin versucht, quickstart aus diesem https://spark.apache.org/docs/0.9.0/quick-start.html Habe ich heruntergeladen, setup sparkhome., und wenn ich versuchte, läuft ./pyspark

Immer OutofMemoryError - GC overhead limit überschreiten, in pyspark

Anzahl der Antworten 1 Antworten
in der Mitte des Projekts bin ich immer der Balg Fehler nach dem aufrufen einer Funktion in meinem spark sql-Abfrage ich geschrieben habe, eine Benutzer-Funktion definieren, die zwei string-und concat Sie nach der Verkettung wird es dauern,

Wie bedingt ersetzen Wert in einer Spalte auf der Grundlage der Auswertung des Ausdrucks auf der Basis einer anderen Spalte in Pyspark?

Anzahl der Antworten 1 Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (0, 5, float(10)), (1, 6, float('nan')), (0, 6, float('nan'))], ('session', "timestamp1", "id2")) +-------+----------+----+ |session|timestamp1| id2| +-------+----------+----+ | 1|

Wie kann ich einen Funken zu erzeugen DataFrame aus einem verschachtelten array von struct-element?

Anzahl der Antworten 3 Antworten
Habe ich gelesen, die eine JSON-Datei in Spark. Diese Datei hat die folgende Struktur: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable =

Wie liest gesamte Datei in einen string

Anzahl der Antworten 4 Antworten
Möchte ich Lesen, json-oder xml-Datei in pyspark.lf meine Datei ist aufgeteilt in mehrere line-in rdd= sc.textFIle(json or xml) Eingang { " employees": [ { "firstName":"John", "lastName":"Doe" }, { "firstName":"Anna" ] } Eingabe auf mehrere Zeilen verteilt. Erwartete

how to get max(Datum) aus der gegebenen Menge von Daten zusammengefasst, die durch einige Felder mit pyspark?

Anzahl der Antworten 1 Antworten
Habe ich die Daten im dataframe wie folgt: datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 |

Wie verwenden Sie NICHT die IN-Klausel in der filter-Bedingung Funke

Anzahl der Antworten 2 Antworten
Möchte ich filter auf eine Spalte einer RDD Quelle : val source = sql("SELECT * from sample.source").rdd.map(_.mkString(",")) val destination = sql("select * from sample.destination").rdd.map(_.mkString(",")) val source_primary_key = source.map(rec => (rec.split(",")(0))) val destination_primary_key = destination.map(rec => (rec.split(",")(0))) val

Wie konvertiert man die Datensätze der Funke Zeile in string?

Anzahl der Antworten 2 Antworten
Ich geschrieben habe, der code für den Zugriff auf die Hive-Tabelle mit SparkSQL. Hier ist der code: SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("local[*]") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); Dataset<Row> df = spark.sql("select survey_response_value from

Spark Scala : Unable to import sqlContext.implicits._

Anzahl der Antworten 4 Antworten
Habe ich versucht den code unten und nicht importieren sqlContext.implicits._ - es wirft einen Fehler (in der Scala IDE), nicht um den code zu erstellen: Wert implicits ist nicht ein Mitglied der org.apache.spark.sql.SQLContext Muss ich hinzufügen, alle

Wie teilt Vektor in Spalten - mit PySpark

Anzahl der Antworten 1 Antworten
Kontext: ich habe eine DataFrame mit 2 Spalten: Wort und Vektor. Wo die Spalte Typ "vector" ist VectorUDT. Beispiel: word | vector assert | [435,323,324,212...] Und ich will diesen: word | v1 | v2 | v3 |

Wählen Sie bestimmte Spalten in einer PySpark dataframe um die Leistung zu verbessern

Anzahl der Antworten 2 Antworten
Arbeiten mit Spark dataframes importiert aus dem Bienenstock, manchmal ich am Ende mit mehreren Spalten, die ich nicht brauche. Angenommen, ich will nicht, Sie zu filtern, mit df = SqlContext.sql('select cols from mytable') und ich bin das

So konvertieren Sie eine JSON-Datei, Parkett, Apache Spark?

Anzahl der Antworten 1 Antworten
Ich bin neu in Apache Spark 1.3.1. Wie konvertiere ich eine JSON-Datei zu Parkett? Sie können auch mithilfe von Apache Drill (vielleicht leichter zu setup), können Sie konvertieren von JSON aus einem lokalen Dateisystem HDFS-Parkett in 1

Spark SQL: Wie neue Zeile Anhängen zu dataframe Tabelle (aus einer anderen Tabelle)

Anzahl der Antworten 2 Antworten
Bin ich mit Spark SQL mit dataframes. Ich habe ein Eingabe-dataframe, und ich möchte anfügen (oder einfügen) seine Zeilen auf eine größere dataframe, hat mehr Spalten. Wie soll ich das tun? Wenn das SQL würde ich INSERT

PySpark, Wie Lesen von CSV in Dataframe, und manipulieren

Anzahl der Antworten 1 Antworten
Ich bin ganz neu bei pyspark und bin versucht, es zu verarbeiten, ein großes dataset, das ist als csv-Datei gespeichert. Ich möchte Lesen CSV-Datei in spark dataframe, fallen einige Spalten, neue Spalten hinzuzufügen. Wie soll ich das

Wie Sie filter ein Funke dataframe gegen einen anderen dataframe

Anzahl der Antworten 1 Antworten
Ich versuche, die filter eines dataframe gegen den anderen: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id") Nun möchte ich filter df1 und wieder ein dataframe enthält alle

Spark SQL konvertieren string in timestamp

Anzahl der Antworten 1 Antworten
Ich bin neu zu entfachen, SQL und versuche zu konvertieren einen string in ein timestamp in einer spark-Daten-frame. Ich habe einen string, der sieht aus wie '2017-08-01T02:26:59.000Z' in einer Spalte namens " time_string Meinen code zu konvertieren

Spark DataFrame: count distinct-Werte jeder Spalte

Anzahl der Antworten 4 Antworten
Die Frage ist so ziemlich im Titel: gibt es eine effiziente Art zu zählen der eindeutigen Werte in jeder Spalte in einem DataFrame? Den beschreiben Methode liefert nur die Anzahl aber nicht die distinct-count, und ich Frage

spark - scala: nicht ein Mitglied der org.apache.spark.sql.Zeile

Anzahl der Antworten 2 Antworten
Ich versuche zu konvertieren, einen Daten-frame zu RDD, dann einige Operationen, unter zurück-Tupeln: df.rdd.map { t=> (t._2 + "_" + t._3 , t) }.take(5) Dann bekam ich den folgenden Fehler. Jemand irgendwelche Ideen? Danke! <console>:37: error: value

Nicht Funken.sql.autoBroadcastJoinThreshold Arbeit für joins verwenden Datensatz der join-operator?

Anzahl der Antworten 2 Antworten
Ich würde gerne wissen, ob spark.sql.autoBroadcastJoinThreshold Eigenschaft kann nützlich sein für die übertragung kleinerer Tisch auf alle worker nodes (während der join), auch wenn die join-Schema ist über die Dataset API-Verknüpfung anstelle der Verwendung von Spark-SQL. Wenn

spark sql-Fenster-Funktion lag

Anzahl der Antworten 2 Antworten
Ich freue mich auf die Fenster slide-Funktion für eine Spark-DataFrame in Spark SQL, Scala. Ich habe einen dataframe mit den Spalten Col1,Col1,Col1,Datum. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 201604

Wie wählen Sie und, um mehrere Spalten in einem Pyspark Dataframe nach einem join

Anzahl der Antworten 1 Antworten
Möchte ich Sie zum auswählen mehrerer Spalten aus vorhandenen dataframe (die erstellt wird, nachdem joins) und möchte, um die fileds, die als mein Ziel-Tabelle Struktur. Wie kann es getan werden ? Der sich näherte, die ich benutzt

Wie die Konvertierung Timestamp zu Datum-format in einem DataFrame?

Anzahl der Antworten 3 Antworten
Ich habe eine DataFrame mit Timestamp Spalte, die ich brauche, um zu konvertieren, wie Date format. Gibt es eine Spark-SQL-Funktionen zur Verfügung? InformationsquelleAutor Shankar | 2016-11-17

Schreiben RDD als Textdatei mit Apache Spark

Anzahl der Antworten 5 Antworten
Ich bin erkunden Funke für die batch-Verarbeitung. Ich bin mit der Funke auf meinem lokalen Rechner mit standalone-Modus. Ich versuche zu konvertieren, der Funke RDD als einzelne Datei [endgültige Ausgabe] mit saveTextFile () - Methode, aber es

Anwendung Funktion Spark Dataframe Spalte

Anzahl der Antworten 1 Antworten
Kommen R, ich bin verwendet, um einfach zu tun, Operationen auf Spalten. Gibt es einen einfachen Weg, um diese Funktion, die ich geschrieben habe in scala def round_tenths_place( un_rounded:Double ) : Double = { val rounded =

Entfernen Sie die Temporären Tabellen von Apache Spark SQL

Anzahl der Antworten 3 Antworten
Habe ich registertemptable im Apache Spark mit Zeppelin unten: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => s.split(",")).filter(s => s(0) != "Date").map( s =>

Spark SQL groß-und Kleinschreibung filter für Spalte Bedingungen

Anzahl der Antworten 2 Antworten
Wie zu verwenden Spark SQL-filter als groß-und Kleinschreibung filter. Beispiel: dataFrame.filter(dataFrame.col("vendor").equalTo("fortinet")); nur die Rückgabe von Zeilen, die 'vendor' Spalte ist gleich 'fortinet' aber ich möchte die Zeilen, die 'vendor' Spalte gleich 'fortinet' oder 'Fortinet' oder 'foRtinet' oder

Apache Spark : JDBC-Verbindung funktioniert nicht

Anzahl der Antworten 6 Antworten
Habe ich mich gefragt, diese Frage bisher auch, aber nicht bekam keine Antwort (Nicht in der Lage, eine Verbindung zu PostgreSQL mit jdbc in pyspark shell). Habe ich erfolgreich installiert Spark 1.3.0 auf meinem lokalen windows und

dynamisch binden variable/parameter in der Funke SQL?

Anzahl der Antworten 3 Antworten
Binden von Variablen in Apache Spark SQL? Zum Beispiel: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) InformationsquelleAutor user3769729 | 2014-11-05

Temp-Tabelle Zwischenspeichern mit spark-sql

Anzahl der Antworten 2 Antworten
Ist eine Tabelle registriert mit registerTempTable (createOrReplaceTempView mit Funke 2.+) zwischengespeichert? Verwendung von Zeppelin, registriere ich eine DataFrame in mein scala-code, nach der Berechnung, und dann innerhalb %pyspark ich darauf zugreifen möchten, und weitere filter. Wird es

Zusammenführen zweier Spalten von a `Dataframe` Spark in einem 2-Tupel?

Anzahl der Antworten 3 Antworten
Habe ich einen Funken DataFrame df mit fünf Spalten. Ich möchte eine weitere Spalte hinzufügen, die mit den Werten die Tupel der ersten und zweiten Spalten. Bei der Verwendung mit withColumn() Methode bekomme ich den Fehler, weil

Spark SQL - Unterschied zwischen df.partitionieren und DataFrameWriter partitionBy?

Anzahl der Antworten 2 Antworten
Was ist der Unterschied zwischen DataFrame repartition() und DataFrameWriter partitionBy() Methoden? Ich hoffe, beide werden benutzt, um "partition Daten basierend auf dataframe Spalte"? Oder gibt es da einen Unterschied? InformationsquelleAutor Shankar | 2016-11-04

Was sind die verschiedenen join Typen in der Funke?

Anzahl der Antworten 4 Antworten
Ich schaute auf die Dokumente, und es sagt, dass die folgenden join-Typen werden unterstützt: Art der Verknüpfung durchführen. Standard-innere. Muss man: innere, cross, äußerer, voller, full_outer, Links, left_outer, rechts, right_outer, left_semi, left_anti. Ich schaute auf die StackOverflow-Antwort

die Auswahl eines Bereichs von Elementen in einem array spark sql

Anzahl der Antworten 7 Antworten
Benutze ich spark-shell zu tun, die unten angegebenen Operationen. Kürzlich geladen eine Tabelle mit einem array-Spalte in der Funke-sql . Hier ist der DDL für das gleiche: create table test_emp_arr{ dept_id string, dept_nm string, emp_details Array<string> }

Spark SQL - Unterschied zwischen gzip-vs snappy vs lzo-Komprimierung-Formate

Anzahl der Antworten 2 Antworten
Ich versuche, mit Spark SQL zu schreiben parquet Datei. Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo. Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für

So konvertieren Sie ein dataframe dataset in Apache Spark in Scala?

Anzahl der Antworten 2 Antworten
Muss ich meine konvertieren dataframe zu einem dataset, und ich verwendete den folgenden code: val final_df = Dataframe.withColumn( "features", toVec4( //casting into Timestamp to parse the string, and then into Int $"time_stamp_0".cast(TimestampType).cast(IntegerType), $"count", $"sender_ip_1", $"receiver_ip_2" ) ).withColumn("label",

Warum spark-Anwendung schlägt fehl “executor.CoarseGrainedExecutorBackend: Fahrer-Distanziert"?

Anzahl der Antworten 2 Antworten
Wenn ich die Abfrage ausführen sql via spark-senden und Funken-sql, entsprechende spark-Anwendung schlägt immer fehl, mit der Fehlermeldung folgt: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://sparkDriver@slave75:60697/user/HeartbeatReceiver 15/03/10 18:52:08 ERROR executor.CoarseGrainedExecutorBackend: Driver Disassociated [akka.tcp://sparkExecutor@slave79:35643] -> [akka.tcp://sparkDriver@slave75:60697] disassociated!

Wie verwenden von Spark SQL DataFrame mit flatMap?

Anzahl der Antworten 2 Antworten
Ich bin mit der Funke Scala-API. Ich habe eine Spark SQL DataFrame (Lesen aus einer Avro-Datei) mit folgendem schema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key:

So wählen Sie die Letzte Zeile und auch, wie Sie Zugang zu PySpark dataframe, die durch den index?

Anzahl der Antworten 4 Antworten
Vom PySpark SQL dataframe wie name age city abc 20 A def 30 B Wie man die Letzte Zeile.(Wie von df.limit(1) ich kann die erste Zeile des dataframe in neuen dataframe). Und wie kann ich auf die

pyspark: TypeError: IntegerType können nicht akzeptieren, Objekt-Typ <type 'unicode'>

Anzahl der Antworten 2 Antworten
Programmierung mit pyspark auf eine Spark-cluster, die Daten ist groß und in Stücke, so kann nicht in den Speicher geladen, oder überprüfen Sie die Vernunft der Daten leicht im Grunde sieht es aus wie af.b Current%20events 1

Wie zip-zwei (oder mehr) DataFrame in Spark

Anzahl der Antworten 4 Antworten
Habe ich zwei DataFrame a und b. a ist wie Column 1 | Column 2 abc | 123 cde | 23 b ist wie Column 1 1 2 Ich möchte zip - a und b (oder sogar