Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Spark UDF mit varargs

Anzahl der Antworten 1 Antworten
Ist es eine einzige option, um eine Liste der Argumente, die bis zu 22, wie gezeigt, in der Dokumentation? https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration Jemand herausgefunden, wie man etwas ähnliches machen? sc.udf.register("func", (s: String*) => s...... (schreiben von benutzerdefinierte Funktion concat,

Kann nicht finden, die col-Funktion in pyspark

Anzahl der Antworten 3 Antworten
In pyspark 1.6.2, kann ich importieren col Funktion von from pyspark.sql.functions import col aber wenn ich versuchen, es bis in die Github source code ich finde keine col Funktion in functions.py Datei, wie kann python import einer

Die Anwendung von UDFs auf GroupedData in PySpark (mit funktionierender python-Beispiel)

Anzahl der Antworten 3 Antworten
Habe ich dieses python-code wird lokal in ein pandas dataframe: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name)) Ich würde gerne diese in PySpark, aber Schwierigkeiten haben, den Umgang mit pyspark.sql.Gruppe.GroupedData Objekt. Ich habe versucht, die

AuthorizationException: Benutzer nicht berechtigt, die Identität von Benutzer

Anzahl der Antworten 1 Antworten
Schrieb ich einen Funken job, welche Register eine temp-Tabelle und wenn ich setze es über beeline (JDBC-client) $ ./bin/beeline beeline> !connect jdbc:hive2://IP:10003 -n ram -p xxxx 0: jdbc:hive2://IP> show tables; +---------------------------------------------+--------------+---------------------+ | tableName | isTemporary | +---------------------------------------------+--------------+---------------------+

Spark Dataframes an einem einfachen Beispiel: Postgres-Tabelle

Anzahl der Antworten 4 Antworten
Ich bin mit Apache Spark DataFrames an zwei Datenquellen und liefert das Ergebnis als eine weitere DataFrame. Ich möchte schreiben das Ergebnis in ein anderes Postgres-Tabelle. Ich sehe diese option : myDataFrame.write.jdbc(url, table, connectionProperties) Aber, was ich

Unterschied zwischen na().drop() und filter(col.isNotNull) (Apache Spark)

Anzahl der Antworten 2 Antworten
Ist, gibt es einen Unterschied in der Semantik zwischen df.na().drop() und df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN()) wo df ist Apache Spark Dataframe? Oder soll ich erachte es als einen Fehler, wenn die erste NICHT wieder danach null (nicht ein

Das hinzufügen einer neuen Spalte in der Daten-Frame abgeleitet von anderen Spalten (Funke)

Anzahl der Antworten 2 Antworten
Ich bin mit der Funke 1.3.0 und Python. Ich habe einen dataframe, und ich möchte hinzufügen, eine zusätzliche Spalte, welche sich aus anderen Spalten. Wie diese, >>old_df.columns [col_1, col_2, ..., col_m] >>new_df.columns [col_1, col_2, ..., col_m, col_n]

java.sql.SQLException: No suitable driver found beim laden DataFrame in Spark SQL

Anzahl der Antworten 4 Antworten
Ich bin schlagen sehr seltsames problem beim laden der JDBC-DataFrame in Spark SQL. Habe ich versucht, die mehrere Spark-Cluster - GARN, eigenständige cluster und pseudo-distributed mode auf meinem laptop. Es ist reproduzierbar auf beiden Funken 1.3.0 und

Funke Fenster-Funktionen - rangeBetween Termine

Anzahl der Antworten 1 Antworten
Ich habe ein Spark SQL DataFrame mit den Daten und dem, was ich versuche zu bekommen ist, alle Zeilen vor der aktuellen Zeile, in einem bestimmten Datumsbereich. So zum Beispiel möchte ich alle Zeilen von 7 Tagen

Berechnen Sie die Standardabweichung von gruppierten Daten in einem DataFrame Funke

Anzahl der Antworten 1 Antworten
Habe ich Benutzer meldet, ich habe aus einer csv-und die Umwandlung in einen DataFrame zu nutzen, um die SparkSQL Abfrage-Funktionen. Ein einzelner Benutzer erstellen zahlreiche Einträge pro Stunde, und ich würde gerne sammeln einige grundlegende statistische Informationen

Abfragen von JSON-Daten, die Spalte mit Spark DataFrames?

Anzahl der Antworten 3 Antworten
Habe ich ein Cassandra-Tabelle, der Einfachheit halber in etwa so aussieht: key: text jsonData: text blobData: blob Kann ich erstellen Sie eine einfache Daten-frame für das spark und das spark-cassandra-Stecker Verwendung: val df = sqlContext.read .format("org.apache.spark.sql.cassandra") .options(Map("table"

die Aggregat-Funktion Count-Nutzung mit groupBy-Zündkerzen

Anzahl der Antworten 1 Antworten
Ich versuche, mehrere Operationen in einer Zeile code in pySpark, und nicht sicher, ob das möglich ist für mein Fall. Meine Absicht ist nicht, dass man speichern Sie die Ausgabe als einen neuen dataframe. Mein Aktueller code

Spark SQL mehrere Felder filtern

Anzahl der Antworten 1 Antworten
Was ist die corrent-syntax für Filter auf mehrere Spalten in der Scala-API? Wenn ich will, um etwas wie das hier tun: dataFrame.filter($"col01" === "something" && $"col02" === "something else") oder dataFrame.filter($"col01" === "something" || $"col02" === "something

Nehmen Sie n Zeilen aus einem Funken dataframe und pass auf toPandas()

Anzahl der Antworten 2 Antworten
Habe ich diesen code: l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df.withColumn('age2', df.age + 2).toPandas() Funktioniert gut, tut was es muss. Angenommen, wenn ich nur wollen, um den ersten n Zeilen, und rufen Sie dann

Wie konvertiere ich eine WrappedArray Spalte in spark dataframe zu Strings?

Anzahl der Antworten 2 Antworten
Ich versuche zu konvertieren, eine Spalte enthält Array[String] , String, sondern ich ständig diese Fehlermeldung erhalten org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: Lost task 0.3

Was sind die möglichen Gründe für den Empfang TimeoutException: Futures-Zeitüberschreitung nach [- n Sekunden] beim arbeiten mit Spark

Anzahl der Antworten 4 Antworten
Arbeite ich an einem Spark SQL-Programm und ich erhalte folgende exception: 16/11/07 15:58:25 ERROR yarn.ApplicationMaster: User class threw exception: java.util.concurrent.TimeoutException: Futures timed out after [3000 seconds] java.util.concurrent.TimeoutException: Futures timed out after [3000 seconds] at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219) at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223)

Wie zu glätten, eine Struktur, die in einem spark-dataframe?

Anzahl der Antworten 4 Antworten
Ich habe einen dataframe mit der folgenden Struktur: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) |

Was ist der Unterschied zwischen spark.sql.shuffle.Partitionen und Funken.Standard.Parallelität?

Anzahl der Antworten 1 Antworten
Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism? Ich habe versucht, beide in SparkSQL, aber die Aufgabe, die Anzahl der die zweite Bühne ist immer 200. Hinzugefügt einige zusätzliche Informationen, zögern Sie nicht zu Fragen, wenn Sie

Wie die Verbindung von HBase und Funken mit Python?

Anzahl der Antworten 1 Antworten
Ich habe eine peinlich parallele Aufgabe, für die ich benutze Spark zum verteilen der Berechnungen. Diese Berechnungen sind in Python, und ich benutze PySpark zu Lesen und Vorverarbeitung der Daten. Die input-Daten meine Aufgabe ist gespeichert in

wie Sie schreiben, der Fall mit der wenn-Bedingung in spark sql mit scala

Anzahl der Antworten 1 Antworten
SELECT c.PROCESS_ID, CASE WHEN c.PAYMODE = 'M' THEN CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END * 12 ELSE CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END END VAlue

Bieten-schema beim Lesen der csv-Datei als dataframe

Anzahl der Antworten 5 Antworten
Ich versuche, mich zum Lesen einer csv-Datei in einem dataframe. Ich weiß, was das schema meiner dataframe sollte, da ich weiß, dass meine csv-Datei. Auch ich bin mit spark csv-Paket zum Lesen der Datei. Ich habe versucht,

Wie eine Verbindung zu einem Hive-metastore programmgesteuert in SparkSQL?

Anzahl der Antworten 4 Antworten
Ich bin mit HiveContext mit SparkSQL und ich bin versucht, eine Verbindung zu einem remote-Hive-metastore, der einzige Weg, um die hive-metastore ist durch, einschließlich der hive-site.xml auf dem classpath (oder kopieren Sie Sie nach /etc/spark/conf/). Gibt es

Drop Funke dataframe aus dem cache

Anzahl der Antworten 2 Antworten
Bin ich mit Spark 1.3.0 mit python-api. Während der Transformation riesigen dataframes, ich cache viele DFs für eine schnellere Ausführung; df1.cache() df2.cache() Einmal die Verwendung von bestimmten dataframe ist über und wird nicht mehr benötigt, wie kann

Tut SparkSQL Unterstützung Unterabfrage?

Anzahl der Antworten 2 Antworten
Ich bin mit dieser Abfrage in der Funke-shell, aber es gibt mir Fehler, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println) Fehler: java.lang.RuntimeException: [1.47] Fehler: `)" erwartet, aber Bezeichner MAX gefunden wählen

Ist Spark DataFrame verschachtelte Struktur begrenzt für die Auswahl?

Anzahl der Antworten 1 Antworten
Habe ich eine json-Datei mit ein paar Daten, ich bin in der Lage, DataFrame erstellen und das schema für bestimmten Teil davon interessiert mich, sieht wie folgt aus: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes:

Ist es möglich, Aliase für Spalten programmgesteuert in spark sql?

Anzahl der Antworten 4 Antworten
Spark SQL (vielleicht nur HiveQL), die man machen kann: select sex, avg(age) as avg_age from humans group by sex führen würde in ein DataFrame mit Spalten benannt "sex" und "avg_age". Wie kann avg(age) sein alias auf "avg_age"

PySpark row-wise-Funktion Zusammensetzung

Anzahl der Antworten 2 Antworten
Als ein Vereinfachtes Beispiel, ich habe einen dataframe "df" mit den Spalten "col1,col2" und ich möchte, um zu berechnen, eine zeilenweise maximum nach der Anwendung der Funktion auf jede Spalte : def f(x): return (x+1) max_udf=udf(lambda x,y:

Beitritt Funke dataframes auf die Taste

Anzahl der Antworten 3 Antworten
Habe ich gebaut, zwei dataframes. Wie können wir an mehreren Funken dataframes ? Beispiel : PersonDfProfileDf mit einer gemeinsamen Spalte als personId als (key). Nun, wie können wir einen Dataframe Kombination PersonDf und ProfileDf? InformationsquelleAutor der Frage

Besseren Weg, um zu konvertieren ein string-Feld in timestamp in Spark

Anzahl der Antworten 6 Antworten
Ich habe eine CSV, in dem ein Feld datetime in einem bestimmten format. Ich kann nicht importieren Sie direkt in mein Dataframe, denn es muss ein timestamp. Also ich Importiere es als string und verwandeln es in

Wie zu verwenden Konstanten Wert in UDF von Spark SQL(DataFrame)

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe umfasst timestamp. Aggregat nach Zeit(minute, Stunde oder Tag), ich habe versucht wie: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 //period = 1 hour })

Wie man andere Spalten bei der Verwendung von Spark-DataFrame groupby?

Anzahl der Antworten 4 Antworten
wenn ich DataFrame groupby wie diese: df.groupBy(df("age")).agg(Map("id"->"count")) Ich nur einen DataFrame mit den Spalten "Alter" und "count(id)",aber im df gibt es viele andere Spalten wie "name". In allen,möchte ich, um das Ergebnis wie in MySQL, "select name,age,count(id)

Umbenennen der Spaltennamen eines DataFrame in Spark Scala

Anzahl der Antworten 3 Antworten
Ich versuche zu konvertieren alle überschriften /Spaltennamen einer DataFrame im Spark-Scala. jetzt komme ich mit folgenden code ersetzt nur eine einzige Spalte name. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

Apache Spark, fügen Sie ein "CASE WHEN ... ELSE ..." berechneten Spalte zu einer vorhandenen DataFrame

Anzahl der Antworten 4 Antworten
Ich versuche, fügen Sie ein "CASE WHEN ... ELSE ..." berechneten Spalte zu einer vorhandenen DataFrame, mit Scala-APIs. Ab dataframe: color Red Green Blue Gewünschte dataframe (SQL-syntax: CASE WHEN Farbe == Grün then 1 ELSE 0 END

Parse CSV als DataFrame/DataSet mit Apache Spark und Java

Anzahl der Antworten 4 Antworten
Ich bin neu zu entfachen, und ich möchte der Gruppe-durch & verringern Sie finden die folgenden von CSV (eine Zeile nach Beschäftigten): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000,

Berechnung der duration durch Subtraktion zweier datetime-Spalten in string-format

Anzahl der Antworten 6 Antworten
Ich habe eine Spark-Dataframe in, besteht aus einer Reihe von Daten: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd = sc.parallelizesc.parallelize([('X01','2014-02-13T12:36:14.899','2014-02-13T12:31:56.876','sip:4534454450'), ('X02','2014-02-13T12:35:37.405','2014-02-13T12:32:13.321','sip:6413445440'), ('X03','2014-02-13T12:36:03.825','2014-02-13T12:32:15.229','sip:4534437492'), ('XO4','2014-02-13T12:37:05.460','2014-02-13T12:32:36.881','sip:6474454453'), ('XO5','2014-02-13T12:36:52.721','2014-02-13T12:33:30.323','sip:8874458555')])

Upacking eine Liste zum auswählen mehrerer Spalten aus einer spark-data frame

Anzahl der Antworten 5 Antworten
Ich habe eine spark-Daten-frame df. Gibt es eine Möglichkeit der sub-Auswahl ein paar Spalten mit Hilfe einer Liste diese Spalten? scala> df.columns res0: Array[String] = Array("a", "b", "c", "d") Ich weiß, ich kann etwas tun, wie df.select("b",

Pyspark: Split multiple array Spalten in Zeilen

Anzahl der Antworten 2 Antworten
Habe ich ein dataframe, das hat eine Zeile und mehrere Spalten. Einige der Spalten sind die einzelnen Werte, und andere sind Listen. Alle Listen-Spalten die gleiche Länge. Ich möchte split jede Liste Spalte in eine separate Zeile,

Verwenden collect_list und collect_set in Spark SQL

Anzahl der Antworten 1 Antworten
Entsprechend der docsdie collect_set und collect_list Funktionen sollten verfügbar sein Spark SQL. Ich jedoch kann es nicht funktionieren. Ich bin mit Spark-1.6.0 mit einem Docker-image. Ich versuche, dies zu tun in Scala: import org.apache.spark.sql.functions._ df.groupBy("column1") .agg(collect_set("column2")) .show()

die spezifische Reihe von Funke-dataframe

Anzahl der Antworten 4 Antworten
Gibt es keine alternative für df[100, c("column")] im scala spark-Daten-frames. Ich möchte bestimmte Zeilen aus einer Spalte spark-Daten-frame. zum Beispiel 100th Zeile in der obigen R-code entspricht InformationsquelleAutor der Frage nareshbabral | 2016-02-06

Wie schreibt man unit-tests in Spark 2.0+?

Anzahl der Antworten 5 Antworten
Ich habe versucht zu finden, eine vernünftige Weg, um zu testen SparkSession mit dem JUnit-Test-Frameworks. Während es scheinen gute Beispiele für SparkContext ich konnte nicht herausfinden, wie man ein entsprechendes Beispiel arbeiten für SparkSessionobwohl es in mehreren

Filterung ein Funke dataframe basierend auf dem Datum

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe der date, string, string Ich soll die Daten bis zu einem gewissen Zeitraum. Ich habe Folgendes versucht, ohne Glück data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) Ich erhalte eine Fehlermeldung, die folgenden org.apache.spark.sql.AnalysisException: resolved attribute(s) date#75

Wie kann ich prüfen, ob die Gleichstellung der Verwendung von Spark-Dataframe ohne SQL-Abfrage?

Anzahl der Antworten 7 Antworten
Möchte ich eine Spalte auswählen, die gleich einem bestimmten Wert. Ich Tue dies in scala und mit ein wenig Mühe. Heres mein code df.select(df("state")==="TX").show() dieser liefert den Zustand Spalte mit boolean-Werten statt nur TX Ive auch versucht

Abrufen der ersten n in jeder Gruppe von einem DataFrame in pyspark

Anzahl der Antworten 2 Antworten
Gibt es einen DataFrame in pyspark mit Daten wie folgt: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6 Was ich erwarte, ist die Rückkehr

Konvertieren Sie das Datum aus dem String zu Datum-format in Dataframes

Anzahl der Antworten 6 Antworten
Ich versuche zu konvertieren, eine Spalte, die im String-format, Datum-format mit der to_date Funktion aber seine Rückgabe von Null-Werten. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | Date| +----------+ |08/26/2016| |08/26/2016| |08/26/2016| |06/14/2016| spark.sql("select to_date(Date) from incidents").show() +---------------------------+

Spark-Dataset API - beitreten

Anzahl der Antworten 3 Antworten
Ich versuche zu verwenden die Spark - Dataset API, aber ich habe einige Probleme dabei eine einfache Verknüpfung. Sagen wir, ich habe zwei dataset-Feldern: date | valuedann im Falle des DataFrame meinen Beitritt Aussehen würde: val dfA

Extrahieren von Informationen aus einer `org.apache.spark.sql.Zeile`

Anzahl der Antworten 3 Antworten
Habe ich Array[org.apache.spark.sql.Row] zurückgegeben sqc.sql(sqlcmd).collect(): Array([10479,6,10], [8975,149,640], ...) Bekomme ich die einzelnen Werte: scala> pixels(0)(0) res34: Any = 10479 aber Sie sind Anynicht Int. Wie extrahiere ich Sie als Int? Die naheliegendste Lösung nicht funktioniert: scala> pixels(0).getInt(0)

PySpark hinzufügen einer Spalte zu einem DataFrame von einer TimeStampType Spalte

Anzahl der Antworten 1 Antworten
Ich habe einen DataFrame, die Aussehen wie, die. Ich will arbeiten, auf dem Tag der date_time Feld. root |-- host: string (nullable = true) |-- user_id: string (nullable = true) |-- date_time: timestamp (nullable = true) Versuchte

mehrere Bedingungen für die filter-Zündkerzen-Daten-frames

Anzahl der Antworten 3 Antworten
Habe ich einen Daten-frame mit vier Feldern. eines der Feld-name ist der Status, und ich bin versucht, eine ODER-Bedingung .filter für ein dataframe . Ich habe versucht, aus Abfragen, aber kein Glück. df2 = df1.filter(("Status=2") || ("Status

Funke: Spalte Hinzufügen, um dataframe bedingt

Anzahl der Antworten 3 Antworten
Ich versuche, meine Eingabedaten: A B C -------------- 4 blah 2 2 3 56 foo 3 Und fügen Sie eine Spalte am Ende auf der Grundlage, ob B leer ist oder nicht: A B C D --------------------

So schließen Sie mehrere Spalten in Spark dataframe in Python

Anzahl der Antworten 2 Antworten
Fand ich PySpark hat eine Methode namens drop aber es scheint, es können nur drop eine Spalte zu einem Zeitpunkt. Irgendwelche Ideen, wie man mehrere Spalten gleichzeitig? df.drop(['col1','col2']) TypeError Traceback (most recent call last) <ipython-input-96-653b0465e457> in <module>()