Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Spark UDF mit varargs

1 Antworten

Ist es eine einzige option, um eine Liste der Argumente, die bis zu 22, wie gezeigt, in der Dokumentation? https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration Jemand herausgefunden, wie man etwas ähnliches machen? sc.udf.register("func", (s: String*) => s...... (schreiben von benutzerdefinierte Funktion concat,

Kann nicht finden, die col-Funktion in pyspark

3 Antworten

In pyspark 1.6.2, kann ich importieren col Funktion von from pyspark.sql.functions import col aber wenn ich versuchen, es bis in die Github source code ich finde keine col Funktion in functions.py Datei, wie kann python import einer

apache-spark apache-spark-sql pyspark pyspark-sql python

Die Anwendung von UDFs auf GroupedData in PySpark (mit funktionierender python-Beispiel)

3 Antworten

Habe ich dieses python-code wird lokal in ein pandas dataframe: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name)) Ich würde gerne diese in PySpark, aber Schwierigkeiten haben, den Umgang mit pyspark.sql.Gruppe.GroupedData Objekt. Ich habe versucht, die

apache-spark apache-spark-sql pyspark python user-defined-functions

AuthorizationException: Benutzer nicht berechtigt, die Identität von Benutzer

1 Antworten

Schrieb ich einen Funken job, welche Register eine temp-Tabelle und wenn ich setze es über beeline (JDBC-client) $ ./bin/beeline beeline> !connect jdbc:hive2://IP:10003 -n ram -p xxxx 0: jdbc:hive2://IP> show tables; +---------------------------------------------+--------------+---------------------+ | tableName | isTemporary | +---------------------------------------------+--------------+---------------------+

apache-spark apache-spark-sql beeline hive

Spark Dataframes an einem einfachen Beispiel: Postgres-Tabelle

4 Antworten

Ich bin mit Apache Spark DataFrames an zwei Datenquellen und liefert das Ergebnis als eine weitere DataFrame. Ich möchte schreiben das Ergebnis in ein anderes Postgres-Tabelle. Ich sehe diese option : myDataFrame.write.jdbc(url, table, connectionProperties) Aber, was ich

apache-spark apache-spark-sql postgresql scala spark-dataframe

Unterschied zwischen na().drop() und filter(col.isNotNull) (Apache Spark)

2 Antworten

Ist, gibt es einen Unterschied in der Semantik zwischen df.na().drop() und df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN()) wo df ist Apache Spark Dataframe? Oder soll ich erachte es als einen Fehler, wenn die erste NICHT wieder danach null (nicht ein

apache-spark apache-spark-sql

Das hinzufügen einer neuen Spalte in der Daten-Frame abgeleitet von anderen Spalten (Funke)

2 Antworten

Ich bin mit der Funke 1.3.0 und Python. Ich habe einen dataframe, und ich möchte hinzufügen, eine zusätzliche Spalte, welche sich aus anderen Spalten. Wie diese, >>old_df.columns [col_1, col_2, ..., col_m] >>new_df.columns [col_1, col_2, ..., col_m, col_n]

apache-spark apache-spark-sql pyspark python

java.sql.SQLException: No suitable driver found beim laden DataFrame in Spark SQL

4 Antworten

Ich bin schlagen sehr seltsames problem beim laden der JDBC-DataFrame in Spark SQL. Habe ich versucht, die mehrere Spark-Cluster - GARN, eigenständige cluster und pseudo-distributed mode auf meinem laptop. Es ist reproduzierbar auf beiden Funken 1.3.0 und

apache-spark apache-spark-sql jdbc scala

Funke Fenster-Funktionen - rangeBetween Termine

1 Antworten

Ich habe ein Spark SQL DataFrame mit den Daten und dem, was ich versuche zu bekommen ist, alle Zeilen vor der aktuellen Zeile, in einem bestimmten Datumsbereich. So zum Beispiel möchte ich alle Zeilen von 7 Tagen

apache-spark apache-spark-sql pyspark sql window-functions

Berechnen Sie die Standardabweichung von gruppierten Daten in einem DataFrame Funke

1 Antworten

Habe ich Benutzer meldet, ich habe aus einer csv-und die Umwandlung in einen DataFrame zu nutzen, um die SparkSQL Abfrage-Funktionen. Ein einzelner Benutzer erstellen zahlreiche Einträge pro Stunde, und ich würde gerne sammeln einige grundlegende statistische Informationen

apache-spark apache-spark-sql scala

Abfragen von JSON-Daten, die Spalte mit Spark DataFrames?

3 Antworten

Habe ich ein Cassandra-Tabelle, der Einfachheit halber in etwa so aussieht: key: text jsonData: text blobData: blob Kann ich erstellen Sie eine einfache Daten-frame für das spark und das spark-cassandra-Stecker Verwendung: val df = sqlContext.read .format("org.apache.spark.sql.cassandra") .options(Map("table"

apache-spark apache-spark-sql scala spark-cassandra-connector spark-dataframe

die Aggregat-Funktion Count-Nutzung mit groupBy-Zündkerzen

1 Antworten

Ich versuche, mehrere Operationen in einer Zeile code in pySpark, und nicht sicher, ob das möglich ist für mein Fall. Meine Absicht ist nicht, dass man speichern Sie die Ausgabe als einen neuen dataframe. Mein Aktueller code

apache-spark apache-spark-sql java pyspark scala

Spark SQL mehrere Felder filtern

1 Antworten

Was ist die corrent-syntax für Filter auf mehrere Spalten in der Scala-API? Wenn ich will, um etwas wie das hier tun: dataFrame.filter($"col01" === "something" && $"col02" === "something else") oder dataFrame.filter($"col01" === "something" || $"col02" === "something

apache-spark apache-spark-sql scala

Nehmen Sie n Zeilen aus einem Funken dataframe und pass auf toPandas()

2 Antworten

Habe ich diesen code: l = [('Alice', 1),('Jim',2),('Sandra',3)] df = sqlContext.createDataFrame(l, ['name', 'age']) df.withColumn('age2', df.age + 2).toPandas() Funktioniert gut, tut was es muss. Angenommen, wenn ich nur wollen, um den ersten n Zeilen, und rufen Sie dann

apache-spark-sql python spark-dataframe

Wie konvertiere ich eine WrappedArray Spalte in spark dataframe zu Strings?

2 Antworten

Ich versuche zu konvertieren, eine Spalte enthält Array[String] , String, sondern ich ständig diese Fehlermeldung erhalten org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: Lost task 0.3

apache-spark apache-spark-sql scala spark-dataframe

Was sind die möglichen Gründe für den Empfang TimeoutException: Futures-Zeitüberschreitung nach [- n Sekunden] beim arbeiten mit Spark

4 Antworten

Arbeite ich an einem Spark SQL-Programm und ich erhalte folgende exception: 16/11/07 15:58:25 ERROR yarn.ApplicationMaster: User class threw exception: java.util.concurrent.TimeoutException: Futures timed out after [3000 seconds] java.util.concurrent.TimeoutException: Futures timed out after [3000 seconds] at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219) at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223)

apache-spark apache-spark-sql scala spark-dataframe

Wie zu glätten, eine Struktur, die in einem spark-dataframe?

4 Antworten

apache-spark apache-spark-sql java

Was ist der Unterschied zwischen spark.sql.shuffle.Partitionen und Funken.Standard.Parallelität?

1 Antworten

Was ist der Unterschied zwischen spark.sql.shuffle.partitions und spark.default.parallelism? Ich habe versucht, beide in SparkSQL, aber die Aufgabe, die Anzahl der die zweite Bühne ist immer 200. Hinzugefügt einige zusätzliche Informationen, zögern Sie nicht zu Fragen, wenn Sie

apache-spark apache-spark-sql bigdata hadoop performance

Wie die Verbindung von HBase und Funken mit Python?

1 Antworten

Ich habe eine peinlich parallele Aufgabe, für die ich benutze Spark zum verteilen der Berechnungen. Diese Berechnungen sind in Python, und ich benutze PySpark zu Lesen und Vorverarbeitung der Daten. Die input-Daten meine Aufgabe ist gespeichert in

apache-spark apache-spark-sql hbase pyspark python

wie Sie schreiben, der Fall mit der wenn-Bedingung in spark sql mit scala

1 Antworten

SELECT c.PROCESS_ID, CASE WHEN c.PAYMODE = 'M' THEN CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END * 12 ELSE CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END END VAlue

apache-spark-sql

Bieten-schema beim Lesen der csv-Datei als dataframe

5 Antworten

Ich versuche, mich zum Lesen einer csv-Datei in einem dataframe. Ich weiß, was das schema meiner dataframe sollte, da ich weiß, dass meine csv-Datei. Auch ich bin mit spark csv-Paket zum Lesen der Datei. Ich habe versucht,

apache-spark apache-spark-sql dataframe scala spark-csv

Wie eine Verbindung zu einem Hive-metastore programmgesteuert in SparkSQL?

4 Antworten

Ich bin mit HiveContext mit SparkSQL und ich bin versucht, eine Verbindung zu einem remote-Hive-metastore, der einzige Weg, um die hive-metastore ist durch, einschließlich der hive-site.xml auf dem classpath (oder kopieren Sie Sie nach /etc/spark/conf/). Gibt es

apache-spark apache-spark-sql hadoop hive

Drop Funke dataframe aus dem cache

2 Antworten

Bin ich mit Spark 1.3.0 mit python-api. Während der Transformation riesigen dataframes, ich cache viele DFs für eine schnellere Ausführung; df1.cache() df2.cache() Einmal die Verwendung von bestimmten dataframe ist über und wird nicht mehr benötigt, wie kann

apache-spark apache-spark-sql spark-streaming

Tut SparkSQL Unterstützung Unterabfrage?

2 Antworten

Ich bin mit dieser Abfrage in der Funke-shell, aber es gibt mir Fehler, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println) Fehler: java.lang.RuntimeException: [1.47] Fehler: `)" erwartet, aber Bezeichner MAX gefunden wählen

apache-spark apache-spark-sql sql subquery

Ist Spark DataFrame verschachtelte Struktur begrenzt für die Auswahl?

1 Antworten

Habe ich eine json-Datei mit ein paar Daten, ich bin in der Lage, DataFrame erstellen und das schema für bestimmten Teil davon interessiert mich, sieht wie folgt aus: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes:

apache-spark apache-spark-sql

Ist es möglich, Aliase für Spalten programmgesteuert in spark sql?

4 Antworten

Spark SQL (vielleicht nur HiveQL), die man machen kann: select sex, avg(age) as avg_age from humans group by sex führen würde in ein DataFrame mit Spalten benannt "sex" und "avg_age". Wie kann avg(age) sein alias auf "avg_age"

apache-spark apache-spark-sql scala

PySpark row-wise-Funktion Zusammensetzung

2 Antworten

Als ein Vereinfachtes Beispiel, ich habe einen dataframe "df" mit den Spalten "col1,col2" und ich möchte, um zu berechnen, eine zeilenweise maximum nach der Anwendung der Funktion auf jede Spalte : def f(x): return (x+1) max_udf=udf(lambda x,y:

apache-spark apache-spark-sql pyspark python

Beitritt Funke dataframes auf die Taste

3 Antworten

Habe ich gebaut, zwei dataframes. Wie können wir an mehreren Funken dataframes ? Beispiel : PersonDfProfileDf mit einer gemeinsamen Spalte als personId als (key). Nun, wie können wir einen Dataframe Kombination PersonDf und ProfileDf? InformationsquelleAutor der Frage

apache-spark apache-spark-sql scala spark-dataframe

Besseren Weg, um zu konvertieren ein string-Feld in timestamp in Spark

6 Antworten

Ich habe eine CSV, in dem ein Feld datetime in einem bestimmten format. Ich kann nicht importieren Sie direkt in mein Dataframe, denn es muss ein timestamp. Also ich Importiere es als string und verwandeln es in

apache-spark apache-spark-sql scala

Wie zu verwenden Konstanten Wert in UDF von Spark SQL(DataFrame)

1 Antworten

Ich habe einen dataframe umfasst timestamp. Aggregat nach Zeit(minute, Stunde oder Tag), ich habe versucht wie: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 //period = 1 hour })

apache-spark apache-spark-sql scala

Wie man andere Spalten bei der Verwendung von Spark-DataFrame groupby?

4 Antworten

wenn ich DataFrame groupby wie diese: df.groupBy(df("age")).agg(Map("id"->"count")) Ich nur einen DataFrame mit den Spalten "Alter" und "count(id)",aber im df gibt es viele andere Spalten wie "name". In allen,möchte ich, um das Ergebnis wie in MySQL, "select name,age,count(id)

apache-spark apache-spark-sql spark-dataframe sql

Umbenennen der Spaltennamen eines DataFrame in Spark Scala

3 Antworten

Ich versuche zu konvertieren alle überschriften /Spaltennamen einer DataFrame im Spark-Scala. jetzt komme ich mit folgenden code ersetzt nur eine einzige Spalte name. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

apache-spark apache-spark-sql dataframe scala

Apache Spark, fügen Sie ein "CASE WHEN ... ELSE ..." berechneten Spalte zu einer vorhandenen DataFrame

4 Antworten

Ich versuche, fügen Sie ein "CASE WHEN ... ELSE ..." berechneten Spalte zu einer vorhandenen DataFrame, mit Scala-APIs. Ab dataframe: color Red Green Blue Gewünschte dataframe (SQL-syntax: CASE WHEN Farbe == Grün then 1 ELSE 0 END

apache-spark apache-spark-sql dataframe scala

Parse CSV als DataFrame/DataSet mit Apache Spark und Java

4 Antworten

Ich bin neu zu entfachen, und ich möchte der Gruppe-durch & verringern Sie finden die folgenden von CSV (eine Zeile nach Beschäftigten): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000,

apache-spark apache-spark-sql java spark-csv

Berechnung der duration durch Subtraktion zweier datetime-Spalten in string-format

6 Antworten

Ich habe eine Spark-Dataframe in, besteht aus einer Reihe von Daten: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd = sc.parallelizesc.parallelize([('X01','2014-02-13T12:36:14.899','2014-02-13T12:31:56.876','sip:4534454450'), ('X02','2014-02-13T12:35:37.405','2014-02-13T12:32:13.321','sip:6413445440'), ('X03','2014-02-13T12:36:03.825','2014-02-13T12:32:15.229','sip:4534437492'), ('XO4','2014-02-13T12:37:05.460','2014-02-13T12:32:36.881','sip:6474454453'), ('XO5','2014-02-13T12:36:52.721','2014-02-13T12:33:30.323','sip:8874458555')])

apache-spark apache-spark-sql pyspark

Upacking eine Liste zum auswählen mehrerer Spalten aus einer spark-data frame

5 Antworten

Ich habe eine spark-Daten-frame df. Gibt es eine Möglichkeit der sub-Auswahl ein paar Spalten mit Hilfe einer Liste diese Spalten? scala> df.columns res0: Array[String] = Array("a", "b", "c", "d") Ich weiß, ich kann etwas tun, wie df.select("b",

apache-spark apache-spark-sql spark-dataframe

Pyspark: Split multiple array Spalten in Zeilen

2 Antworten

Habe ich ein dataframe, das hat eine Zeile und mehrere Spalten. Einige der Spalten sind die einzelnen Werte, und andere sind Listen. Alle Listen-Spalten die gleiche Länge. Ich möchte split jede Liste Spalte in eine separate Zeile,

apache-spark apache-spark-sql dataframe pyspark python

Verwenden collect_list und collect_set in Spark SQL

1 Antworten

Entsprechend der docsdie collect_set und collect_list Funktionen sollten verfügbar sein Spark SQL. Ich jedoch kann es nicht funktionieren. Ich bin mit Spark-1.6.0 mit einem Docker-image. Ich versuche, dies zu tun in Scala: import org.apache.spark.sql.functions._ df.groupBy("column1") .agg(collect_set("column2")) .show()

apache-spark apache-spark-sql hive

die spezifische Reihe von Funke-dataframe

4 Antworten

Gibt es keine alternative für df[100, c("column")] im scala spark-Daten-frames. Ich möchte bestimmte Zeilen aus einer Spalte spark-Daten-frame. zum Beispiel 100th Zeile in der obigen R-code entspricht InformationsquelleAutor der Frage nareshbabral | 2016-02-06

apache-spark apache-spark-sql

Wie schreibt man unit-tests in Spark 2.0+?

5 Antworten

Ich habe versucht zu finden, eine vernünftige Weg, um zu testen SparkSession mit dem JUnit-Test-Frameworks. Während es scheinen gute Beispiele für SparkContext ich konnte nicht herausfinden, wie man ein entsprechendes Beispiel arbeiten für SparkSessionobwohl es in mehreren

apache-spark apache-spark-sql junit scala unit-testing

Filterung ein Funke dataframe basierend auf dem Datum

2 Antworten

Ich habe einen dataframe der date, string, string Ich soll die Daten bis zu einem gewissen Zeitraum. Ich habe Folgendes versucht, ohne Glück data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) Ich erhalte eine Fehlermeldung, die folgenden org.apache.spark.sql.AnalysisException: resolved attribute(s) date#75

apache-spark apache-spark-sql

Wie kann ich prüfen, ob die Gleichstellung der Verwendung von Spark-Dataframe ohne SQL-Abfrage?

7 Antworten

Möchte ich eine Spalte auswählen, die gleich einem bestimmten Wert. Ich Tue dies in scala und mit ein wenig Mühe. Heres mein code df.select(df("state")==="TX").show() dieser liefert den Zustand Spalte mit boolean-Werten statt nur TX Ive auch versucht

apache-spark apache-spark-sql dataframe scala

Abrufen der ersten n in jeder Gruppe von einem DataFrame in pyspark

2 Antworten

Gibt es einen DataFrame in pyspark mit Daten wie folgt: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6 Was ich erwarte, ist die Rückkehr

apache-spark apache-spark-sql pyspark python spark-dataframe

Konvertieren Sie das Datum aus dem String zu Datum-format in Dataframes

6 Antworten

Ich versuche zu konvertieren, eine Spalte, die im String-format, Datum-format mit der to_date Funktion aber seine Rückgabe von Null-Werten. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | Date| +----------+ |08/26/2016| |08/26/2016| |08/26/2016| |06/14/2016| spark.sql("select to_date(Date) from incidents").show() +---------------------------+

apache-spark apache-spark-sql

Spark-Dataset API - beitreten

3 Antworten

Ich versuche zu verwenden die Spark - Dataset API, aber ich habe einige Probleme dabei eine einfache Verknüpfung. Sagen wir, ich habe zwei dataset-Feldern: date | valuedann im Falle des DataFrame meinen Beitritt Aussehen würde: val dfA

apache-spark apache-spark-dataset apache-spark-sql scala

Extrahieren von Informationen aus einer `org.apache.spark.sql.Zeile`

3 Antworten

Habe ich Array[org.apache.spark.sql.Row] zurückgegeben sqc.sql(sqlcmd).collect(): Array([10479,6,10], [8975,149,640], ...) Bekomme ich die einzelnen Werte: scala> pixels(0)(0) res34: Any = 10479 aber Sie sind Anynicht Int. Wie extrahiere ich Sie als Int? Die naheliegendste Lösung nicht funktioniert: scala> pixels(0).getInt(0)

apache-spark apache-spark-sql scala

PySpark hinzufügen einer Spalte zu einem DataFrame von einer TimeStampType Spalte

1 Antworten

Ich habe einen DataFrame, die Aussehen wie, die. Ich will arbeiten, auf dem Tag der date_time Feld. root |-- host: string (nullable = true) |-- user_id: string (nullable = true) |-- date_time: timestamp (nullable = true) Versuchte

apache-spark apache-spark-sql pyspark python

mehrere Bedingungen für die filter-Zündkerzen-Daten-frames

3 Antworten

Habe ich einen Daten-frame mit vier Feldern. eines der Feld-name ist der Status, und ich bin versucht, eine ODER-Bedingung .filter für ein dataframe . Ich habe versucht, aus Abfragen, aber kein Glück. df2 = df1.filter(("Status=2") || ("Status

apache-spark apache-spark-sql spark-dataframe

Funke: Spalte Hinzufügen, um dataframe bedingt

3 Antworten

Ich versuche, meine Eingabedaten: A B C -------------- 4 blah 2 2 3 56 foo 3 Und fügen Sie eine Spalte am Ende auf der Grundlage, ob B leer ist oder nicht: A B C D --------------------

apache-spark apache-spark-sql scala spark-dataframe

So schließen Sie mehrere Spalten in Spark dataframe in Python

2 Antworten

Fand ich PySpark hat eine Methode namens drop aber es scheint, es können nur drop eine Spalte zu einem Zeitpunkt. Irgendwelche Ideen, wie man mehrere Spalten gleichzeitig? df.drop(['col1','col2']) TypeError Traceback (most recent call last) <ipython-input-96-653b0465e457> in <module>()

apache-spark apache-spark-sql dataframe pyspark spark-dataframe