Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

TypeError: 'JavaPackage' - Objekt ist nicht aufrufbar

2 Antworten

wenn ich den code der Funke sql-API hiveContext.sql() from pyspark import SparkConf,SparkContext from pyspark.sql import SQLContext,HiveContext conf = SparkConf().setAppName("spark_sql") sc = SparkContext(conf = conf) hc = HiveContext(sc) #rdd = sc.textFile("test.txt") sqlContext = SQLContext(sc) res = hc.sql("use teg_uee_app")

apache-spark-sql pyspark

Immer den ersten Wert aus Funken.sql.Zeile

4 Antworten

Habe ich folgenden json-format : {"Request": {"TrancheList": {"Tranche": [{"TrancheId": "500192163","OwnedAmt": "26500000", "Curr": "USD" }, { "TrancheId": "500213369", "OwnedAmt": "41000000","Curr": "USD"}]},"FxRatesList": {"FxRatesContract": [{"Currency": "CHF","FxRate": "0.97919983706115"},{"Currency": "AUD", "FxRate": "1.2966804979253"},{ "Currency": "USD","FxRate": "1"},{"Currency": "SEK","FxRate": "8.1561012531034"},{"Currency": "NOK", "FxRate": "8.2454981641398"},{"Currency": "JPY","FxRate": "111.79999785344"},{"Currency":

apache-spark apache-spark-sql

Partitionierung von mehreren Spalten in Spark SQL

1 Antworten

Mit Spark SQL-window-Funktionen, die ich brauche, um die partition um mehrere Spalten zu laufen, meine Daten Abfragen, wie folgt: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Ich derzeit nicht über eine test-Umgebung (Arbeit an Einstellungen aus), aber als kurze

apache-spark apache-spark-sql window-functions

Wie Spalte filter auf Werte in der Liste in pyspark?

1 Antworten

Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

Spark SQL - gewusst Wie: schreiben DataFrame, um text-Datei?

2 Antworten

Ich bin mit Spark SQL für das Lesen von Parkett und schreiben Parkett-Datei. Einigen Fällen jedoch,muss ich schreiben, das DataFrame als text-Datei anstelle von Json oder Parkett. Gibt es irgendwelche Standard-Methoden unterstützt oder muss ich konvertieren, dass

apache-spark-sql java

Wie Sie Mitglied werden Datensätze auf mehrere Spalten?

2 Antworten

Gegeben zwei Funken Datensätze, A und B kann ich eine Verknüpfung auf eine einzige Spalte wie folgt: a.joinWith(b, $"a.col" === $"b.col", "left") Meine Frage ist, ob Sie tun können, einen join über mehrere Spalten. Im wesentlichen das

apache-spark apache-spark-sql scala

Spark-Fehler:erwartet null Argumente für den Bau von ClassDict (für numpy.core.multiarray._reconstruct)

2 Antworten

Ich habe einen dataframe in Funke, in dem eine der Spalten enthält ein array.Nun,ich habe geschrieben eine separate UDF, die konvertiert das array zu einem anderen array mit unterschiedlichen Werten in es nur. Siehe Beispiel unten: Ex:

apache-spark apache-spark-sql arrays pyspark user-defined-functions

Konvertieren PySpark dataframe Spalte Typ auf string und ersetzen Sie die eckigen Klammern

1 Antworten

Muss ich konvertieren PySpark df-Spalte-Typ von array zu string und auch entfernen Sie die eckigen Klammern. Dies ist das schema für das dataframe. Spalten, die bearbeitet werden muss, ist CurrencyCode und TicketAmount >>> plan_queryDF.printSchema() root |-- event_type:

apache-spark-sql pyspark python

Spark Ersatz für VORHANDEN und IN

1 Antworten

Ich versuche eine Abfrage ausführen, verwendet die EXIST-Klausel: select <...> from A, B, C where A.FK_1 = B.PK and A.FK_2 = C.PK and exists (select A.ID from <subquery 1>) or exists (select A.ID from <subquery 2>) Leider

apache-spark-sql sql

Wie man heute -"1 Tag" Datum in sparksql?

4 Antworten

Wie man current_date - 1 Tag in sparksql, wie cur_date()-1 in mysql. InformationsquelleAutor Vishan Rana | 2016-12-13

apache-spark apache-spark-sql java python scala

Pyspark DataFrame UDF auf Text-Spalte

3 Antworten

Ich versuche zu tun, einige NLP-text bereinigen einiger Unicode-Spalten in einer PySpark DataFrame. Ich habe versucht, in der Spark-1.3, 1.5 und 1.6 und kann nicht scheinen, um die Dinge zu arbeiten, für das Leben von mir. Ich

apache-spark apache-spark-sql pyspark pyspark-sql python

Median / Quantile innerhalb PySpark groupBy

3 Antworten

Ich würde gerne berechnen, Gruppe Quantile auf einer Spark-dataframe (mit PySpark). Entweder eine Ungefähre oder genaue Ergebnis wäre in Ordnung. Ich bevorzuge eine Lösung, die ich verwenden kann, im Rahmen der groupBy /agg, so dass ich kann

apache-spark apache-spark-sql pyspark pyspark-sql

Filter Spark DataFrame mit der überprüfung, ob Wert in einer Liste ist, mit anderen Kriterien

2 Antworten

Als ein Vereinfachtes Beispiel, ich versuchte, Sie zu filter einen Funken DataFrame mit folgenden code: val xdf = sqlContext.createDataFrame(Seq( ("A", 1), ("B", 2), ("C", 3) )).toDF("name", "cnt") xdf.filter($"cnt" >1 || $"name" isin ("A","B")).show() Dann Fehler: org.apache.spark.sql.AnalysisException: cannot

apache-spark apache-spark-sql scala

Spark SQL-broadcast-hash-join

3 Antworten

Ich versuche zum ausführen einer broadcast-hash-join auf dataframes mit SparkSQL wie hier beschrieben: https://docs.cloud.databricks.com/docs/latest/databricks_guide/06%20Spark%20SQL%20%26%20DataFrames/05%20BroadcastHashJoin%20-%20scala.html In diesem Beispiel das (kleine) DataFrame persistiert über saveAsTable und dann gibt es einen join über spark SQL (z.B. via sqlContext.sql("...")) Das problem,

apache-spark apache-spark-sql

Wenn mehrere Spalten von Spark dataframe durch Durchlaufen der Spalten von eine Scala-Liste der Spaltennamen

4 Antworten

Ich habe einen dataframe die Spalten um 400, ich möchte Tropfen 100 Spalten pro meine Anforderung. So habe ich eine Scala-Liste der 100 Spaltennamen. Und dann will ich zum Durchlaufen einer for-Schleife, um tatsächlich zu löschen die

apache-spark apache-spark-sql scala

Encoder für Zeile Typ Spark-Datasets

2 Antworten

Möchte ich schreiben, ist ein encoder für einen Zeile geben Sie im DataSet, für eine map-operation, die ich mache. Im wesentlichen, ich verstehe nicht, wie man schreiben Encoder. Unten ist ein Beispiel für eine map-operation: In the

apache-spark apache-spark-dataset apache-spark-encoders apache-spark-sql java

Filter df bei Werten entspricht, Teil eines string in pyspark

3 Antworten

Ich habe eine große pyspark.sql.dataframe.DataFrame und ich möchte zu halten (so filter) alle Zeilen, in denen die URL gespeichert, in der location Spalte enthält eine vordefinierte Zeichenfolge, z.B. 'google.com'. Habe ich versucht df.filter(sf.col('location').contains('google.com') aber das wirft ein

apache-spark apache-spark-sql pyspark python

Methoden für das schreiben von Parkett-Dateien mit Python?

3 Antworten

Ich habe Probleme bei der Suche eine Bibliothek, die es ermöglicht Parkett-Dateien geschrieben werden, mit Python. Bonus Punkte, wenn ich Bissig oder eine ähnliche Kompression Mechanismus in Verbindung mit Ihr. Bisher die einzige Methode, die ich gefunden

apache-spark apache-spark-sql parquet python snappy

Scala: Spark SQL to_date(unix_timestamp) NULL zurückgeben

1 Antworten

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich bin das laden eines raw-csv zu einem DataFrame. In csv -, obwohl die Spalte ist zu unterstützen, die im Datum-format, Sie werden so geschrieben, wie 20161025 statt 2016-10-25. Die parameter date_format

apache-spark apache-spark-sql scala spark-csv spark-dataframe

Scala/Spark-App mit "Keine TypeTag verfügbar" - Fehler in "def main" style App

1 Antworten

Ich bin neu in Scala/Funke-stack, und ich versuche, herauszufinden, wie um zu testen, meine basic-Kenntnisse in SparkSql "Karte" RDDs in TempTables und Umgekehrt. Habe ich 2 verschiedene .scala-Dateien mit dem gleichen code: ein einfaches Objekt (mit def

apache-spark apache-spark-sql scala types

Einschließlich der null-Werte in einen Apache-Spark-Beitreten

3 Antworten

Möchte ich um null-Werte in einen Apache Spark beitreten. Funken sind nicht enthalten Zeilen mit null-standardmäßig. Hier ist die Standard-Funke-Verhalten. val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") val lettersDf = Seq( ("123", "abc"), ("456", "def"),

apache-spark apache-spark-sql join scala sql

Spark SQL: anwenden von Aggregatfunktionen auf eine Liste von Spalten

2 Antworten

Gibt es eine Möglichkeit für die Anwendung einer Aggregatfunktion auf alle (oder eine Liste von Spalten) ein dataframe, wenn dabei ein groupBy? In anderen Worten, gibt es eine Möglichkeit zu vermeiden, tun Sie dies für jede Spalte:

aggregate-functions apache-spark apache-spark-sql dataframe

scala.Sammlung.veränderlich.WrappedArray$ofRef nicht cast zu Integer

1 Antworten

Ich bin ziemlich neu zu entfachen, und Scala. Ich versuche, eine Funktion aufzurufen, die wie ein Funke UDF, aber ich mit diesem Fehler, ich kann nicht scheinen, um zu lösen. Verstehe ich, dass in Scala, Array und

apache-spark apache-spark-sql spark-dataframe

Warum SparkContext zufällig in der Nähe, und wie wollen Sie starten es von der Zeppelin?

4 Antworten

Arbeite ich in der Zeppelin-schreiben spark-sql-Abfragen und manchmal habe ich plötzlich immer diese Fehlermeldung (nach nicht code ändern): Cannot call methods on a stopped SparkContext. Dann die Ausgabe sagt weiter unten: The currently active SparkContext was created

apache-spark apache-spark-sql apache-zeppelin pyspark

Wie erstellen SQLContext Zündkerzen Einsatz von scala?

4 Antworten

Erstelle ich ein Scala-Programm SQLContext mit sbt. Das ist mein build.sbt: name := "sampleScalaProject" version := "1.0" scalaVersion := "2.11.7" //libraryDependencies += "org.apache.spark" %% "spark-core" % "2.5.2" libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "1.5.2" libraryDependencies += "org.apache.kafka"

apache-spark apache-spark-sql sbt scala

Spark unionAll mehrere dataframes

3 Antworten

Für eine Reihe von dataframes val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z") union in allen ich tun, df1.unionAll(df2).unionAll(df3) Gibt es

apache-spark apache-spark-sql scala

Wie konvertiere ich ein array (d.h. eine Liste) Spalte Vektor

2 Antworten

Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass

apache-spark apache-spark-ml apache-spark-sql pyspark python

So berechnen Sie den Mittelwert und die Standardabweichung gegeben PySpark DataFrame?

2 Antworten

Habe ich PySpark DataFrame (nicht pandas) genannt df, die ziemlich groß ist zu verwenden collect(). Daher die unten angegebene code ist nicht effizient. Es war eine kleinere Datenmenge, aber jetzt scheitert es. import numpy as np myList

apache-spark apache-spark-sql pyspark python

Wenn cache, um ein DataFrame?

3 Antworten

Meine Frage ist, Wann sollte ich tun, dataframe.cache() und, wenn es sinnvoll? Auch, in meinem code sollte ich cache die dataframes in den kommentierten Zeilen? Hinweis: Meine dataframes sind geladen von einer Rotverschiebung DB. Vielen Dank Hier

apache-spark apache-spark-sql pyspark python

Wie zu verwenden orderby() mit absteigender Reihenfolge in Spark-Fenster-Funktionen?

2 Antworten

Ich brauche eine window-Funktion, die Partitionen, die von einigen Tasten (=Spaltennamen), Aufträge durch einen anderen Spaltennamen und gibt die Zeilen zurück, mit top-x rangiert. Dies funktioniert gut für die aufsteigende Reihenfolge: def getTopX(df: DataFrame, top_x: String, top_key:

apache-spark apache-spark-sql scala spark-dataframe

Spark-Funktionen vs UDF-Leistung?

2 Antworten

Spark bietet jetzt vordefinierte Funktionen, die verwendet werden können in dataframes, und es scheint, Sie sind stark optimiert. Meine ursprüngliche Frage war, auf welche schneller ist, aber ich habe einige Tests selbst und fand, dass der spark-Funktionen

apache-spark apache-spark-sql performance pyspark user-defined-functions

TypeError: 'Spalte' Objekt ist nicht aufrufbar mit WithColumn

2 Antworten

Möchte ich anfügen einer neuen Spalte dataframe "df" aus der Funktion get_distance: def get_distance(x, y): dfDistPerc = hiveContext.sql("select column3 as column3, \ from tab \ where column1 = '" + x + "' \ and column2 =

apache-spark apache-spark-sql pyspark spark-dataframe

Spark sql, wie Sie explodieren, ohne null-Werte

3 Antworten

Ich habe einen Dataframe, daß ich versuche, Sie zu glätten. Als Teil des Prozesses, ich will es explodieren, also wenn ich eine Spalte des arrays, jeder Wert des Arrays werden verwendet, um erstellen Sie eine separate Zeile.

apache-spark apache-spark-sql java null

Holen Sie mehr als 20 Zeilen und den vollen Wert der Spalte in der Funke-shell

2 Antworten

Ich bin mit CassandraSQLContext von Funke-shell zur Abfrage von Daten aus Cassandra. Also, ich möchte zwei Dinge wissen, wie zu Holen die mehr als 20 Zeilen mit CassandraSQLContext und zweitens wie do-Id-Anzeige der volle Wert der Spalte.

apache-spark apache-spark-sql dataframe scala

Pyspark Typ ändern von Spalten-von Datum in string

1 Antworten

Habe ich Folgendes dataframe: corr_temp_df [('vacationdate', 'date'), ('valueE', 'string'), ('valueD', 'string'), ('valueC', 'string'), ('valueB', 'string'), ('valueA', 'string')] Nun würde ich gerne ändern Sie den Datentyp der Spalte vacationdate String, so dass auch der dataframe nimmt diese neue

apache-spark apache-spark-sql pyspark python

Unterschied zwischen === null und isNull Zündkerzen DataDrame

2 Antworten

Ich bin etwas verwirrt mit dem Unterschied, wenn wir mit df.filter(col("c1") === null) and df.filter(col("c1").isNull) Gleichen dataframe ich immer bin, zählt in === null, aber null zählt isNull. Bitte helfen Sie mir, um den Unterschied zu verstehen.

apache-spark apache-spark-sql dataframe scala sql

Apache Spark arbeiten mit pipe-separierte CSV-Dateien

2 Antworten

Ich bin sehr neu in Apache Spark und bin versucht, SchemaRDD mit meinen pipe-delimited-text-Datei. Ich habe eine standalone-installation von Spark 1.5.2 auf meinem Mac mit Scala 10. Ich habe eine CSV-Datei mit den folgenden repräsentativen Daten und

apache-spark apache-spark-sql scala

Wie die Verbindung von zwei Daten-Rahmen in Apache Spark und merge-Tasten in einer Spalte?

2 Antworten

Habe ich zwei folgende Spark-Daten-frames: sale_df: |user_id|total_sale| +-------+----------+ | a| 1100| | b| 2100| | c| 3300| | d| 4400 und target_df: user_id|personalized_target| +-------+-------------------+ | b| 1000| | c| 2000| | d| 3000| | e| 4000| +-------+-------------------+

apache-spark apache-spark-sql dataframe join pyspark

Hinzufügen einer neuen Spalte zu einem Dataframe. Neue Spalte, die ich wollen, dass es eine UUID generator

2 Antworten

Möchte ich noch hinzufügen einer neuen Spalte zu einem Dataframe, ein UUID-generator. UUID-Wert Aussehen wird, so etwas wie 21534cf7-cff9-482a-a3a8-9e7244240da7 Meiner Forschung: Habe ich versucht, mit withColumn Methode in der Funke. val DF2 = DF1.withColumn("newcolname", DF1("existingcolname" + 1)

apache-spark apache-spark-sql uuid

So berechnen Sie Summe und die Anzahl in einer einzigen groupBy?

3 Antworten

Basiert auf den folgenden DataFrame: val client = Seq((1,"A",10),(2,"A",5),(3,"B",56)).toDF("ID","Categ","Amnt") +---+-----+----+ | ID|Categ|Amnt| +---+-----+----+ | 1| A| 10| | 2| A| 5| | 3| B| 56| +---+-----+----+ Ich würde gerne, um die Anzahl der ID, und die Summe

apache-spark apache-spark-sql scala

Wie man alle Spalten nach groupby auf Dataset<Zeile> in spark sql 2.1.0

5 Antworten

Erstmal, ich bin ganz neu FUNKE Habe ich Millionen von Datensätzen, die in meinem Datensatz und ich wollte groupby mit dem Namen der Spalte und die Suche nach Namen, die mit einer maximalen Alter. Ich bin immer

apache-spark apache-spark-sql

Das verbinden von zwei DataFrames in Spark SQL und auswählen von Spalten von nur einem

3 Antworten

Habe ich zwei DataFrames in Spark SQL (D1 und D2). Ich versuche zu inner join beide D1.join(D2, "some column") und Holen Sie sich zurück Daten von nur D1, nicht die kompletten Daten. Beide D1 und D2 sind

apache-spark apache-spark-sql scala

So erstellen Sie ein DataFrame von einer text-Datei in Spark

7 Antworten

Ich habe eine text Datei in HDFS und ich wollen, es zu konvertieren, um einen Daten-Frame in Spark. Bin ich mit der Spark-Rahmen um die Datei zu laden und dann versuchen zu generieren, die einzelnen Spalten aus

apache-spark apache-spark-sql dataframe rdd scala

Wie sich zwei DataFrames in Scala und Apache Spark?

3 Antworten

apache-spark apache-spark-sql scala spark-dataframe

Spark DataFrame und umbenennen mehrerer Spalten (Java)

5 Antworten

Gibt es eine schönere Art Präfix oder benennen Sie alle oder mehrere Spalten in der gleichen Zeit von einem bestimmten SparkSQL DataFrame als der Aufruf mehrmals dataFrame.withColumnRenamed()? Ein Beispiel würde sein, wenn ich will, um änderungen zu

apache-spark apache-spark-sql java

Auswählen zufällige Elemente aus einer Funke GroupedData Objekt

1 Antworten

Ich bin neu in der Verwendung von Spark in Python und nicht in der Lage gewesen, dieses problem zu lösen: Nach dem ausführen groupBy auf eine pyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId') wie können Sie N Stichproben aus

apache-spark apache-spark-sql python python-2.7

Mehrere Aggregat-Operationen auf die gleiche Spalte einer spark-dataframe

2 Antworten

Ich habe drei Arrays von string-Typ enthält folgende Informationen: groupBy-array: enthält die Namen der Spalten, möchte ich der Gruppe meine Daten durch. Aggregat array: enthält den Namen der Spalten, die ich will, zu aggregieren. array-Operationen: mit den

apache-spark apache-spark-sql dataframe

Lesen Avro Datei in Spark

2 Antworten

Habe ich gelesen, eine avro-Datei in spark RDD und müssen conver, die in einer sql-dataframe. wie mache ich das. Dies ist, was ich getan habe bisher. import org.apache.avro.generic.GenericRecord import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper} import org.apache.hadoop.io.NullWritable val path = "hdfs://dds-nameservice/user/ghagh/"

apache-spark apache-spark-sql apache-zeppelin scala

Zu versuchen, eine Verbindung zu Oracle von Spark

2 Antworten

Ich versuche eine Verbindung zu Oracle zu Funken und wollen, ziehen Sie Daten von einigen Tabellen und SQL-Abfragen. Aber ich bin nicht in der Lage, eine Verbindung zu Oracle. Ich habe versucht, verschiedene arbeiten rund Optionen, aber

apache-spark-sql oracleclient pyspark-sql

Wie verwenden Sie LINKS und RECHTS keyword ZÜNDKERZEN SQL

3 Antworten

Ich bin neu zu entfachen, SQL, In MS SQL, haben wir LINKS keyword LEFT(Columnname,1) in('D','A') then 1 else 0. Wie die Umsetzung der gleichen in SPARK SQL. Freundlicherweise guide mich Wenn Sie sind unter Verwendung von JDBC

apache-spark apache-spark-sql scala