Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

TypeError: 'JavaPackage' - Objekt ist nicht aufrufbar

Anzahl der Antworten 2 Antworten
wenn ich den code der Funke sql-API hiveContext.sql() from pyspark import SparkConf,SparkContext from pyspark.sql import SQLContext,HiveContext conf = SparkConf().setAppName("spark_sql") sc = SparkContext(conf = conf) hc = HiveContext(sc) #rdd = sc.textFile("test.txt") sqlContext = SQLContext(sc) res = hc.sql("use teg_uee_app")

Immer den ersten Wert aus Funken.sql.Zeile

Anzahl der Antworten 4 Antworten
Habe ich folgenden json-format : {"Request": {"TrancheList": {"Tranche": [{"TrancheId": "500192163","OwnedAmt": "26500000", "Curr": "USD" }, { "TrancheId": "500213369", "OwnedAmt": "41000000","Curr": "USD"}]},"FxRatesList": {"FxRatesContract": [{"Currency": "CHF","FxRate": "0.97919983706115"},{"Currency": "AUD", "FxRate": "1.2966804979253"},{ "Currency": "USD","FxRate": "1"},{"Currency": "SEK","FxRate": "8.1561012531034"},{"Currency": "NOK", "FxRate": "8.2454981641398"},{"Currency": "JPY","FxRate": "111.79999785344"},{"Currency":

Partitionierung von mehreren Spalten in Spark SQL

Anzahl der Antworten 1 Antworten
Mit Spark SQL-window-Funktionen, die ich brauche, um die partition um mehrere Spalten zu laufen, meine Daten Abfragen, wie folgt: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Ich derzeit nicht über eine test-Umgebung (Arbeit an Einstellungen aus), aber als kurze

Wie Spalte filter auf Werte in der Liste in pyspark?

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly

Spark SQL - gewusst Wie: schreiben DataFrame, um text-Datei?

Anzahl der Antworten 2 Antworten
Ich bin mit Spark SQL für das Lesen von Parkett und schreiben Parkett-Datei. Einigen Fällen jedoch,muss ich schreiben, das DataFrame als text-Datei anstelle von Json oder Parkett. Gibt es irgendwelche Standard-Methoden unterstützt oder muss ich konvertieren, dass

Wie Sie Mitglied werden Datensätze auf mehrere Spalten?

Anzahl der Antworten 2 Antworten
Gegeben zwei Funken Datensätze, A und B kann ich eine Verknüpfung auf eine einzige Spalte wie folgt: a.joinWith(b, $"a.col" === $"b.col", "left") Meine Frage ist, ob Sie tun können, einen join über mehrere Spalten. Im wesentlichen das

Spark-Fehler:erwartet null Argumente für den Bau von ClassDict (für numpy.core.multiarray._reconstruct)

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe in Funke, in dem eine der Spalten enthält ein array.Nun,ich habe geschrieben eine separate UDF, die konvertiert das array zu einem anderen array mit unterschiedlichen Werten in es nur. Siehe Beispiel unten: Ex:

Konvertieren PySpark dataframe Spalte Typ auf string und ersetzen Sie die eckigen Klammern

Anzahl der Antworten 1 Antworten
Muss ich konvertieren PySpark df-Spalte-Typ von array zu string und auch entfernen Sie die eckigen Klammern. Dies ist das schema für das dataframe. Spalten, die bearbeitet werden muss, ist CurrencyCode und TicketAmount >>> plan_queryDF.printSchema() root |-- event_type:

Spark Ersatz für VORHANDEN und IN

Anzahl der Antworten 1 Antworten
Ich versuche eine Abfrage ausführen, verwendet die EXIST-Klausel: select <...> from A, B, C where A.FK_1 = B.PK and A.FK_2 = C.PK and exists (select A.ID from <subquery 1>) or exists (select A.ID from <subquery 2>) Leider

Wie man heute -"1 Tag" Datum in sparksql?

Anzahl der Antworten 4 Antworten
Wie man current_date - 1 Tag in sparksql, wie cur_date()-1 in mysql. InformationsquelleAutor Vishan Rana | 2016-12-13

Pyspark DataFrame UDF auf Text-Spalte

Anzahl der Antworten 3 Antworten
Ich versuche zu tun, einige NLP-text bereinigen einiger Unicode-Spalten in einer PySpark DataFrame. Ich habe versucht, in der Spark-1.3, 1.5 und 1.6 und kann nicht scheinen, um die Dinge zu arbeiten, für das Leben von mir. Ich

Median / Quantile innerhalb PySpark groupBy

Anzahl der Antworten 3 Antworten
Ich würde gerne berechnen, Gruppe Quantile auf einer Spark-dataframe (mit PySpark). Entweder eine Ungefähre oder genaue Ergebnis wäre in Ordnung. Ich bevorzuge eine Lösung, die ich verwenden kann, im Rahmen der groupBy /agg, so dass ich kann

Filter Spark DataFrame mit der überprüfung, ob Wert in einer Liste ist, mit anderen Kriterien

Anzahl der Antworten 2 Antworten
Als ein Vereinfachtes Beispiel, ich versuchte, Sie zu filter einen Funken DataFrame mit folgenden code: val xdf = sqlContext.createDataFrame(Seq( ("A", 1), ("B", 2), ("C", 3) )).toDF("name", "cnt") xdf.filter($"cnt" >1 || $"name" isin ("A","B")).show() Dann Fehler: org.apache.spark.sql.AnalysisException: cannot

Spark SQL-broadcast-hash-join

Anzahl der Antworten 3 Antworten
Ich versuche zum ausführen einer broadcast-hash-join auf dataframes mit SparkSQL wie hier beschrieben: https://docs.cloud.databricks.com/docs/latest/databricks_guide/06%20Spark%20SQL%20%26%20DataFrames/05%20BroadcastHashJoin%20-%20scala.html In diesem Beispiel das (kleine) DataFrame persistiert über saveAsTable und dann gibt es einen join über spark SQL (z.B. via sqlContext.sql("...")) Das problem,

Wenn mehrere Spalten von Spark dataframe durch Durchlaufen der Spalten von eine Scala-Liste der Spaltennamen

Anzahl der Antworten 4 Antworten
Ich habe einen dataframe die Spalten um 400, ich möchte Tropfen 100 Spalten pro meine Anforderung. So habe ich eine Scala-Liste der 100 Spaltennamen. Und dann will ich zum Durchlaufen einer for-Schleife, um tatsächlich zu löschen die

Encoder für Zeile Typ Spark-Datasets

Anzahl der Antworten 2 Antworten
Möchte ich schreiben, ist ein encoder für einen Zeile geben Sie im DataSet, für eine map-operation, die ich mache. Im wesentlichen, ich verstehe nicht, wie man schreiben Encoder. Unten ist ein Beispiel für eine map-operation: In the

Filter df bei Werten entspricht, Teil eines string in pyspark

Anzahl der Antworten 3 Antworten
Ich habe eine große pyspark.sql.dataframe.DataFrame und ich möchte zu halten (so filter) alle Zeilen, in denen die URL gespeichert, in der location Spalte enthält eine vordefinierte Zeichenfolge, z.B. 'google.com'. Habe ich versucht df.filter(sf.col('location').contains('google.com') aber das wirft ein

Methoden für das schreiben von Parkett-Dateien mit Python?

Anzahl der Antworten 3 Antworten
Ich habe Probleme bei der Suche eine Bibliothek, die es ermöglicht Parkett-Dateien geschrieben werden, mit Python. Bonus Punkte, wenn ich Bissig oder eine ähnliche Kompression Mechanismus in Verbindung mit Ihr. Bisher die einzige Methode, die ich gefunden

Scala: Spark SQL to_date(unix_timestamp) NULL zurückgeben

Anzahl der Antworten 1 Antworten
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich bin das laden eines raw-csv zu einem DataFrame. In csv -, obwohl die Spalte ist zu unterstützen, die im Datum-format, Sie werden so geschrieben, wie 20161025 statt 2016-10-25. Die parameter date_format

Scala/Spark-App mit "Keine TypeTag verfügbar" - Fehler in "def main" style App

Anzahl der Antworten 1 Antworten
Ich bin neu in Scala/Funke-stack, und ich versuche, herauszufinden, wie um zu testen, meine basic-Kenntnisse in SparkSql "Karte" RDDs in TempTables und Umgekehrt. Habe ich 2 verschiedene .scala-Dateien mit dem gleichen code: ein einfaches Objekt (mit def

Einschließlich der null-Werte in einen Apache-Spark-Beitreten

Anzahl der Antworten 3 Antworten
Möchte ich um null-Werte in einen Apache Spark beitreten. Funken sind nicht enthalten Zeilen mit null-standardmäßig. Hier ist die Standard-Funke-Verhalten. val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") val lettersDf = Seq( ("123", "abc"), ("456", "def"),

Spark SQL: anwenden von Aggregatfunktionen auf eine Liste von Spalten

Anzahl der Antworten 2 Antworten
Gibt es eine Möglichkeit für die Anwendung einer Aggregatfunktion auf alle (oder eine Liste von Spalten) ein dataframe, wenn dabei ein groupBy? In anderen Worten, gibt es eine Möglichkeit zu vermeiden, tun Sie dies für jede Spalte:

scala.Sammlung.veränderlich.WrappedArray$ofRef nicht cast zu Integer

Anzahl der Antworten 1 Antworten
Ich bin ziemlich neu zu entfachen, und Scala. Ich versuche, eine Funktion aufzurufen, die wie ein Funke UDF, aber ich mit diesem Fehler, ich kann nicht scheinen, um zu lösen. Verstehe ich, dass in Scala, Array und

Warum SparkContext zufällig in der Nähe, und wie wollen Sie starten es von der Zeppelin?

Anzahl der Antworten 4 Antworten
Arbeite ich in der Zeppelin-schreiben spark-sql-Abfragen und manchmal habe ich plötzlich immer diese Fehlermeldung (nach nicht code ändern): Cannot call methods on a stopped SparkContext. Dann die Ausgabe sagt weiter unten: The currently active SparkContext was created

Wie erstellen SQLContext Zündkerzen Einsatz von scala?

Anzahl der Antworten 4 Antworten
Erstelle ich ein Scala-Programm SQLContext mit sbt. Das ist mein build.sbt: name := "sampleScalaProject" version := "1.0" scalaVersion := "2.11.7" //libraryDependencies += "org.apache.spark" %% "spark-core" % "2.5.2" libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "1.5.2" libraryDependencies += "org.apache.kafka"

Spark unionAll mehrere dataframes

Anzahl der Antworten 3 Antworten
Für eine Reihe von dataframes val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z") union in allen ich tun, df1.unionAll(df2).unionAll(df3) Gibt es

Wie konvertiere ich ein array (d.h. eine Liste) Spalte Vektor

Anzahl der Antworten 2 Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass

So berechnen Sie den Mittelwert und die Standardabweichung gegeben PySpark DataFrame?

Anzahl der Antworten 2 Antworten
Habe ich PySpark DataFrame (nicht pandas) genannt df, die ziemlich groß ist zu verwenden collect(). Daher die unten angegebene code ist nicht effizient. Es war eine kleinere Datenmenge, aber jetzt scheitert es. import numpy as np myList

Wenn cache, um ein DataFrame?

Anzahl der Antworten 3 Antworten
Meine Frage ist, Wann sollte ich tun, dataframe.cache() und, wenn es sinnvoll? Auch, in meinem code sollte ich cache die dataframes in den kommentierten Zeilen? Hinweis: Meine dataframes sind geladen von einer Rotverschiebung DB. Vielen Dank Hier

Wie zu verwenden orderby() mit absteigender Reihenfolge in Spark-Fenster-Funktionen?

Anzahl der Antworten 2 Antworten
Ich brauche eine window-Funktion, die Partitionen, die von einigen Tasten (=Spaltennamen), Aufträge durch einen anderen Spaltennamen und gibt die Zeilen zurück, mit top-x rangiert. Dies funktioniert gut für die aufsteigende Reihenfolge: def getTopX(df: DataFrame, top_x: String, top_key:

Spark-Funktionen vs UDF-Leistung?

Anzahl der Antworten 2 Antworten
Spark bietet jetzt vordefinierte Funktionen, die verwendet werden können in dataframes, und es scheint, Sie sind stark optimiert. Meine ursprüngliche Frage war, auf welche schneller ist, aber ich habe einige Tests selbst und fand, dass der spark-Funktionen

TypeError: 'Spalte' Objekt ist nicht aufrufbar mit WithColumn

Anzahl der Antworten 2 Antworten
Möchte ich anfügen einer neuen Spalte dataframe "df" aus der Funktion get_distance: def get_distance(x, y): dfDistPerc = hiveContext.sql("select column3 as column3, \ from tab \ where column1 = '" + x + "' \ and column2 =

Spark sql, wie Sie explodieren, ohne null-Werte

Anzahl der Antworten 3 Antworten
Ich habe einen Dataframe, daß ich versuche, Sie zu glätten. Als Teil des Prozesses, ich will es explodieren, also wenn ich eine Spalte des arrays, jeder Wert des Arrays werden verwendet, um erstellen Sie eine separate Zeile.

Holen Sie mehr als 20 Zeilen und den vollen Wert der Spalte in der Funke-shell

Anzahl der Antworten 2 Antworten
Ich bin mit CassandraSQLContext von Funke-shell zur Abfrage von Daten aus Cassandra. Also, ich möchte zwei Dinge wissen, wie zu Holen die mehr als 20 Zeilen mit CassandraSQLContext und zweitens wie do-Id-Anzeige der volle Wert der Spalte.

Pyspark Typ ändern von Spalten-von Datum in string

Anzahl der Antworten 1 Antworten
Habe ich Folgendes dataframe: corr_temp_df [('vacationdate', 'date'), ('valueE', 'string'), ('valueD', 'string'), ('valueC', 'string'), ('valueB', 'string'), ('valueA', 'string')] Nun würde ich gerne ändern Sie den Datentyp der Spalte vacationdate String, so dass auch der dataframe nimmt diese neue

Unterschied zwischen === null und isNull Zündkerzen DataDrame

Anzahl der Antworten 2 Antworten
Ich bin etwas verwirrt mit dem Unterschied, wenn wir mit df.filter(col("c1") === null) and df.filter(col("c1").isNull) Gleichen dataframe ich immer bin, zählt in === null, aber null zählt isNull. Bitte helfen Sie mir, um den Unterschied zu verstehen.

Apache Spark arbeiten mit pipe-separierte CSV-Dateien

Anzahl der Antworten 2 Antworten
Ich bin sehr neu in Apache Spark und bin versucht, SchemaRDD mit meinen pipe-delimited-text-Datei. Ich habe eine standalone-installation von Spark 1.5.2 auf meinem Mac mit Scala 10. Ich habe eine CSV-Datei mit den folgenden repräsentativen Daten und

Wie die Verbindung von zwei Daten-Rahmen in Apache Spark und merge-Tasten in einer Spalte?

Anzahl der Antworten 2 Antworten
Habe ich zwei folgende Spark-Daten-frames: sale_df: |user_id|total_sale| +-------+----------+ | a| 1100| | b| 2100| | c| 3300| | d| 4400 und target_df: user_id|personalized_target| +-------+-------------------+ | b| 1000| | c| 2000| | d| 3000| | e| 4000| +-------+-------------------+

Hinzufügen einer neuen Spalte zu einem Dataframe. Neue Spalte, die ich wollen, dass es eine UUID generator

Anzahl der Antworten 2 Antworten
Möchte ich noch hinzufügen einer neuen Spalte zu einem Dataframe, ein UUID-generator. UUID-Wert Aussehen wird, so etwas wie 21534cf7-cff9-482a-a3a8-9e7244240da7 Meiner Forschung: Habe ich versucht, mit withColumn Methode in der Funke. val DF2 = DF1.withColumn("newcolname", DF1("existingcolname" + 1)

So berechnen Sie Summe und die Anzahl in einer einzigen groupBy?

Anzahl der Antworten 3 Antworten
Basiert auf den folgenden DataFrame: val client = Seq((1,"A",10),(2,"A",5),(3,"B",56)).toDF("ID","Categ","Amnt") +---+-----+----+ | ID|Categ|Amnt| +---+-----+----+ | 1| A| 10| | 2| A| 5| | 3| B| 56| +---+-----+----+ Ich würde gerne, um die Anzahl der ID, und die Summe

Wie man alle Spalten nach groupby auf Dataset<Zeile> in spark sql 2.1.0

Anzahl der Antworten 5 Antworten
Erstmal, ich bin ganz neu FUNKE Habe ich Millionen von Datensätzen, die in meinem Datensatz und ich wollte groupby mit dem Namen der Spalte und die Suche nach Namen, die mit einer maximalen Alter. Ich bin immer

Das verbinden von zwei DataFrames in Spark SQL und auswählen von Spalten von nur einem

Anzahl der Antworten 3 Antworten
Habe ich zwei DataFrames in Spark SQL (D1 und D2). Ich versuche zu inner join beide D1.join(D2, "some column") und Holen Sie sich zurück Daten von nur D1, nicht die kompletten Daten. Beide D1 und D2 sind

So erstellen Sie ein DataFrame von einer text-Datei in Spark

Anzahl der Antworten 7 Antworten
Ich habe eine text Datei in HDFS und ich wollen, es zu konvertieren, um einen Daten-Frame in Spark. Bin ich mit der Spark-Rahmen um die Datei zu laden und dann versuchen zu generieren, die einzelnen Spalten aus

Wie sich zwei DataFrames in Scala und Apache Spark?

Anzahl der Antworten 3 Antworten
Gibt es zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Entspricht MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Personenbezogene Daten Player | BirthYear --------------------------------

Spark DataFrame und umbenennen mehrerer Spalten (Java)

Anzahl der Antworten 5 Antworten
Gibt es eine schönere Art Präfix oder benennen Sie alle oder mehrere Spalten in der gleichen Zeit von einem bestimmten SparkSQL DataFrame als der Aufruf mehrmals dataFrame.withColumnRenamed()? Ein Beispiel würde sein, wenn ich will, um änderungen zu

Auswählen zufällige Elemente aus einer Funke GroupedData Objekt

Anzahl der Antworten 1 Antworten
Ich bin neu in der Verwendung von Spark in Python und nicht in der Lage gewesen, dieses problem zu lösen: Nach dem ausführen groupBy auf eine pyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId') wie können Sie N Stichproben aus

Mehrere Aggregat-Operationen auf die gleiche Spalte einer spark-dataframe

Anzahl der Antworten 2 Antworten
Ich habe drei Arrays von string-Typ enthält folgende Informationen: groupBy-array: enthält die Namen der Spalten, möchte ich der Gruppe meine Daten durch. Aggregat array: enthält den Namen der Spalten, die ich will, zu aggregieren. array-Operationen: mit den

Lesen Avro Datei in Spark

Anzahl der Antworten 2 Antworten
Habe ich gelesen, eine avro-Datei in spark RDD und müssen conver, die in einer sql-dataframe. wie mache ich das. Dies ist, was ich getan habe bisher. import org.apache.avro.generic.GenericRecord import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper} import org.apache.hadoop.io.NullWritable val path = "hdfs://dds-nameservice/user/ghagh/"

Zu versuchen, eine Verbindung zu Oracle von Spark

Anzahl der Antworten 2 Antworten
Ich versuche eine Verbindung zu Oracle zu Funken und wollen, ziehen Sie Daten von einigen Tabellen und SQL-Abfragen. Aber ich bin nicht in der Lage, eine Verbindung zu Oracle. Ich habe versucht, verschiedene arbeiten rund Optionen, aber

Wie verwenden Sie LINKS und RECHTS keyword ZÜNDKERZEN SQL

Anzahl der Antworten 3 Antworten
Ich bin neu zu entfachen, SQL, In MS SQL, haben wir LINKS keyword LEFT(Columnname,1) in('D','A') then 1 else 0. Wie die Umsetzung der gleichen in SPARK SQL. Freundlicherweise guide mich Wenn Sie sind unter Verwendung von JDBC