Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
2
Antworten
wenn ich den code der Funke sql-API hiveContext.sql() from pyspark import SparkConf,SparkContext from pyspark.sql import SQLContext,HiveContext conf = SparkConf().setAppName("spark_sql") sc = SparkContext(conf = conf) hc = HiveContext(sc) #rdd = sc.textFile("test.txt") sqlContext = SQLContext(sc) res = hc.sql("use teg_uee_app")
4
Antworten
Habe ich folgenden json-format : {"Request": {"TrancheList": {"Tranche": [{"TrancheId": "500192163","OwnedAmt": "26500000", "Curr": "USD" }, { "TrancheId": "500213369", "OwnedAmt": "41000000","Curr": "USD"}]},"FxRatesList": {"FxRatesContract": [{"Currency": "CHF","FxRate": "0.97919983706115"},{"Currency": "AUD", "FxRate": "1.2966804979253"},{ "Currency": "USD","FxRate": "1"},{"Currency": "SEK","FxRate": "8.1561012531034"},{"Currency": "NOK", "FxRate": "8.2454981641398"},{"Currency": "JPY","FxRate": "111.79999785344"},{"Currency":
1
Antworten
Mit Spark SQL-window-Funktionen, die ich brauche, um die partition um mehrere Spalten zu laufen, meine Daten Abfragen, wie folgt: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Ich derzeit nicht über eine test-Umgebung (Arbeit an Einstellungen aus), aber als kurze
1
Antworten
Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly
2
Antworten
Ich bin mit Spark SQL für das Lesen von Parkett und schreiben Parkett-Datei. Einigen Fällen jedoch,muss ich schreiben, das DataFrame als text-Datei anstelle von Json oder Parkett. Gibt es irgendwelche Standard-Methoden unterstützt oder muss ich konvertieren, dass
2
Antworten
Gegeben zwei Funken Datensätze, A und B kann ich eine Verknüpfung auf eine einzige Spalte wie folgt: a.joinWith(b, $"a.col" === $"b.col", "left") Meine Frage ist, ob Sie tun können, einen join über mehrere Spalten. Im wesentlichen das
2
Antworten
Ich habe einen dataframe in Funke, in dem eine der Spalten enthält ein array.Nun,ich habe geschrieben eine separate UDF, die konvertiert das array zu einem anderen array mit unterschiedlichen Werten in es nur. Siehe Beispiel unten: Ex:
1
Antworten
Muss ich konvertieren PySpark df-Spalte-Typ von array zu string und auch entfernen Sie die eckigen Klammern. Dies ist das schema für das dataframe. Spalten, die bearbeitet werden muss, ist CurrencyCode und TicketAmount >>> plan_queryDF.printSchema() root |-- event_type:
1
Antworten
Ich versuche eine Abfrage ausführen, verwendet die EXIST-Klausel: select <...> from A, B, C where A.FK_1 = B.PK and A.FK_2 = C.PK and exists (select A.ID from <subquery 1>) or exists (select A.ID from <subquery 2>) Leider
4
Antworten
Wie man current_date - 1 Tag in sparksql, wie cur_date()-1 in mysql. InformationsquelleAutor Vishan Rana | 2016-12-13
3
Antworten
Ich versuche zu tun, einige NLP-text bereinigen einiger Unicode-Spalten in einer PySpark DataFrame. Ich habe versucht, in der Spark-1.3, 1.5 und 1.6 und kann nicht scheinen, um die Dinge zu arbeiten, für das Leben von mir. Ich
3
Antworten
Ich würde gerne berechnen, Gruppe Quantile auf einer Spark-dataframe (mit PySpark). Entweder eine Ungefähre oder genaue Ergebnis wäre in Ordnung. Ich bevorzuge eine Lösung, die ich verwenden kann, im Rahmen der groupBy /agg, so dass ich kann
2
Antworten
Als ein Vereinfachtes Beispiel, ich versuchte, Sie zu filter einen Funken DataFrame mit folgenden code: val xdf = sqlContext.createDataFrame(Seq( ("A", 1), ("B", 2), ("C", 3) )).toDF("name", "cnt") xdf.filter($"cnt" >1 || $"name" isin ("A","B")).show() Dann Fehler: org.apache.spark.sql.AnalysisException: cannot
3
Antworten
Ich versuche zum ausführen einer broadcast-hash-join auf dataframes mit SparkSQL wie hier beschrieben: https://docs.cloud.databricks.com/docs/latest/databricks_guide/06%20Spark%20SQL%20%26%20DataFrames/05%20BroadcastHashJoin%20-%20scala.html In diesem Beispiel das (kleine) DataFrame persistiert über saveAsTable und dann gibt es einen join über spark SQL (z.B. via sqlContext.sql("...")) Das problem,
4
Antworten
Ich habe einen dataframe die Spalten um 400, ich möchte Tropfen 100 Spalten pro meine Anforderung. So habe ich eine Scala-Liste der 100 Spaltennamen. Und dann will ich zum Durchlaufen einer for-Schleife, um tatsächlich zu löschen die
2
Antworten
Möchte ich schreiben, ist ein encoder für einen Zeile geben Sie im DataSet, für eine map-operation, die ich mache. Im wesentlichen, ich verstehe nicht, wie man schreiben Encoder. Unten ist ein Beispiel für eine map-operation: In the
3
Antworten
Ich habe eine große pyspark.sql.dataframe.DataFrame und ich möchte zu halten (so filter) alle Zeilen, in denen die URL gespeichert, in der location Spalte enthält eine vordefinierte Zeichenfolge, z.B. 'google.com'. Habe ich versucht df.filter(sf.col('location').contains('google.com') aber das wirft ein
3
Antworten
Ich habe Probleme bei der Suche eine Bibliothek, die es ermöglicht Parkett-Dateien geschrieben werden, mit Python. Bonus Punkte, wenn ich Bissig oder eine ähnliche Kompression Mechanismus in Verbindung mit Ihr. Bisher die einzige Methode, die ich gefunden
1
Antworten
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich bin das laden eines raw-csv zu einem DataFrame. In csv -, obwohl die Spalte ist zu unterstützen, die im Datum-format, Sie werden so geschrieben, wie 20161025 statt 2016-10-25. Die parameter date_format
1
Antworten
Ich bin neu in Scala/Funke-stack, und ich versuche, herauszufinden, wie um zu testen, meine basic-Kenntnisse in SparkSql "Karte" RDDs in TempTables und Umgekehrt. Habe ich 2 verschiedene .scala-Dateien mit dem gleichen code: ein einfaches Objekt (mit def
3
Antworten
Möchte ich um null-Werte in einen Apache Spark beitreten. Funken sind nicht enthalten Zeilen mit null-standardmäßig. Hier ist die Standard-Funke-Verhalten. val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") val lettersDf = Seq( ("123", "abc"), ("456", "def"),
2
Antworten
Gibt es eine Möglichkeit für die Anwendung einer Aggregatfunktion auf alle (oder eine Liste von Spalten) ein dataframe, wenn dabei ein groupBy? In anderen Worten, gibt es eine Möglichkeit zu vermeiden, tun Sie dies für jede Spalte:
1
Antworten
Ich bin ziemlich neu zu entfachen, und Scala. Ich versuche, eine Funktion aufzurufen, die wie ein Funke UDF, aber ich mit diesem Fehler, ich kann nicht scheinen, um zu lösen. Verstehe ich, dass in Scala, Array und
4
Antworten
Arbeite ich in der Zeppelin-schreiben spark-sql-Abfragen und manchmal habe ich plötzlich immer diese Fehlermeldung (nach nicht code ändern): Cannot call methods on a stopped SparkContext. Dann die Ausgabe sagt weiter unten: The currently active SparkContext was created
4
Antworten
Erstelle ich ein Scala-Programm SQLContext mit sbt. Das ist mein build.sbt: name := "sampleScalaProject" version := "1.0" scalaVersion := "2.11.7" //libraryDependencies += "org.apache.spark" %% "spark-core" % "2.5.2" libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "1.5.2" libraryDependencies += "org.apache.kafka"
3
Antworten
Für eine Reihe von dataframes val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z") union in allen ich tun, df1.unionAll(df2).unionAll(df3) Gibt es
2
Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass
2
Antworten
Habe ich PySpark DataFrame (nicht pandas) genannt df, die ziemlich groß ist zu verwenden collect(). Daher die unten angegebene code ist nicht effizient. Es war eine kleinere Datenmenge, aber jetzt scheitert es. import numpy as np myList
3
Antworten
Meine Frage ist, Wann sollte ich tun, dataframe.cache() und, wenn es sinnvoll? Auch, in meinem code sollte ich cache die dataframes in den kommentierten Zeilen? Hinweis: Meine dataframes sind geladen von einer Rotverschiebung DB. Vielen Dank Hier
2
Antworten
Ich brauche eine window-Funktion, die Partitionen, die von einigen Tasten (=Spaltennamen), Aufträge durch einen anderen Spaltennamen und gibt die Zeilen zurück, mit top-x rangiert. Dies funktioniert gut für die aufsteigende Reihenfolge: def getTopX(df: DataFrame, top_x: String, top_key:
2
Antworten
Spark bietet jetzt vordefinierte Funktionen, die verwendet werden können in dataframes, und es scheint, Sie sind stark optimiert. Meine ursprüngliche Frage war, auf welche schneller ist, aber ich habe einige Tests selbst und fand, dass der spark-Funktionen
2
Antworten
Möchte ich anfügen einer neuen Spalte dataframe "df" aus der Funktion get_distance: def get_distance(x, y): dfDistPerc = hiveContext.sql("select column3 as column3, \ from tab \ where column1 = '" + x + "' \ and column2 =
3
Antworten
Ich habe einen Dataframe, daß ich versuche, Sie zu glätten. Als Teil des Prozesses, ich will es explodieren, also wenn ich eine Spalte des arrays, jeder Wert des Arrays werden verwendet, um erstellen Sie eine separate Zeile.
2
Antworten
Ich bin mit CassandraSQLContext von Funke-shell zur Abfrage von Daten aus Cassandra. Also, ich möchte zwei Dinge wissen, wie zu Holen die mehr als 20 Zeilen mit CassandraSQLContext und zweitens wie do-Id-Anzeige der volle Wert der Spalte.
1
Antworten
Habe ich Folgendes dataframe: corr_temp_df [('vacationdate', 'date'), ('valueE', 'string'), ('valueD', 'string'), ('valueC', 'string'), ('valueB', 'string'), ('valueA', 'string')] Nun würde ich gerne ändern Sie den Datentyp der Spalte vacationdate String, so dass auch der dataframe nimmt diese neue
2
Antworten
Ich bin etwas verwirrt mit dem Unterschied, wenn wir mit df.filter(col("c1") === null) and df.filter(col("c1").isNull) Gleichen dataframe ich immer bin, zählt in === null, aber null zählt isNull. Bitte helfen Sie mir, um den Unterschied zu verstehen.
2
Antworten
Ich bin sehr neu in Apache Spark und bin versucht, SchemaRDD mit meinen pipe-delimited-text-Datei. Ich habe eine standalone-installation von Spark 1.5.2 auf meinem Mac mit Scala 10. Ich habe eine CSV-Datei mit den folgenden repräsentativen Daten und
2
Antworten
Habe ich zwei folgende Spark-Daten-frames: sale_df: |user_id|total_sale| +-------+----------+ | a| 1100| | b| 2100| | c| 3300| | d| 4400 und target_df: user_id|personalized_target| +-------+-------------------+ | b| 1000| | c| 2000| | d| 3000| | e| 4000| +-------+-------------------+
2
Antworten
Möchte ich noch hinzufügen einer neuen Spalte zu einem Dataframe, ein UUID-generator. UUID-Wert Aussehen wird, so etwas wie 21534cf7-cff9-482a-a3a8-9e7244240da7 Meiner Forschung: Habe ich versucht, mit withColumn Methode in der Funke. val DF2 = DF1.withColumn("newcolname", DF1("existingcolname" + 1)
3
Antworten
Basiert auf den folgenden DataFrame: val client = Seq((1,"A",10),(2,"A",5),(3,"B",56)).toDF("ID","Categ","Amnt") +---+-----+----+ | ID|Categ|Amnt| +---+-----+----+ | 1| A| 10| | 2| A| 5| | 3| B| 56| +---+-----+----+ Ich würde gerne, um die Anzahl der ID, und die Summe
5
Antworten
Erstmal, ich bin ganz neu FUNKE Habe ich Millionen von Datensätzen, die in meinem Datensatz und ich wollte groupby mit dem Namen der Spalte und die Suche nach Namen, die mit einer maximalen Alter. Ich bin immer
3
Antworten
Habe ich zwei DataFrames in Spark SQL (D1 und D2). Ich versuche zu inner join beide D1.join(D2, "some column") und Holen Sie sich zurück Daten von nur D1, nicht die kompletten Daten. Beide D1 und D2 sind
7
Antworten
Ich habe eine text Datei in HDFS und ich wollen, es zu konvertieren, um einen Daten-Frame in Spark. Bin ich mit der Spark-Rahmen um die Datei zu laden und dann versuchen zu generieren, die einzelnen Spalten aus
3
Antworten
Gibt es zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Entspricht MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Personenbezogene Daten Player | BirthYear --------------------------------
5
Antworten
Gibt es eine schönere Art Präfix oder benennen Sie alle oder mehrere Spalten in der gleichen Zeit von einem bestimmten SparkSQL DataFrame als der Aufruf mehrmals dataFrame.withColumnRenamed()? Ein Beispiel würde sein, wenn ich will, um änderungen zu
1
Antworten
Ich bin neu in der Verwendung von Spark in Python und nicht in der Lage gewesen, dieses problem zu lösen: Nach dem ausführen groupBy auf eine pyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId') wie können Sie N Stichproben aus
2
Antworten
Ich habe drei Arrays von string-Typ enthält folgende Informationen: groupBy-array: enthält die Namen der Spalten, möchte ich der Gruppe meine Daten durch. Aggregat array: enthält den Namen der Spalten, die ich will, zu aggregieren. array-Operationen: mit den
2
Antworten
Habe ich gelesen, eine avro-Datei in spark RDD und müssen conver, die in einer sql-dataframe. wie mache ich das. Dies ist, was ich getan habe bisher. import org.apache.avro.generic.GenericRecord import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper} import org.apache.hadoop.io.NullWritable val path = "hdfs://dds-nameservice/user/ghagh/"
2
Antworten
Ich versuche eine Verbindung zu Oracle zu Funken und wollen, ziehen Sie Daten von einigen Tabellen und SQL-Abfragen. Aber ich bin nicht in der Lage, eine Verbindung zu Oracle. Ich habe versucht, verschiedene arbeiten rund Optionen, aber
3
Antworten
Ich bin neu zu entfachen, SQL, In MS SQL, haben wir LINKS keyword LEFT(Columnname,1) in('D','A') then 1 else 0. Wie die Umsetzung der gleichen in SPARK SQL. Freundlicherweise guide mich Wenn Sie sind unter Verwendung von JDBC