Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Wie fügt Funke DataFrame zu Hive Interne Tabelle?

2 Antworten

Was ist der richtige Weg zu legen DF Hive Internen Tabelle im Append-Modus. Es scheint, als ob wir direkt schreiben können, die DF zu Hive mit "saveAsTable" - Methode ODER die Speicherung von DF temp-Tabelle verwenden Sie

Wie auszudrücken, eine Spalte, deren name Leerzeichen enthält, in Spark SQL

2 Antworten

Wir haben versucht, das einwickeln der Spalte name mit Klammern [column name], single & double quotes, und backticks, keiner von Ihnen arbeitet. Tut Spark SQL-Unterstützung Spalten, deren Namen Leerzeichen enthält? Danke! InformationsquelleAutor DarkZero | 2015-10-10

apache-spark apache-spark-sql

Spark dataframe reducebykey wie operation

2 Antworten

Ich habe eine Spark-dataframe mit den folgenden Daten (ich benutze spark-csv um die Daten zu laden): key,value 1,10 2,12 3,0 1,20 gibt es etwas, ähnlich wie spark RDD reduceByKey ckgeben kann ein Funke DataFrame: (im Grunde summieren,

apache-spark apache-spark-sql scala sql

Erstellen Sie ein array von literalen und Spalten aus der Liste der Zeichenfolgen in Spark SQL

1 Antworten

Ich versuche zu definieren, die Funktionen in Scala, eine Liste von strings als Eingabe und konvertiert Sie in die Spalten übergeben, der dataframe-array-Argumente verwendet, im code unten. val df = sc.parallelize(Array((1,1),(2,2),(3,3))).toDF("foo","bar") val df2 = df .withColumn("columnArray",array(df("foo").cast("String"),df("bar").cast("String"))) .withColumn("litArray",array(lit("foo"),lit("bar")))

apache-spark apache-spark-sql arrays scala

Macht Histogramm mit Funken-DataFrame Spalte

5 Antworten

Ich versuche, ein Histogramm mit einer Spalte aus einem dataframe, die aussieht wie DataFrame[C0: int, C1: int, ...] Wenn ich ein Histogramm mit der C1-Spalte, was soll ich tun? Einige Dinge, die ich versucht haben, sind df.groupBy("C1").count().histogram()

apache-spark apache-spark-sql pandas pyspark python

Konvertieren von durch Komma getrennten string zu array in pyspark dataframe

1 Antworten

Ich habe einen dataframe, wie unten, wo die ev ist vom Typ string. >>> df2.show() +---+--------------+ | id| ev| +---+--------------+ | 1| 200, 201, 202| | 1|23, 24, 34, 45| | 1| null| | 2| 32| |

apache-spark apache-spark-sql dataframe pyspark python

Holen Spark dataframe Spalte Liste

3 Antworten

Wie man alle Spaltennamen in einer spark-dataframe in eine Seq-variable . Input-Daten & Schema val dataset1 = Seq(("66", "a", "4"), ("67", "a", "0"), ("70", "b", "4"), ("71", "d", "4")).toDF("KEY1", "KEY2", "ID") dataset1.printSchema() root |-- KEY1: string (nullable

apache-spark apache-spark-sql scala spark-dataframe

So berechnen Sie den Median von spark sqlContext für die Spalte des Datentyps double

3 Antworten

Habe ich die Beispiel-Tabelle. Ich möchte den median von "Wert" - Spalte für jede Gruppe "Quelle" Spalte. Wo Quelle Spalte ist vom Datentyp String Spalte Wert wird der double-Datentyp scala> sqlContext.sql("SELECT * from tTab order by source").show

apache-spark apache-spark-sql hive

Spark dataframe fügen Sie neue Spalte mit Zufallszahlen

2 Antworten

Möchte ich eine neue Spalte hinzufügen, um den dataframe mit den Werten aus entweder 0 oder 1. Ich benutzt "randint" - Funktion aus, from random import randint df1 = df.withColumn('isVal',randint(0,1)) Aber ich bekomme die folgende Fehlermeldung, /spark/python/pyspark/sql/dataframe.py",

apache-spark apache-spark-sql pyspark python

Wie wählen Sie die erste Zeile jeder Gruppe?

9 Antworten

Ich habe einen DataFrame erzeugt wie folgt: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105|

apache-spark apache-spark-sql dataframe scala sql

Konvertieren Sie die Liste in dataframe Funke scala

2 Antworten

Ich habe eine Liste mit mehr als 30 Saiten. so konvertieren Sie die Liste in dataframe . was habe ich versucht: zB Val list=List("a","b","v","b").toDS().toDF() Output : +-------+ | value| +-------+ |a | |b | |v | |b

apache-spark apache-spark-sql scala spark-dataframe

Versucht die Karte auf einem Spark-DataFrame

1 Antworten

Ich habe vor kurzem begann zu Experimentieren mit beiden Funken und Java. Ging ich zunächst durch die berühmte WordCountBeispiel mit RDD und alles lief wie erwartet. Jetzt bin ich versucht zu implementieren meinem eigenen Beispiel aber mit

apache-spark apache-spark-sql java java-8 spark-dataframe

Spark Sql: TypeError("StructType können nicht akzeptieren, Objekt-Typ %s" % type(obj))

1 Antworten

Ich bin derzeit abrufen von Daten aus SQL Server mithilfe von PyODBC und versuchen zum einfügen in eine Tabelle in Hive in der Nähe von Echtzeit - (NRT -) Weise. Bekam ich eine einzelne Zeile aus dem

apache-spark apache-spark-sql python spark-dataframe

PySpark: ändern Sie Werte in der Spalte, wenn eine andere Spalte Wert eine Bedingung erfüllt

1 Antworten

Ich habe eine PySpark Dataframe mit zwei Spalten, Id und rank, +---+----+ | Id|Rank| +---+----+ | a| 5| | b| 7| | c| 8| | d| 1| +---+----+ Für jede Zeile, ich bin auf der Suche zu

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

wie zu Lesen json-schema-Zündkerzen dataframes/spark sql

2 Antworten

sql/dataframes, bitte helfen Sie mir oder geben Sie einige gute Vorschläge, wie dieses zu Lesen, json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ { "categoryDesc":"sub", "value":"10", "currentinfo":{ "value":"10" } }] }] }

apache-spark apache-spark-sql dataframe scala

erstellen von externen hive-Tabelle mit schema spark

3 Antworten

Bin ich mit spark 1.6 und mein Ziel ist es, erstellen externe hive-Tabelle wie das, was ich in hive-Skript. Um dies zu tun, ich lese zuerst in die partitionierte avro-Datei und erhalten das schema dieser Datei. Jetzt

apache-spark apache-spark-sql hive spark-avro

pyspark Zeilennummer dataframe

1 Antworten

Ich habe einen dataframe mit den Spalten Zeit,a,b,c,d,val. Ich würde gerne erstellen Sie ein dataframe mit zusätzlichen Spalte enthält die Zeilennummer der Zeile, in der jeweiligen Gruppe, wobei a,b,c,d ist eine Gruppe key. Versuchte ich mit der

apache-spark apache-spark-sql pyspark python

SQL auf Spark: Wie bekomme ich alle Werte EINDEUTIG?

2 Antworten

apache-spark-sql sql

Sollten wir parallelisieren Sie einen DataFrame, wie wir parallelisieren eines Seq-vor dem training

2 Antworten

Betrachten Sie den code, die hier gegeben werden, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkContext.parallelize(Seq( LabeledPoint(1.0, Vectors.dense(0.0, 1.1, 0.1)), LabeledPoint(0.0, Vectors.dense(2.0, 1.0, -1.0)), LabeledPoint(0.0, Vectors.dense(2.0, 1.3, 1.0)), LabeledPoint(1.0, Vectors.dense(0.0, 1.2, -0.5)))) val lr = new LogisticRegression() lr.setMaxIter(10).setRegParam(0.01)

apache-spark apache-spark-ml apache-spark-sql pyspark scala

Wo müssen Sie verwenden, leuchtet() im Pyspark SQL?

1 Antworten

Ich versuche, Sinn zu machen, wo Sie brauchen, um eine lit Wert, der definiert ist als literal column in der Dokumentation. Nehmen Sie zum Beispiel diese udf die gibt den index eines SQL-Spalte-array: def find_index(column, index): return

apache-spark apache-spark-sql pyspark python

GenericRowWithSchema Ausnahme im casting-ArrayBuffer, HashSet in DataFrame zu RDD von Hive-Tabelle

1 Antworten

Habe ich eine Hive-Tabelle in Parkett-format, generiert wurde, mit create table myTable (var1 int, var2 string, var3 int, var4 string, var5 array<struct<a:int,b:string>>) stored as parquet; Ich bin in der Lage, um zu überprüfen, dass es voll war-hier

apache-spark apache-spark-1.3 apache-spark-sql hive scala

Warum Funken schlägt fehl "Erkannt Kartesisches Produkt für die INNERE Verknüpfung zwischen logischen Pläne"?

2 Antworten

Ich bin mit Funke 2.1.0. Wenn ich führen Sie den folgenden code, ich bin immer ein Fehler von Spark. Warum? Wie es zu lösen ist? val i1 = Seq(("a", "string"), ("another", "string"), ("last", "one")).toDF("a", "b") val i2

apache-spark apache-spark-sql scala

Der Wert von “Funken.Garn.executor.memoryOverhead" - Einstellung?

1 Antworten

Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09

apache-spark apache-spark-mllib apache-spark-sql spark-streaming

Spark-SQL : Wie liest man einen TSV oder CSV-Datei in dataframe und anwenden einer benutzerdefinierten schema?

1 Antworten

Bin ich mit Spark 2.0 während der Arbeit mit der tab-getrennter Wert (TSV) und comma-separated value (CSV) - Dateien. Ich möchte zum laden der Daten in die Funke-SQL-dataframes, wo ich Steuern möchten, die das schema vollständig, wenn

apache-spark apache-spark-sql scala spark-dataframe

Filtern Sie Zeilen mit NaN-Werte für eine bestimmte Spalte

3 Antworten

Habe ich ein dataset und in einigen Zeilen ein Attribut-Wert NaN. Diese Daten werden in ein dataframe, und ich möchte nur die Zeilen, die aus Zeilen, in denen alle Attribut-Werte haben. Ich versuchte es über sql: val

apache-spark apache-spark-sql scala

pyspark : Konvertieren DataFrame zu RDD[string]

1 Antworten

Ich umwandeln möchte pyspark.sql.dataframe.DataFrame zu pyspark.rdd.RDD[String] Ich Umgerechnet ein DataFrame df zu RDD data: data = df.rdd type (data) ## pyspark.rdd.RDD den neuen RDD data enthält Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc',

apache-spark apache-spark-sql dataframe pyspark python

Konvertieren scala Liste DataFrame oder ein DataSet

1 Antworten

Ich bin neu in Scala. Ich bin versucht, zu konvertieren, eine scala-Liste (die holding die Ergebnisse der berechneten Daten auf eine Quelle DataFrame) Dataframe oder ein Dataset. Ich bin nicht auf der Suche nach einer direkten Methode

apache-spark apache-spark-dataset apache-spark-encoders apache-spark-sql scala

Apache Spark Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$Klasse

2 Antworten

Scala-version:2.11.7(hatten ein upgrade der scala-Version zu aktivieren, Fall clasess zu akzeptieren mehr als 22 Parameter.) Spark-version:1.6.1 PFB pom.xml Immer folgende Fehlermeldung, wenn Sie versuchen, um das setup Funke auf intellij IDE, 16/03/16 18:36:44 INFO spark.SparkContext: Running Spark

apache-spark apache-spark-sql maven scala

So drucken Sie von rdd in python spark

1 Antworten

Habe ich zwei Dateien in HDFS und ich will einfach nur schließen Sie diese beiden Dateien auf eine Spalte, sagen Mitarbeiter-id. Ich versuche, drucken Sie einfach die Dateien, um sicherzustellen, dass wir Lesen, richtig von HDFS. lines

apache-spark apache-spark-sql pyspark python

Wie Filtere nach Datumsbereich in Spark SQL

1 Antworten

Ich versuche zu filtern Datumsbereich aus den folgenden Daten mit Daten, die Steine, die null zurückgibt als Antwort. Meine csv-Datei sieht wie folgt aus: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 103,

apache-spark apache-spark-sql scala

Gewusst wie: löschen von Zeilen in einer Tabelle erstellt, aus dem ein Funke dataframe?

3 Antworten

Grundsätzlich würde ich gerne einfach löschen, indem Sie SQL-Anweisungen, aber wenn ich das sql-Skript ausführen es wirft mir die folgende Fehlermeldung: pyspark.sql.utils.ParseException: u"\nmissing 'AUS' auf 'ein'(mit der Linie 2 pos 23)\n\n== SQL ==\n\n LÖSCHEN.* VON adsquare eine

apache-spark apache-spark-sql pyspark

PySpark Fehlermeldung: AttributeError: 'NoneType' - Objekt hat kein Attribut '_jvm'

3 Antworten

Habe ich timestamp-datasets, die im format von Und ich geschrieben haben, eine udf in pyspark zu verarbeiten Datensatz und zurück, wie Anzeigen von Schlüssel-Werte. Aber bin immer folgende Fehlermeldung angezeigt. Dataset:df_ts_list +--------------------+ | ts_list| +--------------------+ |[1477411200, 1477...|

apache-spark apache-spark-sql ipython pyspark pyspark-sql

Spark-Äquivalent, WENN, Dann, SONST

2 Antworten

Ich gesehen habe diese Frage vorhin hier und ich nahm Unterricht aus. Aber ich bin nicht sicher, warum ich eine Fehlermeldung, wenn ich das Gefühl, es sollte funktionieren. Möchte ich zum erstellen einer neuen Spalte in vorhandenen

apache-spark apache-spark-sql pyspark python

Wie update-Zeile/Spalte-Wert in einem Apache-Spark-DataFrame?

2 Antworten

Hallo ich habe eine bestellt Funke DataFrameund ich würde das gerne ändern paar Zeilen während der Iteration es mit dem folgenden code, aber es scheint, gibt es keine Möglichkeit zum aktualisieren von Zeilen-Objekt orderedDataFrame.foreach(new Function1<Row,BoxedUnit>(){ @Override public

apache-spark apache-spark-sql spark-dataframe

Spark Ausnahme : Aufgabe fehlgeschlagen ist, beim schreiben der Zeilen

5 Antworten

Bin ich das Lesen von text-Dateien und konvertiert Sie zu Parkett-Dateien. Ich mache es über spark-code. Aber wenn ich versuche den code auszuführen bekomme ich folgende exception org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in

apache-spark apache-spark-sql hadoop java parquet

Filtern von Zeilen basierend auf Spalte Werte in der Funke dataframe scala

4 Antworten

Ich habe einen dataframe(Funke): id value 3 0 3 1 3 0 4 1 4 0 4 0 Erstellen Sie ein neues dataframe: 3 0 3 1 4 1 Brauchen, um alle Zeilen zu entfernen, die nach

apache-spark apache-spark-sql dataframe scala

Scala Dataframe null-check für Spalten

2 Antworten

val new_df = df.filter($"type_interne" !== "" || $"type_interne" !== "null") Gib mir Fehler-Wert || ist nicht Mitglied string Wenn ich === funktioniert gut für filter val new_df = df.filter($"type_interne" === "" || $"type_interne" === "null") InformationsquelleAutor Subhod

apache-spark apache-spark-sql dataframe scala

verbinden Sie mehrere kleine Dateien zu wenigen größeren Dateien in Spark

3 Antworten

Ich mit hive durch Funken. Ich habe ein Insert into partitionierten Tabelle Abfragen, die in meinem spark-code. Die Daten werden in 200+gb. Beim Spark ist das schreiben in eine partitionierte Tabelle, es wird spucken sehr kleinen Dateien(Dateien

apache-spark apache-spark-sql hadoop hive scala

So speichern Sie eine partitionierte Parkett-Datei in Spark 2.1?

2 Antworten

Ich versuche, zu testen, wie das schreiben von Daten in HDFS 2.7 Verwendung von Spark-2.1. Meine Daten ist eine einfache Abfolge von dummy-Werte und die Ausgabe sollte partitioniert werden durch die Attribute: id und Schlüssel. //Simple case

apache-spark apache-spark-sql parquet scala

Spark SQL saveAsTable ist nicht kompatibel mit Hive als partition angegeben ist

2 Antworten

Art von edge-Fall, beim speichern von Parkett-Tabelle in Spark SQL mit partition #schema definitioin final StructType schema = DataTypes.createStructType(Arrays.asList( DataTypes.createStructField("time", DataTypes.StringType, true), DataTypes.createStructField("accountId", DataTypes.StringType, true), ... DataFrame df = hiveContext.read().schema(schema).json(stringJavaRDD); df.coalesce(1) .write() .mode(SaveMode.Append) .format("parquet") .partitionBy("year") .saveAsTable("tblclick8partitioned"); Funke

apache-spark-sql hive parquet partitioning

TypeError: haben Sie ein unerwartetes Schlüsselwort-argument

1 Antworten

Den scheinbar einfachen code unten wirft die folgende Fehlermeldung: Traceback (most recent call last): File "/home/nirmal/process.py", line 165, in <module> 'time_diff': f.last(adf['time_diff']).over(window_device_rows) TypeError: __call__() got an unexpected keyword argument 'this_campaign' Code: # Function to flag network timeouts

apache-spark apache-spark-sql pyspark python user-defined-functions

wie zu verwenden Regexp_replace spark

1 Antworten

Ich bin ziemlich neu zu entfachen, und möchte das ausführen einer operation auf einer Spalte mit einem dataframe, so ersetzen Sie alle , in der Spalte mit . Angenommen, es gibt einen dataframe x und Spalte x4

apache-spark apache-spark-sql regexp-replace scala

berechnen Sie die string-Länge in Spark SQL-DSL

2 Antworten

Edit: das ist eine alte Frage zur Spark 1.2 Ich habe versucht zu berechnen on-the-fly die Länge einer string-Spalte in einer SchemaRDD für die orderBy-Zwecke. Ich Lerne Spark SQL so meine Frage ist, streng über die Verwendung

apache-spark apache-spark-sql string-length

get-Datentyp der Spalte, und verwenden Sie pyspark

4 Antworten

Lesen wir Daten aus MongoDB Collection. Collection Spalte hat zwei verschiedene Werte (z.B.: (bson.Int64,int) (int,float) ). Ich versuche ein Datentyp mit pyspark. Mein problem ist, dass einige Spalten haben unterschiedliche Datentyp. Übernehmen quantity und weight sind die

apache-spark apache-spark-sql databricks pyspark

Wie berechnen Datum Unterschied in pyspark?

2 Antworten

Habe ich Daten wie diese: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal')) Möchte ich berechnen Datum Unterschied zwischen low Spalte und 2017-05-02 und

apache-spark apache-spark-sql dataframe pyspark python

java.lang.RuntimeException: java.lang.String ist keine gültige externe Typ für das schema der bigint-oder int

2 Antworten

Ich lese schema des data Frames aus einer text-Datei. Die Datei sieht wie id,1,bigint price,2,bigint sqft,3,bigint zip_id,4,int name,5,string und ich bin mapping analysiert die Datentypen zu Spark Sql-Datentypen.Der code zum erstellen von Daten-frame - var schemaSt =

apache-spark apache-spark-sql scala spark-dataframe

Spark Dataframe wählen Sie basierend auf Spalte index

2 Antworten

Wie wähle ich alle Spalten eines dataframe, die bestimmte Indizes in Scala? Zum Beispiel, wenn ein dataframe mit 100 Spalten, und ich will nur extrahieren Spalten (10,12,13,14,15), wie das gleiche zu tun? Unten wählt alle Spalten aus

apache-spark apache-spark-sql dataframe scala

abrufen von Daten aus der hive-Tabelle in spark und führen Sie gemeinsam auf RDDs

4 Antworten

Ich habe zwei Tabellen in hive/impala. Ich möchte zum abrufen der Daten aus der Tabelle in spark als rdds und durchführen, sagen, dass eine join-operation. Möchte ich nicht direkt übergeben, die join-Abfrage in meinem hive Kontext. Dies

apache-spark apache-spark-sql rdd scala

Wie kann ich das machen (Spark1.6) saveAsTextFile an vorhandene Datei Anhängen?

3 Antworten

In SparkSQL,ich benutze DF.Schreibe.Modus(SaveMode.Anhängen).json(xxxx),aber mit dieser Methode erhalten Sie diese Dateien wie den Dateinamen ist zu Komplex und zufällig ist,kann ich nicht verwenden, die api zu bekommen.Also ich will saveAstextfile ,denn mit dem Namen ist nicht Komplex

apache-spark apache-spark-sql spark-dataframe spark-streaming

inferSchema in spark-csv-Paket

1 Antworten

Als CSV gelesen als dataframe Zündkerzen, alle Spalten gelesen werden als string. Gibt es eine Möglichkeit, um die tatsächliche Art der Spalte? Habe ich folgende csv-Datei Name,Department,years_of_experience,DOB Sam,Software,5,1990-10-10 Alex,Data Analytics,3,1992-10-10 Ich habe gelesen, die CSV über den

apache-spark apache-spark-sql scala spark-csv