Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Wie fügt Funke DataFrame zu Hive Interne Tabelle?

Anzahl der Antworten 2 Antworten
Was ist der richtige Weg zu legen DF Hive Internen Tabelle im Append-Modus. Es scheint, als ob wir direkt schreiben können, die DF zu Hive mit "saveAsTable" - Methode ODER die Speicherung von DF temp-Tabelle verwenden Sie

Wie auszudrücken, eine Spalte, deren name Leerzeichen enthält, in Spark SQL

Anzahl der Antworten 2 Antworten
Wir haben versucht, das einwickeln der Spalte name mit Klammern [column name], single & double quotes, und backticks, keiner von Ihnen arbeitet. Tut Spark SQL-Unterstützung Spalten, deren Namen Leerzeichen enthält? Danke! InformationsquelleAutor DarkZero | 2015-10-10

Spark dataframe reducebykey wie operation

Anzahl der Antworten 2 Antworten
Ich habe eine Spark-dataframe mit den folgenden Daten (ich benutze spark-csv um die Daten zu laden): key,value 1,10 2,12 3,0 1,20 gibt es etwas, ähnlich wie spark RDD reduceByKey ckgeben kann ein Funke DataFrame: (im Grunde summieren,

Erstellen Sie ein array von literalen und Spalten aus der Liste der Zeichenfolgen in Spark SQL

Anzahl der Antworten 1 Antworten
Ich versuche zu definieren, die Funktionen in Scala, eine Liste von strings als Eingabe und konvertiert Sie in die Spalten übergeben, der dataframe-array-Argumente verwendet, im code unten. val df = sc.parallelize(Array((1,1),(2,2),(3,3))).toDF("foo","bar") val df2 = df .withColumn("columnArray",array(df("foo").cast("String"),df("bar").cast("String"))) .withColumn("litArray",array(lit("foo"),lit("bar")))

Macht Histogramm mit Funken-DataFrame Spalte

Anzahl der Antworten 5 Antworten
Ich versuche, ein Histogramm mit einer Spalte aus einem dataframe, die aussieht wie DataFrame[C0: int, C1: int, ...] Wenn ich ein Histogramm mit der C1-Spalte, was soll ich tun? Einige Dinge, die ich versucht haben, sind df.groupBy("C1").count().histogram()

Konvertieren von durch Komma getrennten string zu array in pyspark dataframe

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe, wie unten, wo die ev ist vom Typ string. >>> df2.show() +---+--------------+ | id| ev| +---+--------------+ | 1| 200, 201, 202| | 1|23, 24, 34, 45| | 1| null| | 2| 32| |

Holen Spark dataframe Spalte Liste

Anzahl der Antworten 3 Antworten
Wie man alle Spaltennamen in einer spark-dataframe in eine Seq-variable . Input-Daten & Schema val dataset1 = Seq(("66", "a", "4"), ("67", "a", "0"), ("70", "b", "4"), ("71", "d", "4")).toDF("KEY1", "KEY2", "ID") dataset1.printSchema() root |-- KEY1: string (nullable

So berechnen Sie den Median von spark sqlContext für die Spalte des Datentyps double

Anzahl der Antworten 3 Antworten
Habe ich die Beispiel-Tabelle. Ich möchte den median von "Wert" - Spalte für jede Gruppe "Quelle" Spalte. Wo Quelle Spalte ist vom Datentyp String Spalte Wert wird der double-Datentyp scala> sqlContext.sql("SELECT * from tTab order by source").show

Spark dataframe fügen Sie neue Spalte mit Zufallszahlen

Anzahl der Antworten 2 Antworten
Möchte ich eine neue Spalte hinzufügen, um den dataframe mit den Werten aus entweder 0 oder 1. Ich benutzt "randint" - Funktion aus, from random import randint df1 = df.withColumn('isVal',randint(0,1)) Aber ich bekomme die folgende Fehlermeldung, /spark/python/pyspark/sql/dataframe.py",

Wie wählen Sie die erste Zeile jeder Gruppe?

Anzahl der Antworten 9 Antworten
Ich habe einen DataFrame erzeugt wie folgt: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105|

Konvertieren Sie die Liste in dataframe Funke scala

Anzahl der Antworten 2 Antworten
Ich habe eine Liste mit mehr als 30 Saiten. so konvertieren Sie die Liste in dataframe . was habe ich versucht: zB Val list=List("a","b","v","b").toDS().toDF() Output : +-------+ | value| +-------+ |a | |b | |v | |b

Versucht die Karte auf einem Spark-DataFrame

Anzahl der Antworten 1 Antworten
Ich habe vor kurzem begann zu Experimentieren mit beiden Funken und Java. Ging ich zunächst durch die berühmte WordCountBeispiel mit RDD und alles lief wie erwartet. Jetzt bin ich versucht zu implementieren meinem eigenen Beispiel aber mit

Spark Sql: TypeError("StructType können nicht akzeptieren, Objekt-Typ %s" % type(obj))

Anzahl der Antworten 1 Antworten
Ich bin derzeit abrufen von Daten aus SQL Server mithilfe von PyODBC und versuchen zum einfügen in eine Tabelle in Hive in der Nähe von Echtzeit - (NRT -) Weise. Bekam ich eine einzelne Zeile aus dem

PySpark: ändern Sie Werte in der Spalte, wenn eine andere Spalte Wert eine Bedingung erfüllt

Anzahl der Antworten 1 Antworten
Ich habe eine PySpark Dataframe mit zwei Spalten, Id und rank, +---+----+ | Id|Rank| +---+----+ | a| 5| | b| 7| | c| 8| | d| 1| +---+----+ Für jede Zeile, ich bin auf der Suche zu

wie zu Lesen json-schema-Zündkerzen dataframes/spark sql

Anzahl der Antworten 2 Antworten
sql/dataframes, bitte helfen Sie mir oder geben Sie einige gute Vorschläge, wie dieses zu Lesen, json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ { "categoryDesc":"sub", "value":"10", "currentinfo":{ "value":"10" } }] }] }

erstellen von externen hive-Tabelle mit schema spark

Anzahl der Antworten 3 Antworten
Bin ich mit spark 1.6 und mein Ziel ist es, erstellen externe hive-Tabelle wie das, was ich in hive-Skript. Um dies zu tun, ich lese zuerst in die partitionierte avro-Datei und erhalten das schema dieser Datei. Jetzt

pyspark Zeilennummer dataframe

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe mit den Spalten Zeit,a,b,c,d,val. Ich würde gerne erstellen Sie ein dataframe mit zusätzlichen Spalte enthält die Zeilennummer der Zeile, in der jeweiligen Gruppe, wobei a,b,c,d ist eine Gruppe key. Versuchte ich mit der

SQL auf Spark: Wie bekomme ich alle Werte EINDEUTIG?

Anzahl der Antworten 2 Antworten
So, angenommen ich habe folgende Tabelle: Name | Color ------------------------------ John | Blue Greg | Red John | Yellow Greg | Red Greg | Blue Ich würde gerne eine Tabelle der unterscheidbaren Farben für jeden Namen -

Sollten wir parallelisieren Sie einen DataFrame, wie wir parallelisieren eines Seq-vor dem training

Anzahl der Antworten 2 Antworten
Betrachten Sie den code, die hier gegeben werden, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkContext.parallelize(Seq( LabeledPoint(1.0, Vectors.dense(0.0, 1.1, 0.1)), LabeledPoint(0.0, Vectors.dense(2.0, 1.0, -1.0)), LabeledPoint(0.0, Vectors.dense(2.0, 1.3, 1.0)), LabeledPoint(1.0, Vectors.dense(0.0, 1.2, -0.5)))) val lr = new LogisticRegression() lr.setMaxIter(10).setRegParam(0.01)

Wo müssen Sie verwenden, leuchtet() im Pyspark SQL?

Anzahl der Antworten 1 Antworten
Ich versuche, Sinn zu machen, wo Sie brauchen, um eine lit Wert, der definiert ist als literal column in der Dokumentation. Nehmen Sie zum Beispiel diese udf die gibt den index eines SQL-Spalte-array: def find_index(column, index): return

GenericRowWithSchema Ausnahme im casting-ArrayBuffer, HashSet in DataFrame zu RDD von Hive-Tabelle

Anzahl der Antworten 1 Antworten
Habe ich eine Hive-Tabelle in Parkett-format, generiert wurde, mit create table myTable (var1 int, var2 string, var3 int, var4 string, var5 array<struct<a:int,b:string>>) stored as parquet; Ich bin in der Lage, um zu überprüfen, dass es voll war-hier

Warum Funken schlägt fehl "Erkannt Kartesisches Produkt für die INNERE Verknüpfung zwischen logischen Pläne"?

Anzahl der Antworten 2 Antworten
Ich bin mit Funke 2.1.0. Wenn ich führen Sie den folgenden code, ich bin immer ein Fehler von Spark. Warum? Wie es zu lösen ist? val i1 = Seq(("a", "string"), ("another", "string"), ("last", "one")).toDF("a", "b") val i2

Der Wert von “Funken.Garn.executor.memoryOverhead" - Einstellung?

Anzahl der Antworten 1 Antworten
Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09

Spark-SQL : Wie liest man einen TSV oder CSV-Datei in dataframe und anwenden einer benutzerdefinierten schema?

Anzahl der Antworten 1 Antworten
Bin ich mit Spark 2.0 während der Arbeit mit der tab-getrennter Wert (TSV) und comma-separated value (CSV) - Dateien. Ich möchte zum laden der Daten in die Funke-SQL-dataframes, wo ich Steuern möchten, die das schema vollständig, wenn

Filtern Sie Zeilen mit NaN-Werte für eine bestimmte Spalte

Anzahl der Antworten 3 Antworten
Habe ich ein dataset und in einigen Zeilen ein Attribut-Wert NaN. Diese Daten werden in ein dataframe, und ich möchte nur die Zeilen, die aus Zeilen, in denen alle Attribut-Werte haben. Ich versuchte es über sql: val

pyspark : Konvertieren DataFrame zu RDD[string]

Anzahl der Antworten 1 Antworten
Ich umwandeln möchte pyspark.sql.dataframe.DataFrame zu pyspark.rdd.RDD[String] Ich Umgerechnet ein DataFrame df zu RDD data: data = df.rdd type (data) ## pyspark.rdd.RDD den neuen RDD data enthält Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc',

Konvertieren scala Liste DataFrame oder ein DataSet

Anzahl der Antworten 1 Antworten
Ich bin neu in Scala. Ich bin versucht, zu konvertieren, eine scala-Liste (die holding die Ergebnisse der berechneten Daten auf eine Quelle DataFrame) Dataframe oder ein Dataset. Ich bin nicht auf der Suche nach einer direkten Methode

Apache Spark Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$Klasse

Anzahl der Antworten 2 Antworten
Scala-version:2.11.7(hatten ein upgrade der scala-Version zu aktivieren, Fall clasess zu akzeptieren mehr als 22 Parameter.) Spark-version:1.6.1 PFB pom.xml Immer folgende Fehlermeldung, wenn Sie versuchen, um das setup Funke auf intellij IDE, 16/03/16 18:36:44 INFO spark.SparkContext: Running Spark

So drucken Sie von rdd in python spark

Anzahl der Antworten 1 Antworten
Habe ich zwei Dateien in HDFS und ich will einfach nur schließen Sie diese beiden Dateien auf eine Spalte, sagen Mitarbeiter-id. Ich versuche, drucken Sie einfach die Dateien, um sicherzustellen, dass wir Lesen, richtig von HDFS. lines

Wie Filtere nach Datumsbereich in Spark SQL

Anzahl der Antworten 1 Antworten
Ich versuche zu filtern Datumsbereich aus den folgenden Daten mit Daten, die Steine, die null zurückgibt als Antwort. Meine csv-Datei sieht wie folgt aus: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 103,

Gewusst wie: löschen von Zeilen in einer Tabelle erstellt, aus dem ein Funke dataframe?

Anzahl der Antworten 3 Antworten
Grundsätzlich würde ich gerne einfach löschen, indem Sie SQL-Anweisungen, aber wenn ich das sql-Skript ausführen es wirft mir die folgende Fehlermeldung: pyspark.sql.utils.ParseException: u"\nmissing 'AUS' auf 'ein'(mit der Linie 2 pos 23)\n\n== SQL ==\n\n LÖSCHEN.* VON adsquare eine

PySpark Fehlermeldung: AttributeError: 'NoneType' - Objekt hat kein Attribut '_jvm'

Anzahl der Antworten 3 Antworten
Habe ich timestamp-datasets, die im format von Und ich geschrieben haben, eine udf in pyspark zu verarbeiten Datensatz und zurück, wie Anzeigen von Schlüssel-Werte. Aber bin immer folgende Fehlermeldung angezeigt. Dataset:df_ts_list +--------------------+ | ts_list| +--------------------+ |[1477411200, 1477...|

Spark-Äquivalent, WENN, Dann, SONST

Anzahl der Antworten 2 Antworten
Ich gesehen habe diese Frage vorhin hier und ich nahm Unterricht aus. Aber ich bin nicht sicher, warum ich eine Fehlermeldung, wenn ich das Gefühl, es sollte funktionieren. Möchte ich zum erstellen einer neuen Spalte in vorhandenen

Wie update-Zeile/Spalte-Wert in einem Apache-Spark-DataFrame?

Anzahl der Antworten 2 Antworten
Hallo ich habe eine bestellt Funke DataFrameund ich würde das gerne ändern paar Zeilen während der Iteration es mit dem folgenden code, aber es scheint, gibt es keine Möglichkeit zum aktualisieren von Zeilen-Objekt orderedDataFrame.foreach(new Function1<Row,BoxedUnit>(){ @Override public

Spark Ausnahme : Aufgabe fehlgeschlagen ist, beim schreiben der Zeilen

Anzahl der Antworten 5 Antworten
Bin ich das Lesen von text-Dateien und konvertiert Sie zu Parkett-Dateien. Ich mache es über spark-code. Aber wenn ich versuche den code auszuführen bekomme ich folgende exception org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in

Filtern von Zeilen basierend auf Spalte Werte in der Funke dataframe scala

Anzahl der Antworten 4 Antworten
Ich habe einen dataframe(Funke): id value 3 0 3 1 3 0 4 1 4 0 4 0 Erstellen Sie ein neues dataframe: 3 0 3 1 4 1 Brauchen, um alle Zeilen zu entfernen, die nach

Scala Dataframe null-check für Spalten

Anzahl der Antworten 2 Antworten
val new_df = df.filter($"type_interne" !== "" || $"type_interne" !== "null") Gib mir Fehler-Wert || ist nicht Mitglied string Wenn ich === funktioniert gut für filter val new_df = df.filter($"type_interne" === "" || $"type_interne" === "null") InformationsquelleAutor Subhod

verbinden Sie mehrere kleine Dateien zu wenigen größeren Dateien in Spark

Anzahl der Antworten 3 Antworten
Ich mit hive durch Funken. Ich habe ein Insert into partitionierten Tabelle Abfragen, die in meinem spark-code. Die Daten werden in 200+gb. Beim Spark ist das schreiben in eine partitionierte Tabelle, es wird spucken sehr kleinen Dateien(Dateien

So speichern Sie eine partitionierte Parkett-Datei in Spark 2.1?

Anzahl der Antworten 2 Antworten
Ich versuche, zu testen, wie das schreiben von Daten in HDFS 2.7 Verwendung von Spark-2.1. Meine Daten ist eine einfache Abfolge von dummy-Werte und die Ausgabe sollte partitioniert werden durch die Attribute: id und Schlüssel. //Simple case

Spark SQL saveAsTable ist nicht kompatibel mit Hive als partition angegeben ist

Anzahl der Antworten 2 Antworten
Art von edge-Fall, beim speichern von Parkett-Tabelle in Spark SQL mit partition #schema definitioin final StructType schema = DataTypes.createStructType(Arrays.asList( DataTypes.createStructField("time", DataTypes.StringType, true), DataTypes.createStructField("accountId", DataTypes.StringType, true), ... DataFrame df = hiveContext.read().schema(schema).json(stringJavaRDD); df.coalesce(1) .write() .mode(SaveMode.Append) .format("parquet") .partitionBy("year") .saveAsTable("tblclick8partitioned"); Funke

TypeError: haben Sie ein unerwartetes Schlüsselwort-argument

Anzahl der Antworten 1 Antworten
Den scheinbar einfachen code unten wirft die folgende Fehlermeldung: Traceback (most recent call last): File "/home/nirmal/process.py", line 165, in <module> 'time_diff': f.last(adf['time_diff']).over(window_device_rows) TypeError: __call__() got an unexpected keyword argument 'this_campaign' Code: # Function to flag network timeouts

wie zu verwenden Regexp_replace spark

Anzahl der Antworten 1 Antworten
Ich bin ziemlich neu zu entfachen, und möchte das ausführen einer operation auf einer Spalte mit einem dataframe, so ersetzen Sie alle , in der Spalte mit . Angenommen, es gibt einen dataframe x und Spalte x4

berechnen Sie die string-Länge in Spark SQL-DSL

Anzahl der Antworten 2 Antworten
Edit: das ist eine alte Frage zur Spark 1.2 Ich habe versucht zu berechnen on-the-fly die Länge einer string-Spalte in einer SchemaRDD für die orderBy-Zwecke. Ich Lerne Spark SQL so meine Frage ist, streng über die Verwendung

get-Datentyp der Spalte, und verwenden Sie pyspark

Anzahl der Antworten 4 Antworten
Lesen wir Daten aus MongoDB Collection. Collection Spalte hat zwei verschiedene Werte (z.B.: (bson.Int64,int) (int,float) ). Ich versuche ein Datentyp mit pyspark. Mein problem ist, dass einige Spalten haben unterschiedliche Datentyp. Übernehmen quantity und weight sind die

Wie berechnen Datum Unterschied in pyspark?

Anzahl der Antworten 2 Antworten
Habe ich Daten wie diese: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal')) Möchte ich berechnen Datum Unterschied zwischen low Spalte und 2017-05-02 und

java.lang.RuntimeException: java.lang.String ist keine gültige externe Typ für das schema der bigint-oder int

Anzahl der Antworten 2 Antworten
Ich lese schema des data Frames aus einer text-Datei. Die Datei sieht wie id,1,bigint price,2,bigint sqft,3,bigint zip_id,4,int name,5,string und ich bin mapping analysiert die Datentypen zu Spark Sql-Datentypen.Der code zum erstellen von Daten-frame - var schemaSt =

Spark Dataframe wählen Sie basierend auf Spalte index

Anzahl der Antworten 2 Antworten
Wie wähle ich alle Spalten eines dataframe, die bestimmte Indizes in Scala? Zum Beispiel, wenn ein dataframe mit 100 Spalten, und ich will nur extrahieren Spalten (10,12,13,14,15), wie das gleiche zu tun? Unten wählt alle Spalten aus

abrufen von Daten aus der hive-Tabelle in spark und führen Sie gemeinsam auf RDDs

Anzahl der Antworten 4 Antworten
Ich habe zwei Tabellen in hive/impala. Ich möchte zum abrufen der Daten aus der Tabelle in spark als rdds und durchführen, sagen, dass eine join-operation. Möchte ich nicht direkt übergeben, die join-Abfrage in meinem hive Kontext. Dies

Wie kann ich das machen (Spark1.6) saveAsTextFile an vorhandene Datei Anhängen?

Anzahl der Antworten 3 Antworten
In SparkSQL,ich benutze DF.Schreibe.Modus(SaveMode.Anhängen).json(xxxx),aber mit dieser Methode erhalten Sie diese Dateien wie den Dateinamen ist zu Komplex und zufällig ist,kann ich nicht verwenden, die api zu bekommen.Also ich will saveAstextfile ,denn mit dem Namen ist nicht Komplex

inferSchema in spark-csv-Paket

Anzahl der Antworten 1 Antworten
Als CSV gelesen als dataframe Zündkerzen, alle Spalten gelesen werden als string. Gibt es eine Möglichkeit, um die tatsächliche Art der Spalte? Habe ich folgende csv-Datei Name,Department,years_of_experience,DOB Sam,Software,5,1990-10-10 Alex,Data Analytics,3,1992-10-10 Ich habe gelesen, die CSV über den