Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
2
Antworten
Was ist der richtige Weg zu legen DF Hive Internen Tabelle im Append-Modus. Es scheint, als ob wir direkt schreiben können, die DF zu Hive mit "saveAsTable" - Methode ODER die Speicherung von DF temp-Tabelle verwenden Sie
2
Antworten
Wir haben versucht, das einwickeln der Spalte name mit Klammern [column name], single & double quotes, und backticks, keiner von Ihnen arbeitet. Tut Spark SQL-Unterstützung Spalten, deren Namen Leerzeichen enthält? Danke! InformationsquelleAutor DarkZero | 2015-10-10
2
Antworten
Ich habe eine Spark-dataframe mit den folgenden Daten (ich benutze spark-csv um die Daten zu laden): key,value 1,10 2,12 3,0 1,20 gibt es etwas, ähnlich wie spark RDD reduceByKey ckgeben kann ein Funke DataFrame: (im Grunde summieren,
1
Antworten
Ich versuche zu definieren, die Funktionen in Scala, eine Liste von strings als Eingabe und konvertiert Sie in die Spalten übergeben, der dataframe-array-Argumente verwendet, im code unten. val df = sc.parallelize(Array((1,1),(2,2),(3,3))).toDF("foo","bar") val df2 = df .withColumn("columnArray",array(df("foo").cast("String"),df("bar").cast("String"))) .withColumn("litArray",array(lit("foo"),lit("bar")))
5
Antworten
Ich versuche, ein Histogramm mit einer Spalte aus einem dataframe, die aussieht wie DataFrame[C0: int, C1: int, ...] Wenn ich ein Histogramm mit der C1-Spalte, was soll ich tun? Einige Dinge, die ich versucht haben, sind df.groupBy("C1").count().histogram()
1
Antworten
Ich habe einen dataframe, wie unten, wo die ev ist vom Typ string. >>> df2.show() +---+--------------+ | id| ev| +---+--------------+ | 1| 200, 201, 202| | 1|23, 24, 34, 45| | 1| null| | 2| 32| |
3
Antworten
Wie man alle Spaltennamen in einer spark-dataframe in eine Seq-variable . Input-Daten & Schema val dataset1 = Seq(("66", "a", "4"), ("67", "a", "0"), ("70", "b", "4"), ("71", "d", "4")).toDF("KEY1", "KEY2", "ID") dataset1.printSchema() root |-- KEY1: string (nullable
3
Antworten
Habe ich die Beispiel-Tabelle. Ich möchte den median von "Wert" - Spalte für jede Gruppe "Quelle" Spalte. Wo Quelle Spalte ist vom Datentyp String Spalte Wert wird der double-Datentyp scala> sqlContext.sql("SELECT * from tTab order by source").show
2
Antworten
Möchte ich eine neue Spalte hinzufügen, um den dataframe mit den Werten aus entweder 0 oder 1. Ich benutzt "randint" - Funktion aus, from random import randint df1 = df.withColumn('isVal',randint(0,1)) Aber ich bekomme die folgende Fehlermeldung, /spark/python/pyspark/sql/dataframe.py",
9
Antworten
Ich habe einen DataFrame erzeugt wie folgt: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105|
2
Antworten
Ich habe eine Liste mit mehr als 30 Saiten. so konvertieren Sie die Liste in dataframe . was habe ich versucht: zB Val list=List("a","b","v","b").toDS().toDF() Output : +-------+ | value| +-------+ |a | |b | |v | |b
1
Antworten
Ich habe vor kurzem begann zu Experimentieren mit beiden Funken und Java. Ging ich zunächst durch die berühmte WordCountBeispiel mit RDD und alles lief wie erwartet. Jetzt bin ich versucht zu implementieren meinem eigenen Beispiel aber mit
1
Antworten
Ich bin derzeit abrufen von Daten aus SQL Server mithilfe von PyODBC und versuchen zum einfügen in eine Tabelle in Hive in der Nähe von Echtzeit - (NRT -) Weise. Bekam ich eine einzelne Zeile aus dem
1
Antworten
Ich habe eine PySpark Dataframe mit zwei Spalten, Id und rank, +---+----+ | Id|Rank| +---+----+ | a| 5| | b| 7| | c| 8| | d| 1| +---+----+ Für jede Zeile, ich bin auf der Suche zu
2
Antworten
sql/dataframes, bitte helfen Sie mir oder geben Sie einige gute Vorschläge, wie dieses zu Lesen, json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ { "categoryDesc":"sub", "value":"10", "currentinfo":{ "value":"10" } }] }] }
3
Antworten
Bin ich mit spark 1.6 und mein Ziel ist es, erstellen externe hive-Tabelle wie das, was ich in hive-Skript. Um dies zu tun, ich lese zuerst in die partitionierte avro-Datei und erhalten das schema dieser Datei. Jetzt
1
Antworten
Ich habe einen dataframe mit den Spalten Zeit,a,b,c,d,val. Ich würde gerne erstellen Sie ein dataframe mit zusätzlichen Spalte enthält die Zeilennummer der Zeile, in der jeweiligen Gruppe, wobei a,b,c,d ist eine Gruppe key. Versuchte ich mit der
2
Antworten
So, angenommen ich habe folgende Tabelle: Name | Color ------------------------------ John | Blue Greg | Red John | Yellow Greg | Red Greg | Blue Ich würde gerne eine Tabelle der unterscheidbaren Farben für jeden Namen -
2
Antworten
Betrachten Sie den code, die hier gegeben werden, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkContext.parallelize(Seq( LabeledPoint(1.0, Vectors.dense(0.0, 1.1, 0.1)), LabeledPoint(0.0, Vectors.dense(2.0, 1.0, -1.0)), LabeledPoint(0.0, Vectors.dense(2.0, 1.3, 1.0)), LabeledPoint(1.0, Vectors.dense(0.0, 1.2, -0.5)))) val lr = new LogisticRegression() lr.setMaxIter(10).setRegParam(0.01)
1
Antworten
Ich versuche, Sinn zu machen, wo Sie brauchen, um eine lit Wert, der definiert ist als literal column in der Dokumentation. Nehmen Sie zum Beispiel diese udf die gibt den index eines SQL-Spalte-array: def find_index(column, index): return
1
Antworten
Habe ich eine Hive-Tabelle in Parkett-format, generiert wurde, mit create table myTable (var1 int, var2 string, var3 int, var4 string, var5 array<struct<a:int,b:string>>) stored as parquet; Ich bin in der Lage, um zu überprüfen, dass es voll war-hier
2
Antworten
Ich bin mit Funke 2.1.0. Wenn ich führen Sie den folgenden code, ich bin immer ein Fehler von Spark. Warum? Wie es zu lösen ist? val i1 = Seq(("a", "string"), ("another", "string"), ("last", "one")).toDF("a", "b") val i2
1
Antworten
Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09
1
Antworten
Bin ich mit Spark 2.0 während der Arbeit mit der tab-getrennter Wert (TSV) und comma-separated value (CSV) - Dateien. Ich möchte zum laden der Daten in die Funke-SQL-dataframes, wo ich Steuern möchten, die das schema vollständig, wenn
3
Antworten
Habe ich ein dataset und in einigen Zeilen ein Attribut-Wert NaN. Diese Daten werden in ein dataframe, und ich möchte nur die Zeilen, die aus Zeilen, in denen alle Attribut-Werte haben. Ich versuchte es über sql: val
1
Antworten
Ich umwandeln möchte pyspark.sql.dataframe.DataFrame zu pyspark.rdd.RDD[String] Ich Umgerechnet ein DataFrame df zu RDD data: data = df.rdd type (data) ## pyspark.rdd.RDD den neuen RDD data enthält Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc',
1
Antworten
Ich bin neu in Scala. Ich bin versucht, zu konvertieren, eine scala-Liste (die holding die Ergebnisse der berechneten Daten auf eine Quelle DataFrame) Dataframe oder ein Dataset. Ich bin nicht auf der Suche nach einer direkten Methode
2
Antworten
Scala-version:2.11.7(hatten ein upgrade der scala-Version zu aktivieren, Fall clasess zu akzeptieren mehr als 22 Parameter.) Spark-version:1.6.1 PFB pom.xml Immer folgende Fehlermeldung, wenn Sie versuchen, um das setup Funke auf intellij IDE, 16/03/16 18:36:44 INFO spark.SparkContext: Running Spark
1
Antworten
Habe ich zwei Dateien in HDFS und ich will einfach nur schließen Sie diese beiden Dateien auf eine Spalte, sagen Mitarbeiter-id. Ich versuche, drucken Sie einfach die Dateien, um sicherzustellen, dass wir Lesen, richtig von HDFS. lines
1
Antworten
Ich versuche zu filtern Datumsbereich aus den folgenden Daten mit Daten, die Steine, die null zurückgibt als Antwort. Meine csv-Datei sieht wie folgt aus: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 103,
3
Antworten
Grundsätzlich würde ich gerne einfach löschen, indem Sie SQL-Anweisungen, aber wenn ich das sql-Skript ausführen es wirft mir die folgende Fehlermeldung: pyspark.sql.utils.ParseException: u"\nmissing 'AUS' auf 'ein'(mit der Linie 2 pos 23)\n\n== SQL ==\n\n LÖSCHEN.* VON adsquare eine
3
Antworten
Habe ich timestamp-datasets, die im format von Und ich geschrieben haben, eine udf in pyspark zu verarbeiten Datensatz und zurück, wie Anzeigen von Schlüssel-Werte. Aber bin immer folgende Fehlermeldung angezeigt. Dataset:df_ts_list +--------------------+ | ts_list| +--------------------+ |[1477411200, 1477...|
2
Antworten
Ich gesehen habe diese Frage vorhin hier und ich nahm Unterricht aus. Aber ich bin nicht sicher, warum ich eine Fehlermeldung, wenn ich das Gefühl, es sollte funktionieren. Möchte ich zum erstellen einer neuen Spalte in vorhandenen
2
Antworten
Hallo ich habe eine bestellt Funke DataFrameund ich würde das gerne ändern paar Zeilen während der Iteration es mit dem folgenden code, aber es scheint, gibt es keine Möglichkeit zum aktualisieren von Zeilen-Objekt orderedDataFrame.foreach(new Function1<Row,BoxedUnit>(){ @Override public
5
Antworten
Bin ich das Lesen von text-Dateien und konvertiert Sie zu Parkett-Dateien. Ich mache es über spark-code. Aber wenn ich versuche den code auszuführen bekomme ich folgende exception org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in
4
Antworten
Ich habe einen dataframe(Funke): id value 3 0 3 1 3 0 4 1 4 0 4 0 Erstellen Sie ein neues dataframe: 3 0 3 1 4 1 Brauchen, um alle Zeilen zu entfernen, die nach
2
Antworten
val new_df = df.filter($"type_interne" !== "" || $"type_interne" !== "null") Gib mir Fehler-Wert || ist nicht Mitglied string Wenn ich === funktioniert gut für filter val new_df = df.filter($"type_interne" === "" || $"type_interne" === "null") InformationsquelleAutor Subhod
3
Antworten
Ich mit hive durch Funken. Ich habe ein Insert into partitionierten Tabelle Abfragen, die in meinem spark-code. Die Daten werden in 200+gb. Beim Spark ist das schreiben in eine partitionierte Tabelle, es wird spucken sehr kleinen Dateien(Dateien
2
Antworten
Ich versuche, zu testen, wie das schreiben von Daten in HDFS 2.7 Verwendung von Spark-2.1. Meine Daten ist eine einfache Abfolge von dummy-Werte und die Ausgabe sollte partitioniert werden durch die Attribute: id und Schlüssel. //Simple case
2
Antworten
Art von edge-Fall, beim speichern von Parkett-Tabelle in Spark SQL mit partition #schema definitioin final StructType schema = DataTypes.createStructType(Arrays.asList( DataTypes.createStructField("time", DataTypes.StringType, true), DataTypes.createStructField("accountId", DataTypes.StringType, true), ... DataFrame df = hiveContext.read().schema(schema).json(stringJavaRDD); df.coalesce(1) .write() .mode(SaveMode.Append) .format("parquet") .partitionBy("year") .saveAsTable("tblclick8partitioned"); Funke
1
Antworten
Den scheinbar einfachen code unten wirft die folgende Fehlermeldung: Traceback (most recent call last): File "/home/nirmal/process.py", line 165, in <module> 'time_diff': f.last(adf['time_diff']).over(window_device_rows) TypeError: __call__() got an unexpected keyword argument 'this_campaign' Code: # Function to flag network timeouts
1
Antworten
Ich bin ziemlich neu zu entfachen, und möchte das ausführen einer operation auf einer Spalte mit einem dataframe, so ersetzen Sie alle , in der Spalte mit . Angenommen, es gibt einen dataframe x und Spalte x4
2
Antworten
Edit: das ist eine alte Frage zur Spark 1.2 Ich habe versucht zu berechnen on-the-fly die Länge einer string-Spalte in einer SchemaRDD für die orderBy-Zwecke. Ich Lerne Spark SQL so meine Frage ist, streng über die Verwendung
4
Antworten
Lesen wir Daten aus MongoDB Collection. Collection Spalte hat zwei verschiedene Werte (z.B.: (bson.Int64,int) (int,float) ). Ich versuche ein Datentyp mit pyspark. Mein problem ist, dass einige Spalten haben unterschiedliche Datentyp. Übernehmen quantity und weight sind die
2
Antworten
Habe ich Daten wie diese: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal')) Möchte ich berechnen Datum Unterschied zwischen low Spalte und 2017-05-02 und
2
Antworten
Ich lese schema des data Frames aus einer text-Datei. Die Datei sieht wie id,1,bigint price,2,bigint sqft,3,bigint zip_id,4,int name,5,string und ich bin mapping analysiert die Datentypen zu Spark Sql-Datentypen.Der code zum erstellen von Daten-frame - var schemaSt =
2
Antworten
Wie wähle ich alle Spalten eines dataframe, die bestimmte Indizes in Scala? Zum Beispiel, wenn ein dataframe mit 100 Spalten, und ich will nur extrahieren Spalten (10,12,13,14,15), wie das gleiche zu tun? Unten wählt alle Spalten aus
4
Antworten
Ich habe zwei Tabellen in hive/impala. Ich möchte zum abrufen der Daten aus der Tabelle in spark als rdds und durchführen, sagen, dass eine join-operation. Möchte ich nicht direkt übergeben, die join-Abfrage in meinem hive Kontext. Dies
3
Antworten
In SparkSQL,ich benutze DF.Schreibe.Modus(SaveMode.Anhängen).json(xxxx),aber mit dieser Methode erhalten Sie diese Dateien wie den Dateinamen ist zu Komplex und zufällig ist,kann ich nicht verwenden, die api zu bekommen.Also ich will saveAstextfile ,denn mit dem Namen ist nicht Komplex
1
Antworten
Als CSV gelesen als dataframe Zündkerzen, alle Spalten gelesen werden als string. Gibt es eine Möglichkeit, um die tatsächliche Art der Spalte? Habe ich folgende csv-Datei Name,Department,years_of_experience,DOB Sam,Software,5,1990-10-10 Alex,Data Analytics,3,1992-10-10 Ich habe gelesen, die CSV über den