Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
1
Antworten
Gibt es eine elegantere Art der Filterung, basierend auf Werten in einer Reihe von Zeichenfolge? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) }) myDF.filter(containsAction('action)) } In SQL, die
4
Antworten
Ich habe eine riesige Json-Datei, ein kleiner Teil von ihm wie folgt: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ..... }
1
Antworten
Ich habe den folgenden code, die feuert hiveContext.sql() die meiste Zeit. Meine Aufgabe ist es, die ich erzeugen wollte paar Tabellen und das einfügen von Werten in die nach der Verarbeitung für alle hive-Tabelle-partition. Also ich das
5
Antworten
Habe ich eine Beispiel-Anwendung, die zum Lesen von csv-Dateien in ein dataframe. Der dataframe gespeichert werden können, um eine Hive-Tabelle in Parkett-format mit der Methode df.saveAsTable(tablename,mode). Den oben genannten code funktioniert gut, aber ich habe so viel
2
Antworten
Ich habe eine Spark-DataFrame Abfrage, die garantiert zurück eine einzige Spalte mit einzelnen Int-Wert. Was ist der beste Weg zu extrahieren Sie diese Wert als Int aus dem resultierenden DataFrame? InformationsquelleAutor der Frage Niemand | 2015-08-12
7
Antworten
Ich versuche, herauszufinden, der beste Weg, um den größten Wert in einer Spark-dataframe Spalte. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Erstellt: +---+---+ | A| B| +---+---+ |1.0|4.0|
5
Antworten
Habe ich zwei dataframes mit den folgenden Spalten: df1.columns // Array(ts, id, X1, X2) und df2.columns // Array(ts, id, Y1, Y2) Nachdem ich tun val df_combined = df1.join(df2, Seq(ts,id)) Ich am Ende mit den folgenden Spalten: Array(ts,
1
Antworten
Bin ich mit Spark SQL (ich erwähnen, dass es in Funken in Fall, dass wirkt sich auf die SQL-syntax - ich bin nicht vertraut genug, um noch sicher) und ich haben eine Tabelle, die ich versuche zu
1
Antworten
Ich bin mit Spark 1.3.0 und Spark Avro 1.0.0. Ich arbeite von das Beispiel auf der Seite "repository". Der folgende code funktioniert gut val df = sqlContext.read.avro("src/test/resources/episodes.avro") df.filter("doctor > 5").write.avro("/tmp/output") Aber was ist, wenn ich brauchte, um
3
Antworten
In der SparkSQL 1.6 API (scala) Dataframe hat Funktionen für intersect und except, aber nicht der Unterschied. Natürlich, eine Kombination von union und except kann verwendet werden, zu erzeugen, Unterschied: df1.except(df2).union(df2.except(df1)) Aber das scheint ein wenig umständlich.
3
Antworten
Was sind die Unterschiede zwischen Apache Spark SQLContext und HiveContext ? Einige Quellen sagen, dass da die HiveContext ist eine Obermenge von SQLContext-Entwickler sollte immer HiveContext, die hat mehr Funktionen als SQLContext. Aber die aktuellen APIs der
7
Antworten
Alle, Ist es eine elegante und akzeptierte Art und Weise zu glätten, ein Funke SQL-Tabelle (Parkett), bei der die Spalten der verschachtelten StructType Beispielsweise Wenn mein schema ist: foo |_bar |_baz x y z Wie kann ich
2
Antworten
Ich versuche zu schreiben parquet - Datei aus, um Amazon S3 mit Spark 1.6.1. Die kleine parquet dass ich zu generieren ist ~2GB einmal geschrieben, so dass es nicht viele Daten. Ich bin versucht zu beweisen Spark
4
Antworten
Muss ich an zwei ordentlichen RDDs auf einer/mehreren Spalten. Logisch diese operation ist äquivalent zu der Datenbank join-operation von zwei Tabellen. Ich Frage mich, ob dies ist nur möglich durch Spark SQL oder gibt es andere Möglichkeiten,
4
Antworten
Diese Frage ist nicht neu, aber ich finde überraschend Verhalten in der Funke. Ich muss hinzufügen eine Spalte mit Zeilen-IDs zu einem DataFrame. Verwendet habe ich das DataFrame Methode monotonically_increasing_id() und Es gibt mir eine zusätzliche col
8
Antworten
Also ich habe mit sbt mit Montage-Paket alle meine Abhängigkeiten in einer einzigen jar für meine Funke Arbeitsplätze. Ich habe mehrere jobs, wo ich war mit c3p0 setup connection-pool-Informationen ausgestrahlt, die aus, und verwenden Sie dann foreachPartition
6
Antworten
Ich versuche, führen Sie eine insert-Anweisung mit meinem HiveContext, wie diese: hiveContext.sql('insert into my_table (id, score) values (1, 10)') Den 1.5.2 Spark SQL-Dokumentation nicht ausdrücklich, ob dies unterstützt wird oder nicht, obwohl es unterstützt das "dynamische partition
6
Antworten
Versuchte ich df.orderBy("col1").show(10) aber in aufsteigender Reihenfolge sortiert. df.sort("col1").show(10) auch sortiert in absteigender Reihenfolge. Ich schaute auf stackoverflow und die Antworten, die ich fand, waren alle veraltet oder bezeichnet RDDs. Ich würde gerne die native dataframe in
6
Antworten
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Gibt es zwei id: bigint
5
Antworten
Ich versuche mich zu lösen das uralte problem, das hinzufügen einer Sequenznummer an eine Daten-set. Ich bin das arbeiten mit DataFrames, und es scheint kein DataFrame entspricht RDD.zipWithIndex. Auf der anderen Seite, die folgenden Werke mehr oder
1
Antworten
Den folgenden Beispiel-code versucht, einige der Fall-Objekte in ein dataframe. Der code enthält die definition einer case-Objekt-Hierarchie und ein Fall Klasse über diese Eigenschaft: import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.SQLContext sealed trait Some case object AType extends Some
4
Antworten
Habe ich die folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toList und ich will wandeln Sie es in ein DataFrame. Wenn ich versuche die folgende: sqlContext.createDataFrame(values) Bekam ich diese Fehlermeldung: error: overloaded method value createDataFrame with alternatives: [A
3
Antworten
Wie Kann ich eine Abfrage einer RDD mit komplexen Typen wie Karten/arrays? zum Beispiel, wenn ich Schreibe diesen test-code: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2
2
Antworten
Ich versuche, Spark dataframes statt RDDs da scheinen Sie mehr high-level als RDDs und neigen dazu, mehr zu produzieren, lesbaren code, aber ich wäre mehr als glücklich, Vorschläge für etwas besser, idiomatischer für die Aufgabe zur hand.
6
Antworten
Ich habe einige Daten im folgenden format (entweder RDD-oder Spark-DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ('X02',72,'UK',6), ('X02',72,'CA',7), ('X02',72,'XX',8)]) # convert to a Spark DataFrame schema = StructType([StructField('ID', StringType(), True),
8
Antworten
Möchte ich überschreiben bestimmte Partitionen nicht alle Zündkerzen. Ich versuche folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') wo df ist ein dataframe mit den inkrementellen Daten überschrieben werden. hdfs-base-path enthält die Stammdaten. Wenn ich versuche, den obigen Befehl, es löscht alle
2
Antworten
Gibt es eine Möglichkeit zum verketten der Daten von zwei verschiedenen RDDs in der Funke? Voraussetzung ist - ich erstelle zwei intermediate RDDs mit scala, das hat die gleichen Spaltennamen kombinieren müssen diese Ergebnisse sowohl der RDDs
2
Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass
3
Antworten
Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte in Tabelle 2 eine Spalte mit "y", integer Darstellung des Datum-strings in "x". Wesentlichen zu halten, ist null Werte in der Spalte "y". Tabelle 1 (Dataframe
4
Antworten
Habe ich ein Datum pyspark dataframe mit einer string-Spalte im format MM-dd-yyyy und ich bin versucht zu konvertieren, das in einer date-Spalte. Habe ich versucht: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich bekomme einen string, der null-Werte. Kann mir jemand helfen?
2
Antworten
Wenn ich m versuchen, das gleiche zu tun, in meinem code, wie unten erwähnt dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Ich habe die obige
7
Antworten
Ich habe 2 DataFrames wie folgt : Ich brauche union so: Den unionAll - Funktion funktioniert nicht, da die Anzahl und die Namen der Spalten sind anders. Wie kann ich dies tun? InformationsquelleAutor der Frage Allan Feliph
2
Antworten
Möchte ich Wiedergutmachung /coalesce meine Daten, so dass es gespeichert wird, in eine Parkett-Datei pro partition. Ich würde auch gerne die Spark SQL partitionBy API. Also ich könnte das machen wie diese: df.coalesce(1).write.partitionBy("entity", "year", "month", "day", "status").mode(SaveMode.Append).parquet(s"$location")
5
Antworten
Habe ich angefangen mit Spark SQL und DataFrames in Spark 1.4.0. Ich bin zu wollen, um eine benutzerdefinierte Partitionierer auf DataFrames, in der Scala, aber nicht zu sehen, wie dies zu tun. Einem der Daten-Tabellen arbeite ich
6
Antworten
Ich will auf DataFrame mit einem angegebenen schema in Scala. Ich habe versucht, zu verwenden JSON Lesen (ich meine die Lektüre leere Datei), aber ich glaube nicht, dass das die beste Praxis. InformationsquelleAutor der Frage user1735076 |
3
Antworten
Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen
3
Antworten
Dem Ziel diese Frage ist zu dokumentieren: Schritte zum Lesen und schreiben von Daten unter Verwendung von JDBC-verbindungen in PySpark mögliche Probleme mit JDBC-Quellen und Lösungen kennen Mit kleinen änderungen sollten diese Methoden arbeiten mit anderen unterstützten
6
Antworten
Möchte ich das ganze Apache Spark SQL DataFrame mit der Scala-API. Ich kann die show() Methode: myDataFrame.show(Int.MaxValue) Gibt es eine bessere Art der Darstellung einer gesamten DataFrame als mit Int.MaxValue? InformationsquelleAutor der Frage Yuri Brovman | 2015-05-15
6
Antworten
Ich habe eine Spark-DataFrame (mit PySpark 1.5.1) und würde gerne eine neue Spalte hinzufügen. Ich habe versucht, die folgenden ohne Erfolg: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col'])
16
Antworten
Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |--
1
Antworten
Ich versuche vergleichen verschiedene Möglichkeiten der Aggregation meine Daten. Dies ist mein input-Daten für 2 Elemente (Seite,Besucher): (PAG1,V1) (PAG1,V1) (PAG2,V1) (PAG2,V2) (PAG2,V1) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG2,V2) (PAG1,V3) Arbeiten mit einem SQL-Befehl in Spark SQL mit
1
Antworten
Ich weiß, wie man schreiben Sie eine UDF-Datei in Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) Kann ich etwas ähnliches tun zu definieren, die eine Aggregatfunktion? Wie wird
8
Antworten
Erstellte ich einen dataframe in der Funke mit dem folgenden schema: root |-- user_id: long (nullable = false) |-- event_id: long (nullable = false) |-- invited: integer (nullable = false) |-- day_diff: long (nullable = true) |--
1
Antworten
Frage ich mich, wie ich eine der folgenden Spark (Pyspark) Ursprünglichen Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ Resultierenden Dataframe: +--+---+-------+ |id|num|new_Col| +--+---+-------+ |4 |9.0| 7.0 | +--+---+-------+
1
Antworten
Ich bin erstellen Sie ein neues Dataframe von einer vorhandenen dataframe, müssen aber hinzufügen neue Spalte ("Feld1" im code unten) in dieser neuen DF. Wie mache ich das? Arbeiten-Beispiel code-Beispiel wird geschätzt. val edwDf = omniDataFrame .withColumn("field1",
1
Antworten
Könnte mir jemand helfen dieses problem zu lösen, habe ich mit spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =
3
Antworten
Ich habe einen dataframe mit schema solche: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Suche nach einem Weg, um die Gruppe (oder vielleicht rollup?) dieser dataframe durch visitorid, wo die trackingIds und emailIds Spalten Anhängen zusammen. So zum
1
Antworten
Ich versuche zu laden, ein SVM-Datei und wandeln Sie es in ein DataFrame so kann ich mit dem ML-Modul (Pipeline ML) aus Funken. Ich habe gerade installiert ein frisches Funke 1.5.0 unter Ubuntu 14.04 (keine spark-env.sh konfiguriert).
6
Antworten
Dieser Befehl funktioniert mit HiveQL: insert overwrite directory '/data/home.csv' select * from testtable; Aber mit Spark SQL bin ich immer eine Fehlermeldung mit der org.apache.spark.sql.hive.HiveQl stack trace: java.lang.RuntimeException: Unsupported language features in query: insert overwrite directory '/data/home.csv'
4
Antworten
Hallo, ich bin mit Spark SQL eigentlich hiveContext.sql() was nutzt die group by-Abfragen und ich habe mich in OOM Probleme. So denkt der zunehmenden Bedeutung von spark.sql.shuffle.partitions von 200 standardmäßig auf 1000 aber es ist nicht zu