Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Wie kann ich filtern von Zeilen basierend auf, ob ein Spaltenwert wird in einer Reihe von Strings in einer Spark-DataFrame

1 Antworten

Gibt es eine elegantere Art der Filterung, basierend auf Werten in einer Reihe von Zeichenfolge? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) }) myDF.filter(containsAction('action)) } In SQL, die

Wie konvertieren von DataFrame zu Json?

4 Antworten

Ich habe eine riesige Json-Datei, ein kleiner Teil von ihm wie folgt: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ..... }

apache-spark apache-spark-sql json scala

So vermeiden Sie Funken Testamentsvollstrecker nicht verloren gehen und Garn-container töten Sie aufgrund des memory limit?

1 Antworten

Ich habe den folgenden code, die feuert hiveContext.sql() die meiste Zeit. Meine Aufgabe ist es, die ich erzeugen wollte paar Tabellen und das einfügen von Werten in die nach der Verarbeitung für alle hive-Tabelle-partition. Also ich das

apache-spark apache-spark-sql executors memory yarn

Speichern Funke dataframe als dynamisch partitionierte Tabelle in Hive

5 Antworten

Habe ich eine Beispiel-Anwendung, die zum Lesen von csv-Dateien in ein dataframe. Der dataframe gespeichert werden können, um eine Hive-Tabelle in Parkett-format mit der Methode df.saveAsTable(tablename,mode). Den oben genannten code funktioniert gut, aber ich habe so viel

apache-spark apache-spark-sql hadoop hive spark-dataframe

Spark - die Extraktion einzelner Wert aus DataFrame

2 Antworten

Ich habe eine Spark-DataFrame Abfrage, die garantiert zurück eine einzige Spalte mit einzelnen Int-Wert. Was ist der beste Weg zu extrahieren Sie diese Wert als Int aus dem resultierenden DataFrame? InformationsquelleAutor der Frage Niemand | 2015-08-12

apache-spark apache-spark-sql scala

Beste Weg, um den max-Wert in einer Spark-dataframe Spalte

7 Antworten

Ich versuche, herauszufinden, der beste Weg, um den größten Wert in einer Spark-dataframe Spalte. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Erstellt: +---+---+ | A| B| +---+---+ |1.0|4.0|

apache-spark apache-spark-sql pyspark python spark-dataframe

Wie Sie vermeiden doppelte Spalten nach beitreten?

5 Antworten

Habe ich zwei dataframes mit den folgenden Spalten: df1.columns // Array(ts, id, X1, X2) und df2.columns // Array(ts, id, Y1, Y2) Nachdem ich tun val df_combined = df1.join(df2, Seq(ts,id)) Ich am Ende mit den folgenden Spalten: Array(ts,

apache-spark apache-spark-sql scala

Explodieren (transponiert?) mehrere Spalten in Spark SQL-Tabelle

1 Antworten

Bin ich mit Spark SQL (ich erwähnen, dass es in Funken in Fall, dass wirkt sich auf die SQL-syntax - ich bin nicht vertraut genug, um noch sicher) und ich haben eine Tabelle, die ich versuche zu

apache-spark apache-spark-sql hiveql sql

Filter spark DataFrame auf Zeichenfolge enthält

1 Antworten

Ich bin mit Spark 1.3.0 und Spark Avro 1.0.0. Ich arbeite von das Beispiel auf der Seite "repository". Der folgende code funktioniert gut val df = sqlContext.read.avro("src/test/resources/episodes.avro") df.filter("doctor > 5").write.avro("/tmp/output") Aber was ist, wenn ich brauchte, um

apache-spark apache-spark-sql dataframe scala

So erhalten Sie die Differenz zwischen zwei DataFrames?

3 Antworten

In der SparkSQL 1.6 API (scala) Dataframe hat Funktionen für intersect und except, aber nicht der Unterschied. Natürlich, eine Kombination von union und except kann verwendet werden, zu erzeugen, Unterschied: df1.except(df2).union(df2.except(df1)) Aber das scheint ein wenig umständlich.

apache-spark apache-spark-sql scala

Was ist der Unterschied zwischen Apache Spark SQLContext vs HiveContext?

3 Antworten

Was sind die Unterschiede zwischen Apache Spark SQLContext und HiveContext ? Einige Quellen sagen, dass da die HiveContext ist eine Obermenge von SQLContext-Entwickler sollte immer HiveContext, die hat mehr Funktionen als SQLContext. Aber die aktuellen APIs der

apache-spark apache-spark-sql hive

Automatisch und Elegant glätten DataFrame in Spark SQL

7 Antworten

Alle, Ist es eine elegante und akzeptierte Art und Weise zu glätten, ein Funke SQL-Tabelle (Parkett), bei der die Spalten der verschachtelten StructType Beispielsweise Wenn mein schema ist: foo |_bar |_baz x y z Wie kann ich

apache-spark apache-spark-sql scala

Mit Spark zu schreiben Parkett-Datei zu s3 über s3a ist sehr langsam

2 Antworten

Ich versuche zu schreiben parquet - Datei aus, um Amazon S3 mit Spark 1.6.1. Die kleine parquet dass ich zu generieren ist ~2GB einmal geschrieben, so dass es nicht viele Daten. Ich bin versucht zu beweisen Spark

amazon-s3 apache-spark apache-spark-sql parquet scala

Verbinden Sie zwei gewöhnliche RDDs mit/ohne Funke SQL

4 Antworten

Muss ich an zwei ordentlichen RDDs auf einer/mehreren Spalten. Logisch diese operation ist äquivalent zu der Datenbank join-operation von zwei Tabellen. Ich Frage mich, ob dies ist nur möglich durch Spark SQL oder gibt es andere Möglichkeiten,

apache-spark apache-spark-sql join rdd scala

Wie füge ich eine persistente Spalte mit Zeilen-ids zu entfachen, DataFrame?

4 Antworten

Diese Frage ist nicht neu, aber ich finde überraschend Verhalten in der Funke. Ich muss hinzufügen eine Spalte mit Zeilen-IDs zu einem DataFrame. Verwendet habe ich das DataFrame Methode monotonically_increasing_id() und Es gibt mir eine zusätzliche col

apache-spark apache-spark-sql spark-dataframe

Kann JDBC-Treiber nicht finden

8 Antworten

Also ich habe mit sbt mit Montage-Paket alle meine Abhängigkeiten in einer einzigen jar für meine Funke Arbeitsplätze. Ich habe mehrere jobs, wo ich war mit c3p0 setup connection-pool-Informationen ausgestrahlt, die aus, und verwenden Sie dann foreachPartition

apache-spark apache-spark-sql jdbc

"INSERT INTO ..." mit SparkSQL HiveContext

6 Antworten

Ich versuche, führen Sie eine insert-Anweisung mit meinem HiveContext, wie diese: hiveContext.sql('insert into my_table (id, score) values (1, 10)') Den 1.5.2 Spark SQL-Dokumentation nicht ausdrücklich, ob dies unterstützt wird oder nicht, obwohl es unterstützt das "dynamische partition

apache-spark apache-spark-1.5 apache-spark-sql hivecontext pyspark

Wie wird in Spark SQL nach Spalte in absteigender Reihenfolge sortiert?

6 Antworten

Versuchte ich df.orderBy("col1").show(10) aber in aufsteigender Reihenfolge sortiert. df.sort("col1").show(10) auch sortiert in absteigender Reihenfolge. Ich schaute auf stackoverflow und die Antworten, die ich fand, waren alle veraltet oder bezeichnet RDDs. Ich würde gerne die native dataframe in

apache-spark apache-spark-sql scala

Wie man Spalten im pyspark Datenrahmen löscht

6 Antworten

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Gibt es zwei id: bigint

apache-spark apache-spark-sql pyspark

DataFrame-ified zipWithIndex

5 Antworten

Ich versuche mich zu lösen das uralte problem, das hinzufügen einer Sequenznummer an eine Daten-set. Ich bin das arbeiten mit DataFrames, und es scheint kein DataFrame entspricht RDD.zipWithIndex. Auf der anderen Seite, die folgenden Werke mehr oder

apache-spark apache-spark-sql

Wie definiert man ein Schema für einen benutzerdefinierten Typ in Spark SQL?

1 Antworten

Den folgenden Beispiel-code versucht, einige der Fall-Objekte in ein dataframe. Der code enthält die definition einer case-Objekt-Hierarchie und ein Fall Klasse über diese Eigenschaft: import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.SQLContext sealed trait Some case object AType extends Some

apache-spark apache-spark-sql case-class scala

Wie erstellt man DataFrame aus Scalas Liste der Iterables?

4 Antworten

Habe ich die folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toList und ich will wandeln Sie es in ein DataFrame. Wenn ich versuche die folgende: sqlContext.createDataFrame(values) Bekam ich diese Fehlermeldung: error: overloaded method value createDataFrame with alternatives: [A

apache-spark apache-spark-sql scala spark-dataframe

Abfragen von Spark SQL DataFrame mit komplexen Typen

3 Antworten

Wie Kann ich eine Abfrage einer RDD mit komplexen Typen wie Karten/arrays? zum Beispiel, wenn ich Schreibe diesen test-code: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2

apache-spark apache-spark-sql dataframe scala spark-dataframe

Suchen Sie in Spark DataFrame die maximale Zeile pro Gruppe

2 Antworten

Ich versuche, Spark dataframes statt RDDs da scheinen Sie mehr high-level als RDDs und neigen dazu, mehr zu produzieren, lesbaren code, aber ich wäre mehr als glücklich, Vorschläge für etwas besser, idiomatischer für die Aufgabe zur hand.

apache-spark apache-spark-sql pyspark spark-dataframe sql

Ändern / Verschieben von Daten in Spark RDD und / oder Spark DataFrames

6 Antworten

Ich habe einige Daten im folgenden format (entweder RDD-oder Spark-DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ('X02',72,'UK',6), ('X02',72,'CA',7), ('X02',72,'XX',8)]) # convert to a Spark DataFrame schema = StructType([StructField('ID', StringType(), True),

apache-spark apache-spark-sql pyspark python

Überschreibt bestimmte Partitionen in der Wrk-Datenrahmen-Schreibmethode

8 Antworten

Möchte ich überschreiben bestimmte Partitionen nicht alle Zündkerzen. Ich versuche folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') wo df ist ein dataframe mit den inkrementellen Daten überschrieben werden. hdfs-base-path enthält die Stammdaten. Wenn ich versuche, den obigen Befehl, es löscht alle

apache-spark apache-spark-sql spark-dataframe

Verketten von Datensätzen verschiedener RDDs in Apache funken mit Scala

2 Antworten

Gibt es eine Möglichkeit zum verketten der Daten von zwei verschiedenen RDDs in der Funke? Voraussetzung ist - ich erstelle zwei intermediate RDDs mit scala, das hat die gleichen Spaltennamen kombinieren müssen diese Ergebnisse sowohl der RDDs

apache-spark apache-spark-sql distributed-computing rdd scala

PySpark: Wie konvertiere ich eine Array (d. H. Liste) Spalte in Vektor

2 Antworten

Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass

apache-spark apache-spark-ml apache-spark-sql pyspark python

SparkSQL: Wie behandelt man Nullwerte in einer benutzerdefinierten Funktion?

3 Antworten

Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte in Tabelle 2 eine Spalte mit "y", integer Darstellung des Datum-strings in "x". Wesentlichen zu halten, ist null Werte in der Spalte "y". Tabelle 1 (Dataframe

apache-spark apache-spark-sql nullable scala user-defined-functions

Pyspark String in Datumsformat konvertieren

4 Antworten

Habe ich ein Datum pyspark dataframe mit einer string-Spalte im format MM-dd-yyyy und ich bin versucht zu konvertieren, das in einer date-Spalte. Habe ich versucht: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich bekomme einen string, der null-Werte. Kann mir jemand helfen?

apache-spark apache-spark-sql pyspark pyspark-sql

Codiererfehler beim Versuch, die Datenframezeile der aktualisierten Zeile zuzuordnen

2 Antworten

Wenn ich m versuchen, das gleiche zu tun, in meinem code, wie unten erwähnt dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Ich habe die obige

apache-spark apache-spark-dataset apache-spark-sql scala

Wie führe ich eine Vereinigung auf zwei DataFrames mit unterschiedlich vielen Spalten in Spark durch?

7 Antworten

Ich habe 2 DataFrames wie folgt : Ich brauche union so: Den unionAll - Funktion funktioniert nicht, da die Anzahl und die Namen der Spalten sind anders. Wie kann ich dies tun? InformationsquelleAutor der Frage Allan Feliph

apache-spark apache-spark-sql

Dataframe partitionBy auf eine einzelne Parquet-Datei (pro Partition)

2 Antworten

Möchte ich Wiedergutmachung /coalesce meine Daten, so dass es gespeichert wird, in eine Parkett-Datei pro partition. Ich würde auch gerne die Spark SQL partitionBy API. Also ich könnte das machen wie diese: df.coalesce(1).write.partitionBy("entity", "year", "month", "day", "status").mode(SaveMode.Append).parquet(s"$location")

apache-spark apache-spark-sql

Wie definiere ich Partitionierung von DataFrame?

5 Antworten

Habe ich angefangen mit Spark SQL und DataFrames in Spark 1.4.0. Ich bin zu wollen, um eine benutzerdefinierte Partitionierer auf DataFrames, in der Scala, aber nicht zu sehen, wie dies zu tun. Einem der Daten-Tabellen arbeite ich

apache-spark apache-spark-sql dataframe partitioning scala

Wie erstellt man einen leeren Datenrahmen mit einem bestimmten Schema?

6 Antworten

Ich will auf DataFrame mit einem angegebenen schema in Scala. Ich habe versucht, zu verwenden JSON Lesen (ich meine die Lektüre leere Datei), aber ich glaube nicht, dass das die beste Praxis. InformationsquelleAutor der Frage user1735076 |

apache-spark apache-spark-sql dataframe scala

Wie erstellt man einen korrekten Datenrahmen für die Klassifizierung in Spark ML?

3 Antworten

Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen

apache-spark apache-spark-mllib apache-spark-sql scala

Wie benutzt man die JDBC-Quelle, um Daten in (Py) Spark zu schreiben und zu lesen?

3 Antworten

Dem Ziel diese Frage ist zu dokumentieren: Schritte zum Lesen und schreiben von Daten unter Verwendung von JDBC-verbindungen in PySpark mögliche Probleme mit JDBC-Quellen und Lösungen kennen Mit kleinen änderungen sollten diese Methoden arbeiten mit anderen unterstützten

apache-spark apache-spark-sql pyspark python scala

Gibt es eine bessere Möglichkeit, den gesamten Spark SQL DataFrame anzuzeigen?

6 Antworten

Möchte ich das ganze Apache Spark SQL DataFrame mit der Scala-API. Ich kann die show() Methode: myDataFrame.show(Int.MaxValue) Gibt es eine bessere Art der Darstellung einer gesamten DataFrame als mit Int.MaxValue? InformationsquelleAutor der Frage Yuri Brovman | 2015-05-15

apache-spark apache-spark-sql scala

Wie füge ich einem Spark DataFrame (mit PySpark) eine neue Spalte hinzu?

6 Antworten

Ich habe eine Spark-DataFrame (mit PySpark 1.5.1) und würde gerne eine neue Spalte hinzufügen. Ich habe versucht, die folgenden ohne Erfolg: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

apache-spark apache-spark-sql pyspark python spark-dataframe

Wie ändert man die Spaltentypen in DatFrame von Spark SQL?

16 Antworten

Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |--

apache-spark apache-spark-sql scala

Spark: Wie man count (distinct (value)) in Dataframe-APIs übersetzt

1 Antworten

Ich versuche vergleichen verschiedene Möglichkeiten der Aggregation meine Daten. Dies ist mein input-Daten für 2 Elemente (Seite,Besucher): (PAG1,V1) (PAG1,V1) (PAG2,V1) (PAG2,V2) (PAG2,V1) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG2,V2) (PAG1,V3) Arbeiten mit einem SQL-Befehl in Spark SQL mit

apache-spark apache-spark-sql count dataframe distinct

Wie definieren und verwenden Sie eine benutzerdefinierte Aggregatfunktion in Spark SQL?

1 Antworten

Ich weiß, wie man schreiben Sie eine UDF-Datei in Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) Kann ich etwas ähnliches tun zu definieren, die eine Aggregatfunktion? Wie wird

apache-spark apache-spark-sql scala

wie man einen Nullwert aus dem Spark-Datenframe herausfiltert

8 Antworten

apache-spark apache-spark-sql scala spark-dataframe

Fügen Sie dem Datenframe eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

1 Antworten

Frage ich mich, wie ich eine der folgenden Spark (Pyspark) Ursprünglichen Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ Resultierenden Dataframe: +--+---+-------+ |id|num|new_Col| +--+---+-------+ |4 |9.0| 7.0 | +--+---+-------+

apache-spark apache-spark-sql pyspark python spark-dataframe

Erstellen Sie einen neuen Datenrahmen mit leeren Feldwerten

1 Antworten

Ich bin erstellen Sie ein neues Dataframe von einer vorhandenen dataframe, müssen aber hinzufügen neue Spalte ("Feld1" im code unten) in dieser neuen DF. Wie mache ich das? Arbeiten-Beispiel code-Beispiel wird geschätzt. val edwDf = omniDataFrame .withColumn("field1",

apache-spark apache-spark-sql scala spark-dataframe

Erstellen Sie Spark DataFrame. Schema für type kann nicht abgeleitet werden: & lt; type 'float' & gt;

1 Antworten

Könnte mir jemand helfen dieses problem zu lösen, habe ich mit spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =

apache-spark apache-spark-sql pyspark python python-2.7

Wie fasst man Werte nach groupBy in einer Sammlung zusammen?

3 Antworten

Ich habe einen dataframe mit schema solche: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Suche nach einem Weg, um die Gruppe (oder vielleicht rollup?) dieser dataframe durch visitorid, wo die trackingIds und emailIds Spalten Anhängen zusammen. So zum

apache-spark apache-spark-sql scala

'PipelinedRDD' Objekt hat in PySpark kein Attribut 'toDF'

1 Antworten

Ich versuche zu laden, ein SVM-Datei und wandeln Sie es in ein DataFrame so kann ich mit dem ML-Modul (Pipeline ML) aus Funken. Ich habe gerade installiert ein frisches Funke 1.5.0 unter Ubuntu 14.04 (keine spark-env.sh konfiguriert).

apache-spark apache-spark-sql pyspark python rdd

Wie man Daten von Spark SQL nach CSV exportiert

6 Antworten

Dieser Befehl funktioniert mit HiveQL: insert overwrite directory '/data/home.csv' select * from testtable; Aber mit Spark SQL bin ich immer eine Fehlermeldung mit der org.apache.spark.sql.hive.HiveQl stack trace: java.lang.RuntimeException: Unsupported language features in query: insert overwrite directory '/data/home.csv'

apache-spark apache-spark-sql export-to-csv hadoop hiveql

Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir Partitionen bei Verwendung von Spark SQL?

4 Antworten

Hallo, ich bin mit Spark SQL eigentlich hiveContext.sql() was nutzt die group by-Abfragen und ich habe mich in OOM Probleme. So denkt der zunehmenden Bedeutung von spark.sql.shuffle.partitions von 200 standardmäßig auf 1000 aber es ist nicht zu

apache-spark apache-spark-sql