Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Wie kann ich filtern von Zeilen basierend auf, ob ein Spaltenwert wird in einer Reihe von Strings in einer Spark-DataFrame

Anzahl der Antworten 1 Antworten
Gibt es eine elegantere Art der Filterung, basierend auf Werten in einer Reihe von Zeichenfolge? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) }) myDF.filter(containsAction('action)) } In SQL, die

Wie konvertieren von DataFrame zu Json?

Anzahl der Antworten 4 Antworten
Ich habe eine riesige Json-Datei, ein kleiner Teil von ihm wie folgt: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ..... }

So vermeiden Sie Funken Testamentsvollstrecker nicht verloren gehen und Garn-container töten Sie aufgrund des memory limit?

Anzahl der Antworten 1 Antworten
Ich habe den folgenden code, die feuert hiveContext.sql() die meiste Zeit. Meine Aufgabe ist es, die ich erzeugen wollte paar Tabellen und das einfügen von Werten in die nach der Verarbeitung für alle hive-Tabelle-partition. Also ich das

Speichern Funke dataframe als dynamisch partitionierte Tabelle in Hive

Anzahl der Antworten 5 Antworten
Habe ich eine Beispiel-Anwendung, die zum Lesen von csv-Dateien in ein dataframe. Der dataframe gespeichert werden können, um eine Hive-Tabelle in Parkett-format mit der Methode df.saveAsTable(tablename,mode). Den oben genannten code funktioniert gut, aber ich habe so viel

Spark - die Extraktion einzelner Wert aus DataFrame

Anzahl der Antworten 2 Antworten
Ich habe eine Spark-DataFrame Abfrage, die garantiert zurück eine einzige Spalte mit einzelnen Int-Wert. Was ist der beste Weg zu extrahieren Sie diese Wert als Int aus dem resultierenden DataFrame? InformationsquelleAutor der Frage Niemand | 2015-08-12

Beste Weg, um den max-Wert in einer Spark-dataframe Spalte

Anzahl der Antworten 7 Antworten
Ich versuche, herauszufinden, der beste Weg, um den größten Wert in einer Spark-dataframe Spalte. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Erstellt: +---+---+ | A| B| +---+---+ |1.0|4.0|

Wie Sie vermeiden doppelte Spalten nach beitreten?

Anzahl der Antworten 5 Antworten
Habe ich zwei dataframes mit den folgenden Spalten: df1.columns // Array(ts, id, X1, X2) und df2.columns // Array(ts, id, Y1, Y2) Nachdem ich tun val df_combined = df1.join(df2, Seq(ts,id)) Ich am Ende mit den folgenden Spalten: Array(ts,

Explodieren (transponiert?) mehrere Spalten in Spark SQL-Tabelle

Anzahl der Antworten 1 Antworten
Bin ich mit Spark SQL (ich erwähnen, dass es in Funken in Fall, dass wirkt sich auf die SQL-syntax - ich bin nicht vertraut genug, um noch sicher) und ich haben eine Tabelle, die ich versuche zu

Filter spark DataFrame auf Zeichenfolge enthält

Anzahl der Antworten 1 Antworten
Ich bin mit Spark 1.3.0 und Spark Avro 1.0.0. Ich arbeite von das Beispiel auf der Seite "repository". Der folgende code funktioniert gut val df = sqlContext.read.avro("src/test/resources/episodes.avro") df.filter("doctor > 5").write.avro("/tmp/output") Aber was ist, wenn ich brauchte, um

So erhalten Sie die Differenz zwischen zwei DataFrames?

Anzahl der Antworten 3 Antworten
In der SparkSQL 1.6 API (scala) Dataframe hat Funktionen für intersect und except, aber nicht der Unterschied. Natürlich, eine Kombination von union und except kann verwendet werden, zu erzeugen, Unterschied: df1.except(df2).union(df2.except(df1)) Aber das scheint ein wenig umständlich.

Was ist der Unterschied zwischen Apache Spark SQLContext vs HiveContext?

Anzahl der Antworten 3 Antworten
Was sind die Unterschiede zwischen Apache Spark SQLContext und HiveContext ? Einige Quellen sagen, dass da die HiveContext ist eine Obermenge von SQLContext-Entwickler sollte immer HiveContext, die hat mehr Funktionen als SQLContext. Aber die aktuellen APIs der

Automatisch und Elegant glätten DataFrame in Spark SQL

Anzahl der Antworten 7 Antworten
Alle, Ist es eine elegante und akzeptierte Art und Weise zu glätten, ein Funke SQL-Tabelle (Parkett), bei der die Spalten der verschachtelten StructType Beispielsweise Wenn mein schema ist: foo |_bar |_baz x y z Wie kann ich

Mit Spark zu schreiben Parkett-Datei zu s3 über s3a ist sehr langsam

Anzahl der Antworten 2 Antworten
Ich versuche zu schreiben parquet - Datei aus, um Amazon S3 mit Spark 1.6.1. Die kleine parquet dass ich zu generieren ist ~2GB einmal geschrieben, so dass es nicht viele Daten. Ich bin versucht zu beweisen Spark

Verbinden Sie zwei gewöhnliche RDDs mit/ohne Funke SQL

Anzahl der Antworten 4 Antworten
Muss ich an zwei ordentlichen RDDs auf einer/mehreren Spalten. Logisch diese operation ist äquivalent zu der Datenbank join-operation von zwei Tabellen. Ich Frage mich, ob dies ist nur möglich durch Spark SQL oder gibt es andere Möglichkeiten,

Wie füge ich eine persistente Spalte mit Zeilen-ids zu entfachen, DataFrame?

Anzahl der Antworten 4 Antworten
Diese Frage ist nicht neu, aber ich finde überraschend Verhalten in der Funke. Ich muss hinzufügen eine Spalte mit Zeilen-IDs zu einem DataFrame. Verwendet habe ich das DataFrame Methode monotonically_increasing_id() und Es gibt mir eine zusätzliche col

Kann JDBC-Treiber nicht finden

Anzahl der Antworten 8 Antworten
Also ich habe mit sbt mit Montage-Paket alle meine Abhängigkeiten in einer einzigen jar für meine Funke Arbeitsplätze. Ich habe mehrere jobs, wo ich war mit c3p0 setup connection-pool-Informationen ausgestrahlt, die aus, und verwenden Sie dann foreachPartition

"INSERT INTO ..." mit SparkSQL HiveContext

Anzahl der Antworten 6 Antworten
Ich versuche, führen Sie eine insert-Anweisung mit meinem HiveContext, wie diese: hiveContext.sql('insert into my_table (id, score) values (1, 10)') Den 1.5.2 Spark SQL-Dokumentation nicht ausdrücklich, ob dies unterstützt wird oder nicht, obwohl es unterstützt das "dynamische partition

Wie wird in Spark SQL nach Spalte in absteigender Reihenfolge sortiert?

Anzahl der Antworten 6 Antworten
Versuchte ich df.orderBy("col1").show(10) aber in aufsteigender Reihenfolge sortiert. df.sort("col1").show(10) auch sortiert in absteigender Reihenfolge. Ich schaute auf stackoverflow und die Antworten, die ich fand, waren alle veraltet oder bezeichnet RDDs. Ich würde gerne die native dataframe in

Wie man Spalten im pyspark Datenrahmen löscht

Anzahl der Antworten 6 Antworten
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Gibt es zwei id: bigint

DataFrame-ified zipWithIndex

Anzahl der Antworten 5 Antworten
Ich versuche mich zu lösen das uralte problem, das hinzufügen einer Sequenznummer an eine Daten-set. Ich bin das arbeiten mit DataFrames, und es scheint kein DataFrame entspricht RDD.zipWithIndex. Auf der anderen Seite, die folgenden Werke mehr oder

Wie definiert man ein Schema für einen benutzerdefinierten Typ in Spark SQL?

Anzahl der Antworten 1 Antworten
Den folgenden Beispiel-code versucht, einige der Fall-Objekte in ein dataframe. Der code enthält die definition einer case-Objekt-Hierarchie und ein Fall Klasse über diese Eigenschaft: import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.SQLContext sealed trait Some case object AType extends Some

Wie erstellt man DataFrame aus Scalas Liste der Iterables?

Anzahl der Antworten 4 Antworten
Habe ich die folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toList und ich will wandeln Sie es in ein DataFrame. Wenn ich versuche die folgende: sqlContext.createDataFrame(values) Bekam ich diese Fehlermeldung: error: overloaded method value createDataFrame with alternatives: [A

Abfragen von Spark SQL DataFrame mit komplexen Typen

Anzahl der Antworten 3 Antworten
Wie Kann ich eine Abfrage einer RDD mit komplexen Typen wie Karten/arrays? zum Beispiel, wenn ich Schreibe diesen test-code: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2

Suchen Sie in Spark DataFrame die maximale Zeile pro Gruppe

Anzahl der Antworten 2 Antworten
Ich versuche, Spark dataframes statt RDDs da scheinen Sie mehr high-level als RDDs und neigen dazu, mehr zu produzieren, lesbaren code, aber ich wäre mehr als glücklich, Vorschläge für etwas besser, idiomatischer für die Aufgabe zur hand.

Ändern / Verschieben von Daten in Spark RDD und / oder Spark DataFrames

Anzahl der Antworten 6 Antworten
Ich habe einige Daten im folgenden format (entweder RDD-oder Spark-DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ('X02',72,'UK',6), ('X02',72,'CA',7), ('X02',72,'XX',8)]) # convert to a Spark DataFrame schema = StructType([StructField('ID', StringType(), True),

Überschreibt bestimmte Partitionen in der Wrk-Datenrahmen-Schreibmethode

Anzahl der Antworten 8 Antworten
Möchte ich überschreiben bestimmte Partitionen nicht alle Zündkerzen. Ich versuche folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') wo df ist ein dataframe mit den inkrementellen Daten überschrieben werden. hdfs-base-path enthält die Stammdaten. Wenn ich versuche, den obigen Befehl, es löscht alle

Verketten von Datensätzen verschiedener RDDs in Apache funken mit Scala

Anzahl der Antworten 2 Antworten
Gibt es eine Möglichkeit zum verketten der Daten von zwei verschiedenen RDDs in der Funke? Voraussetzung ist - ich erstelle zwei intermediate RDDs mit scala, das hat die gleichen Spaltennamen kombinieren müssen diese Ergebnisse sowohl der RDDs

PySpark: Wie konvertiere ich eine Array (d. H. Liste) Spalte in Vektor

Anzahl der Antworten 2 Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass

SparkSQL: Wie behandelt man Nullwerte in einer benutzerdefinierten Funktion?

Anzahl der Antworten 3 Antworten
Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte in Tabelle 2 eine Spalte mit "y", integer Darstellung des Datum-strings in "x". Wesentlichen zu halten, ist null Werte in der Spalte "y". Tabelle 1 (Dataframe

Pyspark String in Datumsformat konvertieren

Anzahl der Antworten 4 Antworten
Habe ich ein Datum pyspark dataframe mit einer string-Spalte im format MM-dd-yyyy und ich bin versucht zu konvertieren, das in einer date-Spalte. Habe ich versucht: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich bekomme einen string, der null-Werte. Kann mir jemand helfen?

Codiererfehler beim Versuch, die Datenframezeile der aktualisierten Zeile zuzuordnen

Anzahl der Antworten 2 Antworten
Wenn ich m versuchen, das gleiche zu tun, in meinem code, wie unten erwähnt dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) Ich habe die obige

Wie führe ich eine Vereinigung auf zwei DataFrames mit unterschiedlich vielen Spalten in Spark durch?

Anzahl der Antworten 7 Antworten
Ich habe 2 DataFrames wie folgt : Ich brauche union so: Den unionAll - Funktion funktioniert nicht, da die Anzahl und die Namen der Spalten sind anders. Wie kann ich dies tun? InformationsquelleAutor der Frage Allan Feliph

Dataframe partitionBy auf eine einzelne Parquet-Datei (pro Partition)

Anzahl der Antworten 2 Antworten
Möchte ich Wiedergutmachung /coalesce meine Daten, so dass es gespeichert wird, in eine Parkett-Datei pro partition. Ich würde auch gerne die Spark SQL partitionBy API. Also ich könnte das machen wie diese: df.coalesce(1).write.partitionBy("entity", "year", "month", "day", "status").mode(SaveMode.Append).parquet(s"$location")

Wie definiere ich Partitionierung von DataFrame?

Anzahl der Antworten 5 Antworten
Habe ich angefangen mit Spark SQL und DataFrames in Spark 1.4.0. Ich bin zu wollen, um eine benutzerdefinierte Partitionierer auf DataFrames, in der Scala, aber nicht zu sehen, wie dies zu tun. Einem der Daten-Tabellen arbeite ich

Wie erstellt man einen leeren Datenrahmen mit einem bestimmten Schema?

Anzahl der Antworten 6 Antworten
Ich will auf DataFrame mit einem angegebenen schema in Scala. Ich habe versucht, zu verwenden JSON Lesen (ich meine die Lektüre leere Datei), aber ich glaube nicht, dass das die beste Praxis. InformationsquelleAutor der Frage user1735076 |

Wie erstellt man einen korrekten Datenrahmen für die Klassifizierung in Spark ML?

Anzahl der Antworten 3 Antworten
Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen

Wie benutzt man die JDBC-Quelle, um Daten in (Py) Spark zu schreiben und zu lesen?

Anzahl der Antworten 3 Antworten
Dem Ziel diese Frage ist zu dokumentieren: Schritte zum Lesen und schreiben von Daten unter Verwendung von JDBC-verbindungen in PySpark mögliche Probleme mit JDBC-Quellen und Lösungen kennen Mit kleinen änderungen sollten diese Methoden arbeiten mit anderen unterstützten

Gibt es eine bessere Möglichkeit, den gesamten Spark SQL DataFrame anzuzeigen?

Anzahl der Antworten 6 Antworten
Möchte ich das ganze Apache Spark SQL DataFrame mit der Scala-API. Ich kann die show() Methode: myDataFrame.show(Int.MaxValue) Gibt es eine bessere Art der Darstellung einer gesamten DataFrame als mit Int.MaxValue? InformationsquelleAutor der Frage Yuri Brovman | 2015-05-15

Wie füge ich einem Spark DataFrame (mit PySpark) eine neue Spalte hinzu?

Anzahl der Antworten 6 Antworten
Ich habe eine Spark-DataFrame (mit PySpark 1.5.1) und würde gerne eine neue Spalte hinzufügen. Ich habe versucht, die folgenden ohne Erfolg: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

Wie ändert man die Spaltentypen in DatFrame von Spark SQL?

Anzahl der Antworten 16 Antworten
Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |--

Spark: Wie man count (distinct (value)) in Dataframe-APIs übersetzt

Anzahl der Antworten 1 Antworten
Ich versuche vergleichen verschiedene Möglichkeiten der Aggregation meine Daten. Dies ist mein input-Daten für 2 Elemente (Seite,Besucher): (PAG1,V1) (PAG1,V1) (PAG2,V1) (PAG2,V2) (PAG2,V1) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG2,V2) (PAG1,V3) Arbeiten mit einem SQL-Befehl in Spark SQL mit

Wie definieren und verwenden Sie eine benutzerdefinierte Aggregatfunktion in Spark SQL?

Anzahl der Antworten 1 Antworten
Ich weiß, wie man schreiben Sie eine UDF-Datei in Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) Kann ich etwas ähnliches tun zu definieren, die eine Aggregatfunktion? Wie wird

wie man einen Nullwert aus dem Spark-Datenframe herausfiltert

Anzahl der Antworten 8 Antworten
Erstellte ich einen dataframe in der Funke mit dem folgenden schema: root |-- user_id: long (nullable = false) |-- event_id: long (nullable = false) |-- invited: integer (nullable = false) |-- day_diff: long (nullable = true) |--

Fügen Sie dem Datenframe eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

Anzahl der Antworten 1 Antworten
Frage ich mich, wie ich eine der folgenden Spark (Pyspark) Ursprünglichen Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ Resultierenden Dataframe: +--+---+-------+ |id|num|new_Col| +--+---+-------+ |4 |9.0| 7.0 | +--+---+-------+

Erstellen Sie einen neuen Datenrahmen mit leeren Feldwerten

Anzahl der Antworten 1 Antworten
Ich bin erstellen Sie ein neues Dataframe von einer vorhandenen dataframe, müssen aber hinzufügen neue Spalte ("Feld1" im code unten) in dieser neuen DF. Wie mache ich das? Arbeiten-Beispiel code-Beispiel wird geschätzt. val edwDf = omniDataFrame .withColumn("field1",

Erstellen Sie Spark DataFrame. Schema für type kann nicht abgeleitet werden: & lt; type 'float' & gt;

Anzahl der Antworten 1 Antworten
Könnte mir jemand helfen dieses problem zu lösen, habe ich mit spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =

Wie fasst man Werte nach groupBy in einer Sammlung zusammen?

Anzahl der Antworten 3 Antworten
Ich habe einen dataframe mit schema solche: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Suche nach einem Weg, um die Gruppe (oder vielleicht rollup?) dieser dataframe durch visitorid, wo die trackingIds und emailIds Spalten Anhängen zusammen. So zum

'PipelinedRDD' Objekt hat in PySpark kein Attribut 'toDF'

Anzahl der Antworten 1 Antworten
Ich versuche zu laden, ein SVM-Datei und wandeln Sie es in ein DataFrame so kann ich mit dem ML-Modul (Pipeline ML) aus Funken. Ich habe gerade installiert ein frisches Funke 1.5.0 unter Ubuntu 14.04 (keine spark-env.sh konfiguriert).

Wie man Daten von Spark SQL nach CSV exportiert

Anzahl der Antworten 6 Antworten
Dieser Befehl funktioniert mit HiveQL: insert overwrite directory '/data/home.csv' select * from testtable; Aber mit Spark SQL bin ich immer eine Fehlermeldung mit der org.apache.spark.sql.hive.HiveQl stack trace: java.lang.RuntimeException: Unsupported language features in query: insert overwrite directory '/data/home.csv'

Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir Partitionen bei Verwendung von Spark SQL?

Anzahl der Antworten 4 Antworten
Hallo, ich bin mit Spark SQL eigentlich hiveContext.sql() was nutzt die group by-Abfragen und ich habe mich in OOM Probleme. So denkt der zunehmenden Bedeutung von spark.sql.shuffle.partitions von 200 standardmäßig auf 1000 aber es ist nicht zu