Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Wie "Lookup" - Betrieb auf Spark dataframes gegeben mehrere Bedingungen

2 Antworten

Ich bin ein Neuling auf Spark (Meine version ist die 1.6.0) und jetzt versuche ich das problem zu lösen, die unten gegeben werden: Angenommen, es gibt zwei Quellcode-Dateien: Die erste (Eine für Kurzschluß) ist eine große, eine

DataFrame filtern, basierend auf der zweiten Dataframe

2 Antworten

Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

apache-spark apache-spark-sql dataframe java spark-dataframe

Apache Spark wirft NullPointerException, wenn man auf fehlende feature

2 Antworten

Habe ich ein bizarres Problem mit PySpark, wenn die Indizierung Spalte von strings an Funktionen. Hier ist mein tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen fehlenden Wert für 'x0'. Auf den ersten, ich

apache-spark apache-spark-ml apache-spark-sql pyspark python

Wie um die Karte struct im DataFrame zu Fall Klasse?

3 Antworten

Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,

apache-spark apache-spark-2.0 apache-spark-sql dataframe scala

Funke - Gruppe, indem er mit dataframe syntax?

2 Antworten

Was ist die syntax für eine groupby-unter Spark ohne sql/hiveContext? Ich weiß, dass ich tun kann, DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff") aber wie mache ich

apache-spark apache-spark-sql dataframe java sql

Spark from_json - StructType und ArrayType

2 Antworten

Ich habe einen Datensatz, der kommt, wie XML, und einer der Knoten enthält JSON. Spark liest dies in so einem StringType, so bin ich versucht zu verwenden from_json() zum konvertieren der JSON zu einem DataFrame. Ich bin

apache-spark apache-spark-sql json scala

Ist Spark SQL UDAF (user defined aggregate-Funktion) verfügbar in der Python-API?

1 Antworten

Als der Funke 1.5.0 scheint es möglich, eigene zu schreiben, UDAF für benutzerdefinierte Aggregationen auf DataFrames: Spark 1.5 DataFrame API-Highlights: Datum/Zeit/String-Handling, Zeit-Abständen, und UDAFs Es ist jedoch unklar ist mir, ob diese Funktionalität unterstützt wird, in die

apache-spark apache-spark-sql spark-dataframe

Computing Rang einer Zeile

1 Antworten

Ich möchte Ranges Benutzer-id basiert auf einem Feld. Für den gleichen Wert des Feldes, Rang sollte gleich sein. Dass Daten in Hive-Tabelle. z.B. user value a 5 b 10 c 5 d 6 Rank a - 1

apache-spark apache-spark-sql dataframe hive scala

Iterieren scala wrappedArray? (Funke)

1 Antworten

Ich die folgenden Operationen durchführen: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs = wordDocs.map(t => t(1)).collect() listDocs: Array [Any] = Array(WrappedArray(123, 234, 205876618, 456)) Meine Frage

apache-spark apache-spark-sql scala

spark sql current timestamp-Funktion

1 Antworten

Gibt es eine sql-Funktion in spark sql, die wieder aktuellen Zeitstempel , beispielsweise im impala JETZT() ist die Funktion, welche zurückgibt aktuellen Zeitstempel gibt es ähnlich wie in spark sql ? Dank InformationsquelleAutor sri hari kali charan

apache-spark apache-spark-sql

Gruppe Funke dataframe nach Datum

2 Antworten

Hab ich geladen ein DataFrame von einer SQL Server-Tabelle. Es sieht wie folgt aus: >>> df.show() +--------------------+----------+ | timestamp| Value | +--------------------+----------+ |2015-12-02 00:10:...| 652.8| |2015-12-02 00:20:...| 518.4| |2015-12-02 00:30:...| 524.6| |2015-12-02 00:40:...| 382.9| |2015-12-02 00:50:...| 461.6|

apache-spark apache-spark-sql pyspark python

Wie bekomme ich eine einzelne Spalte in der Funke?

1 Antworten

Ich würde gerne eine Aktion durchführen, die auf eine einzelne Spalte. Leider, nachdem ich die Transformation, die Spalte, es ist jetzt nicht mehr Teil der dataframe es kam aber ein Column-Objekt. Als solche, es kann nicht gesammelt

apache-spark apache-spark-sql dataframe pyspark

Schreiben Spark dataframe als CSV mit Partitionen

1 Antworten

Ich versuche zu schreiben dataframe in spark zu einem HDFS-Lage, und ich erwarte, dass wenn ich hinzufüge, die partitionBy notation Funke partition erstellen (ähnlich wie beim schreiben in Parkett-format) Ordner in form von partition_column_name=partition_value ( ich.e partition_date=2016-05-03).

apache-spark apache-spark-sql csv partitioning

Wie join über mehrere Spalten in Pyspark?

2 Antworten

Bin ich mit Spark 1.3 und würde gerne mitmachen auf mehreren Spalten über die python-Schnittstelle (SparkSQL) Folgende Werke: Ich zunächst registrieren Sie als temporäre Tabellen. numeric.registerTempTable("numeric") Ref.registerTempTable("Ref") test = numeric.join(Ref, numeric.ID == Ref.ID, joinType='inner') Ich würde nun

apache-spark apache-spark-sql join pyspark python

Was ist die version der library Funke unterstützt SparkSession

2 Antworten

Code Spark mit SparkSession. import org.apache.spark.SparkConf import org.apache.spark.SparkContext val conf = SparkSession.builder .master("local") .appName("testing") .enableHiveSupport() //<- enable Hive support. .getOrCreate() Code pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.cms.spark</groupId> <artifactId>cms-spark</artifactId> <version>0.0.1-SNAPSHOT</version> <name>cms-spark</name> <pluginRepositories> <pluginRepository> <id>scala-tools.org</id> <name>Scala-tools Maven2

apache-spark apache-spark-sql hadoop scala spark-dataframe

Random-sampling in pyspark mit Ersatz

1 Antworten

Ich habe einen dataframe df mit 9000 eindeutige ids. wie | id | 1 2 Möchte ich zum generieren einer Zufallsstichprobe mit Ersatz diese 9000-ids 100000 mal. Wie mache ich es in pyspark Versuchte ich df.sample(True,0.5,100) Aber

apache-spark-sql pyspark random

Apache Spark — Weisen Sie das Ergebnis der UDF auf mehrere dataframe Spalten

1 Antworten

Ich bin mit pyspark, laden eine große csv-Datei in einem dataframe mit Funken -, csv -, und als pre-processing Schritt, den ich anwenden müssen, eine Vielzahl von Operationen, um die verfügbaren Daten in einer der Spalten (enthält

apache-spark apache-spark-sql pyspark python user-defined-functions

Konvertieren Python-dictionary zu entfachen, DataFrame

1 Antworten

Habe ich ein Python-dictionary : dic = { (u'aaa',u'bbb',u'ccc'):((0.3, 1.2, 1.3, 1.5), 1.4, 1), (u'kkk',u'ggg',u'ccc',u'sss'):((0.6, 1.2, 1.7, 1.5), 1.4, 2) } Ich umwandeln möchte dieses Wörterbuch zu entfachen, DataFrame mit den Spalten : ['key', 'val_1', 'val_2', 'val_3',

apache-spark apache-spark-sql dataframe dictionary pyspark

Spark Zeile JSON

4 Antworten

Ich möchte eine JSON von einer Spark-v. 1.6 (mit scala) dataframe. Ich weiß, dass es die einfache Lösung zu tun df.toJSON. Allerdings ist mein problem etwas anders aussieht. Betrachten Sie zum Beispiel einen dataframe mit den folgenden

apache-spark apache-spark-sql json scala

Funke: schreiben DataFrame als komprimierte JSON

3 Antworten

Apache Spark DataFrameReader.json() verarbeiten kann gzipped JSONlines Dateien automatisch, aber es scheint nicht zu einem Weg, um DataFrameWriter.json() zu schreiben komprimiert JSONlines-Dateien. Die zusätzliche Netzwerk-I/O ist sehr teuer in der cloud. Gibt es einen Weg um dieses

apache-spark apache-spark-sql compression dataframe gzip

Unterschied zwischen filter und wo in scala spark sql

3 Antworten

Habe schon beides ausprobiert, aber es funktioniert gleich Beispiel val items = List(1, 2, 3) mit filter employees.filter($"emp_id".isin(items:_*)).show verwenden, wo employees.where($"emp_id".isin(items:_*)).show Ergebnis ist dasselbe für die beiden +------+------+------+-------+------+-------+ |EMP_ID|F_NAME|SALARY|DEPT_ID|L_NAME|MANAGER| +------+------+------+-------+------+-------+ | 6| E6| 2000| 4| L6| 2|

apache-spark apache-spark-sql scala

Sparen Sie einen großen Funken Dataframe wie eine einzige json-Datei in S3

3 Antworten

Im Versuch zu speichern ein Funke DataFrame (mehr als 20G) auf eine einzige json-Datei in Amazon S3, mein code zum speichern der dataframe ist wie folgt : dataframe.repartition(1).save("s3n://mybucket/testfile","json") Aber ich bin immer ein Fehler von S3 "Ihr

apache-spark apache-spark-sql dataframe pyspark

Hinzufügen einer Spalte rowsums über eine Liste von Spalten in Spark-Dataframe

4 Antworten

Ich habe eine Spark-dataframe mit mehreren Spalten. Ich möchte eine Spalte hinzufügen, die auf der dataframe, die eine Summe einer bestimmten Anzahl von Spalten. Beispielsweise meine Daten sieht wie folgt aus: ID var1 var2 var3 var4 var5

apache-spark apache-spark-sql dataframe scala

So speichern Sie einen Funken DataFrame als csv-Datei auf der Festplatte?

4 Antworten

Beispielsweise das Ergebnis dieser: df.filter("project = 'en'").select("title","count").groupBy("title").sum() wäre ein Array zurückgeben. How to save a spark DataFrame als csv-Datei auf der Festplatte ? btw dies nicht gibt ein array zurück, sondern ein DataFrame! Referenz Wenn die Antwort

apache-spark apache-spark-sql scala

Spark SQL-Paket nicht gefunden

1 Antworten

Ich bin ganz neu zu entfachen, und habe folgende Probleme: wenn ich versuche zu importieren SQLContext mit: import org.apache.spark.sql.SQLContext; oder versuchen zu initialisieren SQLContext variable explizit: SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc); Bekomme ich eine Fehlermeldung von Eclipse:

apache-spark apache-spark-sql java maven

Wie die Rückkehr ein "Tupel-Typ" in einer UDF in PySpark?

3 Antworten

Alle Datentypen in pyspark.sql.Typen werden: __all__ = [ "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType", "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType", "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"] Ich zu schreiben, ein UDF (in pyspark) gibt ein array von

apache-spark apache-spark-sql dataframe pyspark python

Wie Sie den Pfad angeben, wo saveAsTable Dateien abspeichert?

2 Antworten

Ich bin versucht zu retten, ein DataFrame S3 in pyspark in Spark1.4 mit DataFrameWriter df = sqlContext.read.format("json").load("s3a://somefile") df_writer = pyspark.sql.DataFrameWriter(df) df_writer.partitionBy('col1')\ .saveAsTable('test_table', format='parquet', mode='overwrite') Parkett-Dateien ging an "/tmp/hive/warehouse/...." das ist ein lokales tmp-Verzeichnis auf meinen Fahrer. Habe

apache-spark apache-spark-sql pyspark

PySpark: mehrere Bedingungen in der wenn-Klausel

4 Antworten

Möchte ich ändern Sie die Werte von Zellen eines dataframe Spalte (Alter), wo es derzeit ist leer und ich würde es nur tun, wenn eine andere Spalte (Überlebt) hat den Wert 0 für die entsprechende Zeile, wo

apache-spark apache-spark-sql dataframe pyspark python

com.mysql.jdbc.Treiber nicht gefunden-classpath beim starten von spark sql-und thrift-server

3 Antworten

Ich erhalte den folgenden Fehler beim starten des spark-sql-shell. Aber wenn ich die shell starten mit dem Befehl funktioniert es ./spark-sql --jars /usr/local/hive/lib/mysql-connector-java.jar Aber wenn ich starten Sie den thrift-server in der gleichen Weise mit unten comamnd

apache-spark apache-spark-sql hive mysql mysql-connector

Spark-Erstellen von Benutzerdefinierten Spalte, Funktion, Benutzer-definierte Funktion

2 Antworten

Ich bin mit Scala und bauen wollen, meine eigene Funktion zu DataFrame. Zum Beispiel möchte ich bei der Behandlung einer Spalte wie ein array Durchlaufen und jedes element, und eine Berechnung. Um zu beginnen, ich bin zu

apache-spark apache-spark-sql scala

Wie passend Dataframe Spaltennamen Scala Fall Attribute der Klasse?

1 Antworten

Den Namen der Spalten in diesem Beispiel aus der spark-sql-kommen aus der case class Person. case class Person(name: String, age: Int) val people: RDD[Person] = ... //An RDD of case class objects, from the previous example. //The

apache-spark apache-spark-sql parquet scala

Die übergabe eines Daten-frame-Spalte und eine externe Liste mit udf unter withColumn

2 Antworten

Ich habe eine Spark-dataframe folgende Struktur. Die bodyText_token hat das Token (bearbeitet/eingestellt von Wörtern). Und ich habe eine verschachtelte Liste mit den definierten keywords root |-- id: string (nullable = true) |-- body: string (nullable = true)

apache-spark apache-spark-sql pyspark python user-defined-functions

So erstellen Sie eine Zeile von einer Liste oder Array in der Funke mit Scala

3 Antworten

Ich versuche, eine Zeile erstellen (org.apache.spark.sql.catalyst.expressions.Row) auf der Grundlage der Benutzereingabe. Ich bin nicht in der Lage, erstellen Sie eine Zeile nach dem Zufallsprinzip. gibt es alle Funktionen zum erstellen einer Reihe von List oder Array. ZB.,

apache-spark apache-spark-sql scala

Scala und Spark-UDF-Funktion

2 Antworten

Habe ich ein einfaches UDF zu konvertieren oder zu extrahieren einige Werte aus einem Feld in ein temptabl in spark. Melde ich die Funktion aber wenn ich den Aufruf der Funktion mit sql wirft es eine NullPointerException.

apache-spark apache-spark-sql apache-zeppelin scala

So konvertieren Sie eine Fall-Klasse-basierten RDD in ein DataFrame?

3 Antworten

Den Spark-Dokumentation veranschaulicht, wie erstellen Sie ein DataFrame von einer RDD, mit Scala case-Klassen zu schließen, ein schema. Ich bin versucht zu reproduzieren, dieses Konzept mit sqlContext.createDataFrame(RDD, CaseClass), aber mein DataFrame endet leer. Hier ist mein Scala-code:

apache-spark apache-spark-sql dataframe rdd scala

Funke und SparkSQL: Wie zu imitieren-Fenster-Funktion?

3 Antworten

Beschreibung Gegeben ein dataframe df id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04 Ich möchte erstellen Sie eine laufende Zähler oder index, gruppiert, die von der

apache-spark apache-spark-sql scala window-functions

Speichern Funke RDD in die Hive-Tabelle

1 Antworten

Spark ich will sparen RDD Objekte in die hive-Tabelle. Ich bin versucht, createDataFrame aber das wirft Exception in thread "main" java.lang.NullPointerException val products=sc.parallelize(evaluatedProducts.toList); //here products are RDD[Product] val productdf = hiveContext.createDataFrame(products, classOf[Product]) Bin ich mit Spark 1.5

apache-spark apache-spark-sql hadoop

Wie verwenden Sie die Spalte.isin-Liste?

4 Antworten

val items = List("a", "b", "c") sqlContext.sql("select c1 from table") .filter($"c1".isin(items)) .collect .foreach(println) Den code oben wirft die folgende Ausnahme. Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89)

apache-spark apache-spark-sql scala

Erzeugen einen Funken StructType / Schema von Fall Klasse

4 Antworten

Wenn ich wollte eine StructType (d.h. eine DataFrame.schema) aus einem case class gibt es einen Weg, es zu tun, ohne eine DataFrame? Das kann ich leicht tun: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schema Aber es

apache-spark apache-spark-sql

SPARK SQL - update-MySql-Tabelle mithilfe von DataFrames und JDBC

5 Antworten

Ich versuche, einfügen und aktualisieren von Daten auf MySql mit Spark SQL DataFrames und JDBC-Verbindung. Ich habe erfolgreich das einfügen neuer Daten mit dem SaveMode.Append. Gibt es eine Möglichkeit, die Daten zu aktualisieren, die bereits in der

apache-spark apache-spark-sql jdbc

spark-Fehler RDD-Typ nicht gefunden beim erstellen RDD

1 Antworten

Ich versuche zu erstellen, die eine RDD-der Fall Objekte der Klasse. ZB., //sqlContext from the previous example is used in this example. //createSchemaRDD is used to implicitly convert an RDD to a SchemaRDD. import sqlContext.createSchemaRDD val people:

apache-spark apache-spark-sql

Lesen von Daten aus SQL Server mithilfe von Spark SQL

2 Antworten

Ist es möglich, zum Lesen von Daten aus Microsoft Sql Server (oracle, mysql, etc.) in einer rdd in einer Spark-Applikation? Oder brauchen wir zum erstellen einer in-memory-set und parallize, dass in ein RDD? dies ist gonna be

apache-spark apache-spark-sql sql

Was ist eine optimierte Möglichkeit der Verbindung von großen Tabellen in Spark SQL

2 Antworten

Habe ich gebraucht, die das verknüpfen von Tabellen mit Spark SQL oder Dataframe API. Müssen wissen, was hätte optimiert werden, so erreichen wir es. Szenario ist: Alle Daten in Hive in ORC-format (Base-Dataframe-und Referenz-Dateien). Ich brauche um

apache-spark apache-spark-sql

Warum DataFrame.saveAsTable("df") Tabelle speichern, um verschiedene HDFS-host?

3 Antworten

Habe ich konfiguriert Hive (1.13.1) mit Spark (1.4.0) und ich bin in der Lage, den Zugriff auf alle Datenbanken und die Tabelle von Bienenstock und mein warehouse-Verzeichnis ist hdfs://192.168.1.17:8020/user/hive/warehouse Aber wenn, bin ich versucht zu retten, ein

apache-spark apache-spark-sql hadoop hdfs

Pyspark dataframe: Summieren über eine Spalte, während die Gruppierung über die andere

2 Antworten

Ich habe eine Frage zu stellen, Ich habe einen dataframe, wie die folgenden In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5

apache-spark-1.3 apache-spark-sql pyspark pyspark-sql python

Was ist die Beziehung zwischen Spark, Hadoop und Cassandra

3 Antworten

Mein Verständnis war, dass die Funke ist eine alternative zu Hadoop. Jedoch, wenn Sie versuchen zu installieren Funke, der Seite installation fragt nach einer bestehenden Hadoop-installation. Ich bin nicht in der Lage, etwas zu finden, die verdeutlicht,

apache-spark apache-spark-sql cassandra hadoop

Wie die Gruppe von Zeit-Intervall in Spark SQL

2 Antworten

Mein Datensatz sieht wie folgt aus: KEY |Event_Type | metric | Time 001 |event1 | 10 | 2016-05-01 10:50:51 002 |event2 | 100 | 2016-05-01 10:50:53 001 |event3 | 20 | 2016-05-01 10:50:55 001 |event1 | 15

apache-spark apache-spark-sql sql

Erstellen Sie eine neue Funke DataFrame mit neuen Spalte Wert basiert auf der Spalte, in der ersten dataframe Java

3 Antworten

Diese sollte einfach sein, aber....mit Spark 1.6.1.... Ich habe DataFrame #1 mit den Spalten A, B, C. Mit den Werten: A B C 1 2 A 2 2 A 3 2 B 4 2 C Ich dann

apache-spark apache-spark-sql dataframe java

speichern Funke dataframe zu Hive: Tabelle nicht lesbar, da "Parkett nicht SequenceFile"

4 Antworten

Ich würde gerne zum speichern von Daten in einer Spark (v 1.3.0) dataframe, um eine Hive-Tabelle mit PySpark. Den Dokumentation Staaten: "der Funke.sql.hive.convertMetastoreParquet: Wenn auf false gesetzt, Spark SQL verwenden Sie die Hive-SerDe für Parkett-Tabellen anstelle der

apache-spark apache-spark-sql hive pyspark

Gelten gleiche Funktion auf alle Felder der Funke dataframe Zeile

2 Antworten

Habe ich dataframe, in denen ich über 1000 ( variable) Spalten. Möchte ich alle Werte in Großbuchstaben angegeben werden. Hier ist der Ansatz, den ich gedacht haben , können Sie vorschlagen, ist dies beste Art und Weise.

apache-spark apache-spark-sql