Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Wie "Lookup" - Betrieb auf Spark dataframes gegeben mehrere Bedingungen

Anzahl der Antworten 2 Antworten
Ich bin ein Neuling auf Spark (Meine version ist die 1.6.0) und jetzt versuche ich das problem zu lösen, die unten gegeben werden: Angenommen, es gibt zwei Quellcode-Dateien: Die erste (Eine für Kurzschluß) ist eine große, eine

DataFrame filtern, basierend auf der zweiten Dataframe

Anzahl der Antworten 2 Antworten
Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

Apache Spark wirft NullPointerException, wenn man auf fehlende feature

Anzahl der Antworten 2 Antworten
Habe ich ein bizarres Problem mit PySpark, wenn die Indizierung Spalte von strings an Funktionen. Hier ist mein tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen fehlenden Wert für 'x0'. Auf den ersten, ich

Wie um die Karte struct im DataFrame zu Fall Klasse?

Anzahl der Antworten 3 Antworten
Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,

Funke - Gruppe, indem er mit dataframe syntax?

Anzahl der Antworten 2 Antworten
Was ist die syntax für eine groupby-unter Spark ohne sql/hiveContext? Ich weiß, dass ich tun kann, DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff") aber wie mache ich

Spark from_json - StructType und ArrayType

Anzahl der Antworten 2 Antworten
Ich habe einen Datensatz, der kommt, wie XML, und einer der Knoten enthält JSON. Spark liest dies in so einem StringType, so bin ich versucht zu verwenden from_json() zum konvertieren der JSON zu einem DataFrame. Ich bin

Ist Spark SQL UDAF (user defined aggregate-Funktion) verfügbar in der Python-API?

Anzahl der Antworten 1 Antworten
Als der Funke 1.5.0 scheint es möglich, eigene zu schreiben, UDAF für benutzerdefinierte Aggregationen auf DataFrames: Spark 1.5 DataFrame API-Highlights: Datum/Zeit/String-Handling, Zeit-Abständen, und UDAFs Es ist jedoch unklar ist mir, ob diese Funktionalität unterstützt wird, in die

Computing Rang einer Zeile

Anzahl der Antworten 1 Antworten
Ich möchte Ranges Benutzer-id basiert auf einem Feld. Für den gleichen Wert des Feldes, Rang sollte gleich sein. Dass Daten in Hive-Tabelle. z.B. user value a 5 b 10 c 5 d 6 Rank a - 1

Iterieren scala wrappedArray? (Funke)

Anzahl der Antworten 1 Antworten
Ich die folgenden Operationen durchführen: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs = wordDocs.map(t => t(1)).collect() listDocs: Array [Any] = Array(WrappedArray(123, 234, 205876618, 456)) Meine Frage

spark sql current timestamp-Funktion

Anzahl der Antworten 1 Antworten
Gibt es eine sql-Funktion in spark sql, die wieder aktuellen Zeitstempel , beispielsweise im impala JETZT() ist die Funktion, welche zurückgibt aktuellen Zeitstempel gibt es ähnlich wie in spark sql ? Dank InformationsquelleAutor sri hari kali charan

Gruppe Funke dataframe nach Datum

Anzahl der Antworten 2 Antworten
Hab ich geladen ein DataFrame von einer SQL Server-Tabelle. Es sieht wie folgt aus: >>> df.show() +--------------------+----------+ | timestamp| Value | +--------------------+----------+ |2015-12-02 00:10:...| 652.8| |2015-12-02 00:20:...| 518.4| |2015-12-02 00:30:...| 524.6| |2015-12-02 00:40:...| 382.9| |2015-12-02 00:50:...| 461.6|

Wie bekomme ich eine einzelne Spalte in der Funke?

Anzahl der Antworten 1 Antworten
Ich würde gerne eine Aktion durchführen, die auf eine einzelne Spalte. Leider, nachdem ich die Transformation, die Spalte, es ist jetzt nicht mehr Teil der dataframe es kam aber ein Column-Objekt. Als solche, es kann nicht gesammelt

Schreiben Spark dataframe als CSV mit Partitionen

Anzahl der Antworten 1 Antworten
Ich versuche zu schreiben dataframe in spark zu einem HDFS-Lage, und ich erwarte, dass wenn ich hinzufüge, die partitionBy notation Funke partition erstellen (ähnlich wie beim schreiben in Parkett-format) Ordner in form von partition_column_name=partition_value ( ich.e partition_date=2016-05-03).

Wie join über mehrere Spalten in Pyspark?

Anzahl der Antworten 2 Antworten
Bin ich mit Spark 1.3 und würde gerne mitmachen auf mehreren Spalten über die python-Schnittstelle (SparkSQL) Folgende Werke: Ich zunächst registrieren Sie als temporäre Tabellen. numeric.registerTempTable("numeric") Ref.registerTempTable("Ref") test = numeric.join(Ref, numeric.ID == Ref.ID, joinType='inner') Ich würde nun

Was ist die version der library Funke unterstützt SparkSession

Anzahl der Antworten 2 Antworten
Code Spark mit SparkSession. import org.apache.spark.SparkConf import org.apache.spark.SparkContext val conf = SparkSession.builder .master("local") .appName("testing") .enableHiveSupport() //<- enable Hive support. .getOrCreate() Code pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.cms.spark</groupId> <artifactId>cms-spark</artifactId> <version>0.0.1-SNAPSHOT</version> <name>cms-spark</name> <pluginRepositories> <pluginRepository> <id>scala-tools.org</id> <name>Scala-tools Maven2

Random-sampling in pyspark mit Ersatz

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe df mit 9000 eindeutige ids. wie | id | 1 2 Möchte ich zum generieren einer Zufallsstichprobe mit Ersatz diese 9000-ids 100000 mal. Wie mache ich es in pyspark Versuchte ich df.sample(True,0.5,100) Aber

Apache Spark — Weisen Sie das Ergebnis der UDF auf mehrere dataframe Spalten

Anzahl der Antworten 1 Antworten
Ich bin mit pyspark, laden eine große csv-Datei in einem dataframe mit Funken -, csv -, und als pre-processing Schritt, den ich anwenden müssen, eine Vielzahl von Operationen, um die verfügbaren Daten in einer der Spalten (enthält

Konvertieren Python-dictionary zu entfachen, DataFrame

Anzahl der Antworten 1 Antworten
Habe ich ein Python-dictionary : dic = { (u'aaa',u'bbb',u'ccc'):((0.3, 1.2, 1.3, 1.5), 1.4, 1), (u'kkk',u'ggg',u'ccc',u'sss'):((0.6, 1.2, 1.7, 1.5), 1.4, 2) } Ich umwandeln möchte dieses Wörterbuch zu entfachen, DataFrame mit den Spalten : ['key', 'val_1', 'val_2', 'val_3',

Spark Zeile JSON

Anzahl der Antworten 4 Antworten
Ich möchte eine JSON von einer Spark-v. 1.6 (mit scala) dataframe. Ich weiß, dass es die einfache Lösung zu tun df.toJSON. Allerdings ist mein problem etwas anders aussieht. Betrachten Sie zum Beispiel einen dataframe mit den folgenden

Funke: schreiben DataFrame als komprimierte JSON

Anzahl der Antworten 3 Antworten
Apache Spark DataFrameReader.json() verarbeiten kann gzipped JSONlines Dateien automatisch, aber es scheint nicht zu einem Weg, um DataFrameWriter.json() zu schreiben komprimiert JSONlines-Dateien. Die zusätzliche Netzwerk-I/O ist sehr teuer in der cloud. Gibt es einen Weg um dieses

Unterschied zwischen filter und wo in scala spark sql

Anzahl der Antworten 3 Antworten
Habe schon beides ausprobiert, aber es funktioniert gleich Beispiel val items = List(1, 2, 3) mit filter employees.filter($"emp_id".isin(items:_*)).show verwenden, wo employees.where($"emp_id".isin(items:_*)).show Ergebnis ist dasselbe für die beiden +------+------+------+-------+------+-------+ |EMP_ID|F_NAME|SALARY|DEPT_ID|L_NAME|MANAGER| +------+------+------+-------+------+-------+ | 6| E6| 2000| 4| L6| 2|

Sparen Sie einen großen Funken Dataframe wie eine einzige json-Datei in S3

Anzahl der Antworten 3 Antworten
Im Versuch zu speichern ein Funke DataFrame (mehr als 20G) auf eine einzige json-Datei in Amazon S3, mein code zum speichern der dataframe ist wie folgt : dataframe.repartition(1).save("s3n://mybucket/testfile","json") Aber ich bin immer ein Fehler von S3 "Ihr

Hinzufügen einer Spalte rowsums über eine Liste von Spalten in Spark-Dataframe

Anzahl der Antworten 4 Antworten
Ich habe eine Spark-dataframe mit mehreren Spalten. Ich möchte eine Spalte hinzufügen, die auf der dataframe, die eine Summe einer bestimmten Anzahl von Spalten. Beispielsweise meine Daten sieht wie folgt aus: ID var1 var2 var3 var4 var5

So speichern Sie einen Funken DataFrame als csv-Datei auf der Festplatte?

Anzahl der Antworten 4 Antworten
Beispielsweise das Ergebnis dieser: df.filter("project = 'en'").select("title","count").groupBy("title").sum() wäre ein Array zurückgeben. How to save a spark DataFrame als csv-Datei auf der Festplatte ? btw dies nicht gibt ein array zurück, sondern ein DataFrame! Referenz Wenn die Antwort

Spark SQL-Paket nicht gefunden

Anzahl der Antworten 1 Antworten
Ich bin ganz neu zu entfachen, und habe folgende Probleme: wenn ich versuche zu importieren SQLContext mit: import org.apache.spark.sql.SQLContext; oder versuchen zu initialisieren SQLContext variable explizit: SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc); Bekomme ich eine Fehlermeldung von Eclipse:

Wie die Rückkehr ein "Tupel-Typ" in einer UDF in PySpark?

Anzahl der Antworten 3 Antworten
Alle Datentypen in pyspark.sql.Typen werden: __all__ = [ "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType", "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType", "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"] Ich zu schreiben, ein UDF (in pyspark) gibt ein array von

Wie Sie den Pfad angeben, wo saveAsTable Dateien abspeichert?

Anzahl der Antworten 2 Antworten
Ich bin versucht zu retten, ein DataFrame S3 in pyspark in Spark1.4 mit DataFrameWriter df = sqlContext.read.format("json").load("s3a://somefile") df_writer = pyspark.sql.DataFrameWriter(df) df_writer.partitionBy('col1')\ .saveAsTable('test_table', format='parquet', mode='overwrite') Parkett-Dateien ging an "/tmp/hive/warehouse/...." das ist ein lokales tmp-Verzeichnis auf meinen Fahrer. Habe

PySpark: mehrere Bedingungen in der wenn-Klausel

Anzahl der Antworten 4 Antworten
Möchte ich ändern Sie die Werte von Zellen eines dataframe Spalte (Alter), wo es derzeit ist leer und ich würde es nur tun, wenn eine andere Spalte (Überlebt) hat den Wert 0 für die entsprechende Zeile, wo

com.mysql.jdbc.Treiber nicht gefunden-classpath beim starten von spark sql-und thrift-server

Anzahl der Antworten 3 Antworten
Ich erhalte den folgenden Fehler beim starten des spark-sql-shell. Aber wenn ich die shell starten mit dem Befehl funktioniert es ./spark-sql --jars /usr/local/hive/lib/mysql-connector-java.jar Aber wenn ich starten Sie den thrift-server in der gleichen Weise mit unten comamnd

Spark-Erstellen von Benutzerdefinierten Spalte, Funktion, Benutzer-definierte Funktion

Anzahl der Antworten 2 Antworten
Ich bin mit Scala und bauen wollen, meine eigene Funktion zu DataFrame. Zum Beispiel möchte ich bei der Behandlung einer Spalte wie ein array Durchlaufen und jedes element, und eine Berechnung. Um zu beginnen, ich bin zu

Wie passend Dataframe Spaltennamen Scala Fall Attribute der Klasse?

Anzahl der Antworten 1 Antworten
Den Namen der Spalten in diesem Beispiel aus der spark-sql-kommen aus der case class Person. case class Person(name: String, age: Int) val people: RDD[Person] = ... //An RDD of case class objects, from the previous example. //The

Die übergabe eines Daten-frame-Spalte und eine externe Liste mit udf unter withColumn

Anzahl der Antworten 2 Antworten
Ich habe eine Spark-dataframe folgende Struktur. Die bodyText_token hat das Token (bearbeitet/eingestellt von Wörtern). Und ich habe eine verschachtelte Liste mit den definierten keywords root |-- id: string (nullable = true) |-- body: string (nullable = true)

So erstellen Sie eine Zeile von einer Liste oder Array in der Funke mit Scala

Anzahl der Antworten 3 Antworten
Ich versuche, eine Zeile erstellen (org.apache.spark.sql.catalyst.expressions.Row) auf der Grundlage der Benutzereingabe. Ich bin nicht in der Lage, erstellen Sie eine Zeile nach dem Zufallsprinzip. gibt es alle Funktionen zum erstellen einer Reihe von List oder Array. ZB.,

Scala und Spark-UDF-Funktion

Anzahl der Antworten 2 Antworten
Habe ich ein einfaches UDF zu konvertieren oder zu extrahieren einige Werte aus einem Feld in ein temptabl in spark. Melde ich die Funktion aber wenn ich den Aufruf der Funktion mit sql wirft es eine NullPointerException.

So konvertieren Sie eine Fall-Klasse-basierten RDD in ein DataFrame?

Anzahl der Antworten 3 Antworten
Den Spark-Dokumentation veranschaulicht, wie erstellen Sie ein DataFrame von einer RDD, mit Scala case-Klassen zu schließen, ein schema. Ich bin versucht zu reproduzieren, dieses Konzept mit sqlContext.createDataFrame(RDD, CaseClass), aber mein DataFrame endet leer. Hier ist mein Scala-code:

Funke und SparkSQL: Wie zu imitieren-Fenster-Funktion?

Anzahl der Antworten 3 Antworten
Beschreibung Gegeben ein dataframe df id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04 Ich möchte erstellen Sie eine laufende Zähler oder index, gruppiert, die von der

Speichern Funke RDD in die Hive-Tabelle

Anzahl der Antworten 1 Antworten
Spark ich will sparen RDD Objekte in die hive-Tabelle. Ich bin versucht, createDataFrame aber das wirft Exception in thread "main" java.lang.NullPointerException val products=sc.parallelize(evaluatedProducts.toList); //here products are RDD[Product] val productdf = hiveContext.createDataFrame(products, classOf[Product]) Bin ich mit Spark 1.5

Wie verwenden Sie die Spalte.isin-Liste?

Anzahl der Antworten 4 Antworten
val items = List("a", "b", "c") sqlContext.sql("select c1 from table") .filter($"c1".isin(items)) .collect .foreach(println) Den code oben wirft die folgende Ausnahme. Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89)

Erzeugen einen Funken StructType / Schema von Fall Klasse

Anzahl der Antworten 4 Antworten
Wenn ich wollte eine StructType (d.h. eine DataFrame.schema) aus einem case class gibt es einen Weg, es zu tun, ohne eine DataFrame? Das kann ich leicht tun: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schema Aber es

SPARK SQL - update-MySql-Tabelle mithilfe von DataFrames und JDBC

Anzahl der Antworten 5 Antworten
Ich versuche, einfügen und aktualisieren von Daten auf MySql mit Spark SQL DataFrames und JDBC-Verbindung. Ich habe erfolgreich das einfügen neuer Daten mit dem SaveMode.Append. Gibt es eine Möglichkeit, die Daten zu aktualisieren, die bereits in der

spark-Fehler RDD-Typ nicht gefunden beim erstellen RDD

Anzahl der Antworten 1 Antworten
Ich versuche zu erstellen, die eine RDD-der Fall Objekte der Klasse. ZB., //sqlContext from the previous example is used in this example. //createSchemaRDD is used to implicitly convert an RDD to a SchemaRDD. import sqlContext.createSchemaRDD val people:

Lesen von Daten aus SQL Server mithilfe von Spark SQL

Anzahl der Antworten 2 Antworten
Ist es möglich, zum Lesen von Daten aus Microsoft Sql Server (oracle, mysql, etc.) in einer rdd in einer Spark-Applikation? Oder brauchen wir zum erstellen einer in-memory-set und parallize, dass in ein RDD? dies ist gonna be

Was ist eine optimierte Möglichkeit der Verbindung von großen Tabellen in Spark SQL

Anzahl der Antworten 2 Antworten
Habe ich gebraucht, die das verknüpfen von Tabellen mit Spark SQL oder Dataframe API. Müssen wissen, was hätte optimiert werden, so erreichen wir es. Szenario ist: Alle Daten in Hive in ORC-format (Base-Dataframe-und Referenz-Dateien). Ich brauche um

Warum DataFrame.saveAsTable("df") Tabelle speichern, um verschiedene HDFS-host?

Anzahl der Antworten 3 Antworten
Habe ich konfiguriert Hive (1.13.1) mit Spark (1.4.0) und ich bin in der Lage, den Zugriff auf alle Datenbanken und die Tabelle von Bienenstock und mein warehouse-Verzeichnis ist hdfs://192.168.1.17:8020/user/hive/warehouse Aber wenn, bin ich versucht zu retten, ein

Pyspark dataframe: Summieren über eine Spalte, während die Gruppierung über die andere

Anzahl der Antworten 2 Antworten
Ich habe eine Frage zu stellen, Ich habe einen dataframe, wie die folgenden In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5

Was ist die Beziehung zwischen Spark, Hadoop und Cassandra

Anzahl der Antworten 3 Antworten
Mein Verständnis war, dass die Funke ist eine alternative zu Hadoop. Jedoch, wenn Sie versuchen zu installieren Funke, der Seite installation fragt nach einer bestehenden Hadoop-installation. Ich bin nicht in der Lage, etwas zu finden, die verdeutlicht,

Wie die Gruppe von Zeit-Intervall in Spark SQL

Anzahl der Antworten 2 Antworten
Mein Datensatz sieht wie folgt aus: KEY |Event_Type | metric | Time 001 |event1 | 10 | 2016-05-01 10:50:51 002 |event2 | 100 | 2016-05-01 10:50:53 001 |event3 | 20 | 2016-05-01 10:50:55 001 |event1 | 15

Erstellen Sie eine neue Funke DataFrame mit neuen Spalte Wert basiert auf der Spalte, in der ersten dataframe Java

Anzahl der Antworten 3 Antworten
Diese sollte einfach sein, aber....mit Spark 1.6.1.... Ich habe DataFrame #1 mit den Spalten A, B, C. Mit den Werten: A B C 1 2 A 2 2 A 3 2 B 4 2 C Ich dann

speichern Funke dataframe zu Hive: Tabelle nicht lesbar, da "Parkett nicht SequenceFile"

Anzahl der Antworten 4 Antworten
Ich würde gerne zum speichern von Daten in einer Spark (v 1.3.0) dataframe, um eine Hive-Tabelle mit PySpark. Den Dokumentation Staaten: "der Funke.sql.hive.convertMetastoreParquet: Wenn auf false gesetzt, Spark SQL verwenden Sie die Hive-SerDe für Parkett-Tabellen anstelle der

Gelten gleiche Funktion auf alle Felder der Funke dataframe Zeile

Anzahl der Antworten 2 Antworten
Habe ich dataframe, in denen ich über 1000 ( variable) Spalten. Möchte ich alle Werte in Großbuchstaben angegeben werden. Hier ist der Ansatz, den ich gedacht haben , können Sie vorschlagen, ist dies beste Art und Weise.