Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
2
Antworten
Ich bin ein Neuling auf Spark (Meine version ist die 1.6.0) und jetzt versuche ich das problem zu lösen, die unten gegeben werden: Angenommen, es gibt zwei Quellcode-Dateien: Die erste (Eine für Kurzschluß) ist eine große, eine
2
Antworten
Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil
2
Antworten
Habe ich ein bizarres Problem mit PySpark, wenn die Indizierung Spalte von strings an Funktionen. Hier ist mein tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen fehlenden Wert für 'x0'. Auf den ersten, ich
3
Antworten
Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,
2
Antworten
Was ist die syntax für eine groupby-unter Spark ohne sql/hiveContext? Ich weiß, dass ich tun kann, DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff") aber wie mache ich
2
Antworten
Ich habe einen Datensatz, der kommt, wie XML, und einer der Knoten enthält JSON. Spark liest dies in so einem StringType, so bin ich versucht zu verwenden from_json() zum konvertieren der JSON zu einem DataFrame. Ich bin
1
Antworten
Als der Funke 1.5.0 scheint es möglich, eigene zu schreiben, UDAF für benutzerdefinierte Aggregationen auf DataFrames: Spark 1.5 DataFrame API-Highlights: Datum/Zeit/String-Handling, Zeit-Abständen, und UDAFs Es ist jedoch unklar ist mir, ob diese Funktionalität unterstützt wird, in die
1
Antworten
Ich möchte Ranges Benutzer-id basiert auf einem Feld. Für den gleichen Wert des Feldes, Rang sollte gleich sein. Dass Daten in Hive-Tabelle. z.B. user value a 5 b 10 c 5 d 6 Rank a - 1
1
Antworten
Ich die folgenden Operationen durchführen: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs = wordDocs.map(t => t(1)).collect() listDocs: Array [Any] = Array(WrappedArray(123, 234, 205876618, 456)) Meine Frage
1
Antworten
Gibt es eine sql-Funktion in spark sql, die wieder aktuellen Zeitstempel , beispielsweise im impala JETZT() ist die Funktion, welche zurückgibt aktuellen Zeitstempel gibt es ähnlich wie in spark sql ? Dank InformationsquelleAutor sri hari kali charan
2
Antworten
Hab ich geladen ein DataFrame von einer SQL Server-Tabelle. Es sieht wie folgt aus: >>> df.show() +--------------------+----------+ | timestamp| Value | +--------------------+----------+ |2015-12-02 00:10:...| 652.8| |2015-12-02 00:20:...| 518.4| |2015-12-02 00:30:...| 524.6| |2015-12-02 00:40:...| 382.9| |2015-12-02 00:50:...| 461.6|
1
Antworten
Ich würde gerne eine Aktion durchführen, die auf eine einzelne Spalte. Leider, nachdem ich die Transformation, die Spalte, es ist jetzt nicht mehr Teil der dataframe es kam aber ein Column-Objekt. Als solche, es kann nicht gesammelt
1
Antworten
Ich versuche zu schreiben dataframe in spark zu einem HDFS-Lage, und ich erwarte, dass wenn ich hinzufüge, die partitionBy notation Funke partition erstellen (ähnlich wie beim schreiben in Parkett-format) Ordner in form von partition_column_name=partition_value ( ich.e partition_date=2016-05-03).
2
Antworten
Bin ich mit Spark 1.3 und würde gerne mitmachen auf mehreren Spalten über die python-Schnittstelle (SparkSQL) Folgende Werke: Ich zunächst registrieren Sie als temporäre Tabellen. numeric.registerTempTable("numeric") Ref.registerTempTable("Ref") test = numeric.join(Ref, numeric.ID == Ref.ID, joinType='inner') Ich würde nun
2
Antworten
Code Spark mit SparkSession. import org.apache.spark.SparkConf import org.apache.spark.SparkContext val conf = SparkSession.builder .master("local") .appName("testing") .enableHiveSupport() //<- enable Hive support. .getOrCreate() Code pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.cms.spark</groupId> <artifactId>cms-spark</artifactId> <version>0.0.1-SNAPSHOT</version> <name>cms-spark</name> <pluginRepositories> <pluginRepository> <id>scala-tools.org</id> <name>Scala-tools Maven2
1
Antworten
Ich habe einen dataframe df mit 9000 eindeutige ids. wie | id | 1 2 Möchte ich zum generieren einer Zufallsstichprobe mit Ersatz diese 9000-ids 100000 mal. Wie mache ich es in pyspark Versuchte ich df.sample(True,0.5,100) Aber
1
Antworten
Ich bin mit pyspark, laden eine große csv-Datei in einem dataframe mit Funken -, csv -, und als pre-processing Schritt, den ich anwenden müssen, eine Vielzahl von Operationen, um die verfügbaren Daten in einer der Spalten (enthält
1
Antworten
Habe ich ein Python-dictionary : dic = { (u'aaa',u'bbb',u'ccc'):((0.3, 1.2, 1.3, 1.5), 1.4, 1), (u'kkk',u'ggg',u'ccc',u'sss'):((0.6, 1.2, 1.7, 1.5), 1.4, 2) } Ich umwandeln möchte dieses Wörterbuch zu entfachen, DataFrame mit den Spalten : ['key', 'val_1', 'val_2', 'val_3',
4
Antworten
Ich möchte eine JSON von einer Spark-v. 1.6 (mit scala) dataframe. Ich weiß, dass es die einfache Lösung zu tun df.toJSON. Allerdings ist mein problem etwas anders aussieht. Betrachten Sie zum Beispiel einen dataframe mit den folgenden
3
Antworten
Apache Spark DataFrameReader.json() verarbeiten kann gzipped JSONlines Dateien automatisch, aber es scheint nicht zu einem Weg, um DataFrameWriter.json() zu schreiben komprimiert JSONlines-Dateien. Die zusätzliche Netzwerk-I/O ist sehr teuer in der cloud. Gibt es einen Weg um dieses
3
Antworten
Habe schon beides ausprobiert, aber es funktioniert gleich Beispiel val items = List(1, 2, 3) mit filter employees.filter($"emp_id".isin(items:_*)).show verwenden, wo employees.where($"emp_id".isin(items:_*)).show Ergebnis ist dasselbe für die beiden +------+------+------+-------+------+-------+ |EMP_ID|F_NAME|SALARY|DEPT_ID|L_NAME|MANAGER| +------+------+------+-------+------+-------+ | 6| E6| 2000| 4| L6| 2|
3
Antworten
Im Versuch zu speichern ein Funke DataFrame (mehr als 20G) auf eine einzige json-Datei in Amazon S3, mein code zum speichern der dataframe ist wie folgt : dataframe.repartition(1).save("s3n://mybucket/testfile","json") Aber ich bin immer ein Fehler von S3 "Ihr
4
Antworten
Ich habe eine Spark-dataframe mit mehreren Spalten. Ich möchte eine Spalte hinzufügen, die auf der dataframe, die eine Summe einer bestimmten Anzahl von Spalten. Beispielsweise meine Daten sieht wie folgt aus: ID var1 var2 var3 var4 var5
4
Antworten
Beispielsweise das Ergebnis dieser: df.filter("project = 'en'").select("title","count").groupBy("title").sum() wäre ein Array zurückgeben. How to save a spark DataFrame als csv-Datei auf der Festplatte ? btw dies nicht gibt ein array zurück, sondern ein DataFrame! Referenz Wenn die Antwort
1
Antworten
Ich bin ganz neu zu entfachen, und habe folgende Probleme: wenn ich versuche zu importieren SQLContext mit: import org.apache.spark.sql.SQLContext; oder versuchen zu initialisieren SQLContext variable explizit: SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc); Bekomme ich eine Fehlermeldung von Eclipse:
3
Antworten
Alle Datentypen in pyspark.sql.Typen werden: __all__ = [ "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType", "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType", "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"] Ich zu schreiben, ein UDF (in pyspark) gibt ein array von
2
Antworten
Ich bin versucht zu retten, ein DataFrame S3 in pyspark in Spark1.4 mit DataFrameWriter df = sqlContext.read.format("json").load("s3a://somefile") df_writer = pyspark.sql.DataFrameWriter(df) df_writer.partitionBy('col1')\ .saveAsTable('test_table', format='parquet', mode='overwrite') Parkett-Dateien ging an "/tmp/hive/warehouse/...." das ist ein lokales tmp-Verzeichnis auf meinen Fahrer. Habe
4
Antworten
Möchte ich ändern Sie die Werte von Zellen eines dataframe Spalte (Alter), wo es derzeit ist leer und ich würde es nur tun, wenn eine andere Spalte (Überlebt) hat den Wert 0 für die entsprechende Zeile, wo
3
Antworten
Ich erhalte den folgenden Fehler beim starten des spark-sql-shell. Aber wenn ich die shell starten mit dem Befehl funktioniert es ./spark-sql --jars /usr/local/hive/lib/mysql-connector-java.jar Aber wenn ich starten Sie den thrift-server in der gleichen Weise mit unten comamnd
2
Antworten
Ich bin mit Scala und bauen wollen, meine eigene Funktion zu DataFrame. Zum Beispiel möchte ich bei der Behandlung einer Spalte wie ein array Durchlaufen und jedes element, und eine Berechnung. Um zu beginnen, ich bin zu
1
Antworten
Den Namen der Spalten in diesem Beispiel aus der spark-sql-kommen aus der case class Person. case class Person(name: String, age: Int) val people: RDD[Person] = ... //An RDD of case class objects, from the previous example. //The
2
Antworten
Ich habe eine Spark-dataframe folgende Struktur. Die bodyText_token hat das Token (bearbeitet/eingestellt von Wörtern). Und ich habe eine verschachtelte Liste mit den definierten keywords root |-- id: string (nullable = true) |-- body: string (nullable = true)
3
Antworten
Ich versuche, eine Zeile erstellen (org.apache.spark.sql.catalyst.expressions.Row) auf der Grundlage der Benutzereingabe. Ich bin nicht in der Lage, erstellen Sie eine Zeile nach dem Zufallsprinzip. gibt es alle Funktionen zum erstellen einer Reihe von List oder Array. ZB.,
2
Antworten
Habe ich ein einfaches UDF zu konvertieren oder zu extrahieren einige Werte aus einem Feld in ein temptabl in spark. Melde ich die Funktion aber wenn ich den Aufruf der Funktion mit sql wirft es eine NullPointerException.
3
Antworten
Den Spark-Dokumentation veranschaulicht, wie erstellen Sie ein DataFrame von einer RDD, mit Scala case-Klassen zu schließen, ein schema. Ich bin versucht zu reproduzieren, dieses Konzept mit sqlContext.createDataFrame(RDD, CaseClass), aber mein DataFrame endet leer. Hier ist mein Scala-code:
3
Antworten
Beschreibung Gegeben ein dataframe df id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04 Ich möchte erstellen Sie eine laufende Zähler oder index, gruppiert, die von der
1
Antworten
Spark ich will sparen RDD Objekte in die hive-Tabelle. Ich bin versucht, createDataFrame aber das wirft Exception in thread "main" java.lang.NullPointerException val products=sc.parallelize(evaluatedProducts.toList); //here products are RDD[Product] val productdf = hiveContext.createDataFrame(products, classOf[Product]) Bin ich mit Spark 1.5
4
Antworten
val items = List("a", "b", "c") sqlContext.sql("select c1 from table") .filter($"c1".isin(items)) .collect .foreach(println) Den code oben wirft die folgende Ausnahme. Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89)
4
Antworten
Wenn ich wollte eine StructType (d.h. eine DataFrame.schema) aus einem case class gibt es einen Weg, es zu tun, ohne eine DataFrame? Das kann ich leicht tun: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schema Aber es
5
Antworten
Ich versuche, einfügen und aktualisieren von Daten auf MySql mit Spark SQL DataFrames und JDBC-Verbindung. Ich habe erfolgreich das einfügen neuer Daten mit dem SaveMode.Append. Gibt es eine Möglichkeit, die Daten zu aktualisieren, die bereits in der
1
Antworten
Ich versuche zu erstellen, die eine RDD-der Fall Objekte der Klasse. ZB., //sqlContext from the previous example is used in this example. //createSchemaRDD is used to implicitly convert an RDD to a SchemaRDD. import sqlContext.createSchemaRDD val people:
2
Antworten
Ist es möglich, zum Lesen von Daten aus Microsoft Sql Server (oracle, mysql, etc.) in einer rdd in einer Spark-Applikation? Oder brauchen wir zum erstellen einer in-memory-set und parallize, dass in ein RDD? dies ist gonna be
2
Antworten
Habe ich gebraucht, die das verknüpfen von Tabellen mit Spark SQL oder Dataframe API. Müssen wissen, was hätte optimiert werden, so erreichen wir es. Szenario ist: Alle Daten in Hive in ORC-format (Base-Dataframe-und Referenz-Dateien). Ich brauche um
3
Antworten
Habe ich konfiguriert Hive (1.13.1) mit Spark (1.4.0) und ich bin in der Lage, den Zugriff auf alle Datenbanken und die Tabelle von Bienenstock und mein warehouse-Verzeichnis ist hdfs://192.168.1.17:8020/user/hive/warehouse Aber wenn, bin ich versucht zu retten, ein
2
Antworten
Ich habe eine Frage zu stellen, Ich habe einen dataframe, wie die folgenden In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5
3
Antworten
Mein Verständnis war, dass die Funke ist eine alternative zu Hadoop. Jedoch, wenn Sie versuchen zu installieren Funke, der Seite installation fragt nach einer bestehenden Hadoop-installation. Ich bin nicht in der Lage, etwas zu finden, die verdeutlicht,
2
Antworten
Mein Datensatz sieht wie folgt aus: KEY |Event_Type | metric | Time 001 |event1 | 10 | 2016-05-01 10:50:51 002 |event2 | 100 | 2016-05-01 10:50:53 001 |event3 | 20 | 2016-05-01 10:50:55 001 |event1 | 15
3
Antworten
Diese sollte einfach sein, aber....mit Spark 1.6.1.... Ich habe DataFrame #1 mit den Spalten A, B, C. Mit den Werten: A B C 1 2 A 2 2 A 3 2 B 4 2 C Ich dann
4
Antworten
Ich würde gerne zum speichern von Daten in einer Spark (v 1.3.0) dataframe, um eine Hive-Tabelle mit PySpark. Den Dokumentation Staaten: "der Funke.sql.hive.convertMetastoreParquet: Wenn auf false gesetzt, Spark SQL verwenden Sie die Hive-SerDe für Parkett-Tabellen anstelle der
2
Antworten
Habe ich dataframe, in denen ich über 1000 ( variable) Spalten. Möchte ich alle Werte in Großbuchstaben angegeben werden. Hier ist der Ansatz, den ich gedacht haben , können Sie vorschlagen, ist dies beste Art und Weise.