Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
1
Antworten
Habe ich Folgendes Funke dataframe : agent_id|payment_amount| +--------+--------------+ | a| 1000| | b| 1100| | a| 1100| | a| 1200| | b| 1200| | b| 1250| | a| 10000| | b| 9000| +--------+--------------+ mein Wunsch Ausgabe wäre
4
Antworten
Aufrufen collect() auf eine RDD wird wieder die gesamte dataset-Treiber, die verursachen können, aus dem Speicher, und wir sollten vermeiden, dass. Wird collect() die gleiche Weise Verhalten, wenn es auf einem dataframe? Was ist mit den select()
2
Antworten
Ich versuche extrahieren Spalte Wert in eine variable, so dass ich den Wert irgendwo anders im code. Ich versuche wie folgt val name= test.filter(test("id").equalTo("200")).select("name").col("name") Gibt es name org.apache.spark.sql.Column = name wie man den Wert? Upvoting, weil, wie
1
Antworten
Zündkerzen 1.6.0 /Scala, ist es eine Gelegenheit, um collect_list("colC") oder collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")? InformationsquelleAutor Dzmitry Haikov | 2017-07-16
2
Antworten
Bin ich mit spark 1.3.1. Muss ich erklären, sc, wenn die Funken laufen in Garn-cluster-Modus? Ich habe kein problem mit der gleichen python-Programm in spark python-shell. Dies ist, wie ich behaupte der job : /bin/spark-submit --master yarn-cluster
3
Antworten
Habe ich Folgendes explodieren-Abfrage, die funktioniert: data1 = sqlContext.sql("select explode(names) as name from data") Will ich explodieren, ein weiteres Feld "Farben", so dass die endgültige Ausgabe könnte das kartesische Produkt von Namen und Farben. Also ich hab:
4
Antworten
Setzen Beispiel-code von DataFrame.groupBy() in meinem code, aber es gezeigt, die Methoden der max() und sum() undefiniert. df.groupBy("department").agg(max("age"), sum("expense")); Welche Java-Paket muss ich importieren, wenn ich Sie benutzen will max() und sum() Methode? Ist die korrekte Syntax,
1
Antworten
Wie bekomme ich eine zufällige Zeile aus einer PySpark DataFrame? Ich sehe nur die Methode sample() nimmt einen Bruch als parameter. Die Einstellung dieser Fraktion zu 1/numberOfRows führt zu zufälligen Ergebnissen, wo ich manchmal keine Zeile. Auf
3
Antworten
Ich habe eine Spalte, die den Typ array < string > im spark-Tabellen. Ich bin mit SQL-Abfrage dieser Funke Tabellen. Ich wollte zu konvertieren, die array < string > in string. Wenn verwendet die folgende syntax: select
2
Antworten
Ich lese eine Datei in PySpark und bilden die rdd. Ich habe dann konvertieren Sie es in einem normalen dataframe und dann zu pandas dataframe. Das Problem, das ich habe, ist, dass es header-Zeile in meine input-Datei
3
Antworten
Ich bin erste Schritte mit Spark. Bin ich immer ein Problem beim starten Funken. Ich heruntergeladen Funke offiziellen website, ich bin versucht, quickstart aus diesem https://spark.apache.org/docs/0.9.0/quick-start.html Habe ich heruntergeladen, setup sparkhome., und wenn ich versuchte, läuft ./pyspark
1
Antworten
in der Mitte des Projekts bin ich immer der Balg Fehler nach dem aufrufen einer Funktion in meinem spark sql-Abfrage ich geschrieben habe, eine Benutzer-Funktion definieren, die zwei string-und concat Sie nach der Verkettung wird es dauern,
1
Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (0, 5, float(10)), (1, 6, float('nan')), (0, 6, float('nan'))], ('session', "timestamp1", "id2")) +-------+----------+----+ |session|timestamp1| id2| +-------+----------+----+ | 1|
3
Antworten
Habe ich gelesen, die eine JSON-Datei in Spark. Diese Datei hat die folgende Struktur: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable =
4
Antworten
Möchte ich Lesen, json-oder xml-Datei in pyspark.lf meine Datei ist aufgeteilt in mehrere line-in rdd= sc.textFIle(json or xml) Eingang { " employees": [ { "firstName":"John", "lastName":"Doe" }, { "firstName":"Anna" ] } Eingabe auf mehrere Zeilen verteilt. Erwartete
1
Antworten
Habe ich die Daten im dataframe wie folgt: datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 |
2
Antworten
Möchte ich filter auf eine Spalte einer RDD Quelle : val source = sql("SELECT * from sample.source").rdd.map(_.mkString(",")) val destination = sql("select * from sample.destination").rdd.map(_.mkString(",")) val source_primary_key = source.map(rec => (rec.split(",")(0))) val destination_primary_key = destination.map(rec => (rec.split(",")(0))) val
2
Antworten
Ich geschrieben habe, der code für den Zugriff auf die Hive-Tabelle mit SparkSQL. Hier ist der code: SparkSession spark = SparkSession .builder() .appName("Java Spark Hive Example") .master("local[*]") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); Dataset<Row> df = spark.sql("select survey_response_value from
4
Antworten
Habe ich versucht den code unten und nicht importieren sqlContext.implicits._ - es wirft einen Fehler (in der Scala IDE), nicht um den code zu erstellen: Wert implicits ist nicht ein Mitglied der org.apache.spark.sql.SQLContext Muss ich hinzufügen, alle
1
Antworten
Kontext: ich habe eine DataFrame mit 2 Spalten: Wort und Vektor. Wo die Spalte Typ "vector" ist VectorUDT. Beispiel: word | vector assert | [435,323,324,212...] Und ich will diesen: word | v1 | v2 | v3 |
2
Antworten
Arbeiten mit Spark dataframes importiert aus dem Bienenstock, manchmal ich am Ende mit mehreren Spalten, die ich nicht brauche. Angenommen, ich will nicht, Sie zu filtern, mit df = SqlContext.sql('select cols from mytable') und ich bin das
1
Antworten
Ich bin neu in Apache Spark 1.3.1. Wie konvertiere ich eine JSON-Datei zu Parkett? Sie können auch mithilfe von Apache Drill (vielleicht leichter zu setup), können Sie konvertieren von JSON aus einem lokalen Dateisystem HDFS-Parkett in 1
2
Antworten
Bin ich mit Spark SQL mit dataframes. Ich habe ein Eingabe-dataframe, und ich möchte anfügen (oder einfügen) seine Zeilen auf eine größere dataframe, hat mehr Spalten. Wie soll ich das tun? Wenn das SQL würde ich INSERT
1
Antworten
Ich bin ganz neu bei pyspark und bin versucht, es zu verarbeiten, ein großes dataset, das ist als csv-Datei gespeichert. Ich möchte Lesen CSV-Datei in spark dataframe, fallen einige Spalten, neue Spalten hinzuzufügen. Wie soll ich das
1
Antworten
Ich versuche, die filter eines dataframe gegen den anderen: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id") Nun möchte ich filter df1 und wieder ein dataframe enthält alle
1
Antworten
Ich bin neu zu entfachen, SQL und versuche zu konvertieren einen string in ein timestamp in einer spark-Daten-frame. Ich habe einen string, der sieht aus wie '2017-08-01T02:26:59.000Z' in einer Spalte namens " time_string Meinen code zu konvertieren
4
Antworten
Die Frage ist so ziemlich im Titel: gibt es eine effiziente Art zu zählen der eindeutigen Werte in jeder Spalte in einem DataFrame? Den beschreiben Methode liefert nur die Anzahl aber nicht die distinct-count, und ich Frage
2
Antworten
Ich versuche zu konvertieren, einen Daten-frame zu RDD, dann einige Operationen, unter zurück-Tupeln: df.rdd.map { t=> (t._2 + "_" + t._3 , t) }.take(5) Dann bekam ich den folgenden Fehler. Jemand irgendwelche Ideen? Danke! <console>:37: error: value
2
Antworten
Ich würde gerne wissen, ob spark.sql.autoBroadcastJoinThreshold Eigenschaft kann nützlich sein für die übertragung kleinerer Tisch auf alle worker nodes (während der join), auch wenn die join-Schema ist über die Dataset API-Verknüpfung anstelle der Verwendung von Spark-SQL. Wenn
2
Antworten
Ich freue mich auf die Fenster slide-Funktion für eine Spark-DataFrame in Spark SQL, Scala. Ich habe einen dataframe mit den Spalten Col1,Col1,Col1,Datum. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 201604
1
Antworten
Möchte ich Sie zum auswählen mehrerer Spalten aus vorhandenen dataframe (die erstellt wird, nachdem joins) und möchte, um die fileds, die als mein Ziel-Tabelle Struktur. Wie kann es getan werden ? Der sich näherte, die ich benutzt
3
Antworten
Ich habe eine DataFrame mit Timestamp Spalte, die ich brauche, um zu konvertieren, wie Date format. Gibt es eine Spark-SQL-Funktionen zur Verfügung? InformationsquelleAutor Shankar | 2016-11-17
5
Antworten
Ich bin erkunden Funke für die batch-Verarbeitung. Ich bin mit der Funke auf meinem lokalen Rechner mit standalone-Modus. Ich versuche zu konvertieren, der Funke RDD als einzelne Datei [endgültige Ausgabe] mit saveTextFile () - Methode, aber es
1
Antworten
Kommen R, ich bin verwendet, um einfach zu tun, Operationen auf Spalten. Gibt es einen einfachen Weg, um diese Funktion, die ich geschrieben habe in scala def round_tenths_place( un_rounded:Double ) : Double = { val rounded =
3
Antworten
Habe ich registertemptable im Apache Spark mit Zeppelin unten: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => s.split(",")).filter(s => s(0) != "Date").map( s =>
2
Antworten
Wie zu verwenden Spark SQL-filter als groß-und Kleinschreibung filter. Beispiel: dataFrame.filter(dataFrame.col("vendor").equalTo("fortinet")); nur die Rückgabe von Zeilen, die 'vendor' Spalte ist gleich 'fortinet' aber ich möchte die Zeilen, die 'vendor' Spalte gleich 'fortinet' oder 'Fortinet' oder 'foRtinet' oder
6
Antworten
Habe ich mich gefragt, diese Frage bisher auch, aber nicht bekam keine Antwort (Nicht in der Lage, eine Verbindung zu PostgreSQL mit jdbc in pyspark shell). Habe ich erfolgreich installiert Spark 1.3.0 auf meinem lokalen windows und
3
Antworten
Binden von Variablen in Apache Spark SQL? Zum Beispiel: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("SELECT * FROM src WHERE col1 = ${VAL1}").collect().foreach(println) InformationsquelleAutor user3769729 | 2014-11-05
2
Antworten
Ist eine Tabelle registriert mit registerTempTable (createOrReplaceTempView mit Funke 2.+) zwischengespeichert? Verwendung von Zeppelin, registriere ich eine DataFrame in mein scala-code, nach der Berechnung, und dann innerhalb %pyspark ich darauf zugreifen möchten, und weitere filter. Wird es
3
Antworten
Habe ich einen Funken DataFrame df mit fünf Spalten. Ich möchte eine weitere Spalte hinzufügen, die mit den Werten die Tupel der ersten und zweiten Spalten. Bei der Verwendung mit withColumn() Methode bekomme ich den Fehler, weil
2
Antworten
Was ist der Unterschied zwischen DataFrame repartition() und DataFrameWriter partitionBy() Methoden? Ich hoffe, beide werden benutzt, um "partition Daten basierend auf dataframe Spalte"? Oder gibt es da einen Unterschied? InformationsquelleAutor Shankar | 2016-11-04
4
Antworten
Ich schaute auf die Dokumente, und es sagt, dass die folgenden join-Typen werden unterstützt: Art der Verknüpfung durchführen. Standard-innere. Muss man: innere, cross, äußerer, voller, full_outer, Links, left_outer, rechts, right_outer, left_semi, left_anti. Ich schaute auf die StackOverflow-Antwort
7
Antworten
Benutze ich spark-shell zu tun, die unten angegebenen Operationen. Kürzlich geladen eine Tabelle mit einem array-Spalte in der Funke-sql . Hier ist der DDL für das gleiche: create table test_emp_arr{ dept_id string, dept_nm string, emp_details Array<string> }
2
Antworten
Ich versuche, mit Spark SQL zu schreiben parquet Datei. Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo. Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für
2
Antworten
Muss ich meine konvertieren dataframe zu einem dataset, und ich verwendete den folgenden code: val final_df = Dataframe.withColumn( "features", toVec4( //casting into Timestamp to parse the string, and then into Int $"time_stamp_0".cast(TimestampType).cast(IntegerType), $"count", $"sender_ip_1", $"receiver_ip_2" ) ).withColumn("label",
2
Antworten
Wenn ich die Abfrage ausführen sql via spark-senden und Funken-sql, entsprechende spark-Anwendung schlägt immer fehl, mit der Fehlermeldung folgt: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://sparkDriver@slave75:60697/user/HeartbeatReceiver 15/03/10 18:52:08 ERROR executor.CoarseGrainedExecutorBackend: Driver Disassociated [akka.tcp://sparkExecutor@slave79:35643] -> [akka.tcp://sparkDriver@slave75:60697] disassociated!
2
Antworten
Ich bin mit der Funke Scala-API. Ich habe eine Spark SQL DataFrame (Lesen aus einer Avro-Datei) mit folgendem schema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key:
4
Antworten
Vom PySpark SQL dataframe wie name age city abc 20 A def 30 B Wie man die Letzte Zeile.(Wie von df.limit(1) ich kann die erste Zeile des dataframe in neuen dataframe). Und wie kann ich auf die
2
Antworten
Programmierung mit pyspark auf eine Spark-cluster, die Daten ist groß und in Stücke, so kann nicht in den Speicher geladen, oder überprüfen Sie die Vernunft der Daten leicht im Grunde sieht es aus wie af.b Current%20events 1
4
Antworten
Habe ich zwei DataFrame a und b. a ist wie Column 1 | Column 2 abc | 123 cde | 23 b ist wie Column 1 1 2 Ich möchte zip - a und b (oder sogar