Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
2
Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|
2
Antworten
Muss ich laufen, eine spark-Programm, das hat eine riesige Menge an Daten. Ich bin versucht zu optimieren, das spark-Programm und die durch spark-UI und versucht, um den Shuffle-Teil. Gibt es paar der genannten Komponenten, shuffle Lesen und
2
Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...
1
Antworten
Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von
3
Antworten
Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar
1
Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe
2
Antworten
Ich versuche zu verstehen, physischen Pläne der Funke-aber ich bin nicht zu verstehen, einige Teile, weil Sie scheinen, unterscheiden sich von traditionellen rdbms. Zum Beispiel, in diesem plan unten, es ist ein plan über eine Abfrage über
2
Antworten
Ich habe ein dropdown-element in meinem Zeppelin notebook val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) Möchte ich den Wert dieser variable instrument in meiner sql. Für z.B., meine nächsten Absatz das notebook enthält %sql select
2
Antworten
Kann mir jemand ein Beispiel geben von java-Implementierung von public DataFrame createDataFrame(java.util.List<?> data,java.lang.Class<?> beanClass) Funktion, wie bereits in Spark JavaDoc? Habe ich eine Liste von JSON-strings, die ich bin übergeben Sie als erstes argument und damit bin
1
Antworten
Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für
2
Antworten
Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val
2
Antworten
Spark ich versuche zum ausführen von SQL-Abfragen über eine temporäre Tabelle, abgeleitet von einem Daten-frame, die ich manuell gebaut, durch das Lesen einer csv-Datei und die Umwandlung der Spalten in den richtigen Datentyp. Insbesondere die Tabelle, die
2
Antworten
Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir
1
Antworten
Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data
3
Antworten
Angenommen ich habe die folgenden dataframes in pySpark: df1 = sqlContext.createDataFrame([Row(name='john', age=50), Row(name='james', age=25)]) df2 = sqlContext.createDataFrame([Row(name='john', weight=150), Row(name='mike', weight=115)]) df3 = sqlContext.createDataFrame([Row(name='john', age=50, weight=150), Row(name='james', age=25, weight=None), Row(name='mike', age=None, weight=115)]) Nun angenommen, ich möchte zu erstellen
5
Antworten
Habe ich auf Spalte hinzufügen, um eine PySpark dataframe auf der Grundlage einer Liste von Werten. a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) Habe ich eine Liste namens rating, die Bewertung jedes Haustier. rating = [5,4,1]
6
Antworten
Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun? dies ist mein input: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| 2|
2
Antworten
Ich versuche zu berechnen Perzentil einer Spalte in einem DataFrame? Ich kann nicht finden, percentile_approx Funktion in der Funke-aggregation-Funktionen. Z.B. im Hive-wir haben percentile_approx und wir können es verwenden, in der folgenden Weise hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);
4
Antworten
Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb
1
Antworten
Verlangt keine Erklärung. Aber könnte mir jemand beschreiben, der die Logik hinter dem pos-parameter von substring, weil ich nicht den Sinn dieses (Mit Spark 2.1): scala> val df = Seq("abcdef").toDS() df: org.apache.spark.sql.Dataset[String] = [value: string] scala> df.show
2
Antworten
Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from
3
Antworten
Wenn Sie eine Scala-Datei, die verwendet die Spark Dataset geben, bekomme ich folgenden stack trace: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/Dataset at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at com.intellij.rt.execution.application.AppMain.main(AppMain.java:125) Caused by: java.lang.ClassNotFoundException:
3
Antworten
rdd=sc.textFile(json or xml) rdd.collect() [u'{', u' "glossary": {', u' "title": "example glossary",', u'\t\t"GlossDiv": {', u' "title": "S",', u'\t\t\t"GlossList": {', u' "GlossEntry": {', u' "ID": "SGML",', u'\t\t\t\t\t"SortAs": "SGML",', u'\t\t\t\t\t"GlossTerm": "Standard Generalized Markup Language",', u'\t\t\t\t\t"Acronym": "SGML",', u'\t\t\t\t\t"Abbrev": "ISO 8879:1986",',
1
Antworten
Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:
1
Antworten
Ich bin neu in der Scala-Programmierung und hier ist meine Frage: Wie zählen Sie die Anzahl der string für jede Zeile? Mein Dataframe besteht aus einer einzelnen Spalte des Array[String] Typ. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>] InformationsquelleAutor
3
Antworten
val df = sc.parallelize(Seq((201601, a), (201602, b), (201603, c), (201604, c), (201607, c), (201604, c), (201608, c), (201609, c), (201605, b))).toDF("col1", "col2") Ich will top-3-Werte col1. Kann jeder bitte lassen Sie mich wissen, die bessere Möglichkeit, dies
2
Antworten
Gegeben ein Funken DataFrame df möchte ich den maximalen Wert in einem bestimmten numerischen Spalte 'values' ist, und die Zeile(N), wo dieser Wert erreicht wurde. Ich kann natürlich dabei: # it doesn't matter if I use scala
4
Antworten
Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in
2
Antworten
Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)
1
Antworten
Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden
2
Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|
1
Antworten
Vom Funken offizielle Dokument, es sagt: Spark SQL können die cache-Tabellen mit einer in-memory-Spaltenformat von Aufruf sqlContext.cacheTable("tableName") oder dataFrame.cache(). Dann Spark SQL-Scannen wird nur benötigt, Spalten und automatisch optimieren Komprimierung zum minimieren der Speichernutzung und der GC-Druck.
1
Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");
1
Antworten
Ich neu in scala und ich bin versucht, führen Sie den folgenden code: val SetID = udf{(c:String, d: String) => if( c.UpperCase.contains("EXKLUS") == true) {d} else {""} } val ParquetWithID = STG1 .withColumn("ID", SetID( col("line_item"), col("line_item_ID"))) beide
1
Antworten
Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich
2
Antworten
Ich versuche dieses: df=dfFromJson: {"class":"name 1","stream":"science"} {"class":"name 1","stream":"arts"} {"class":"name 1","stream":"science"} {"class":"name 1","stream":"law"} {"class":"name 1","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} df.groupBy("class").agg(count(col("stream")==="science") as "stream_science", count(col("stream")==="arts") as "stream_arts", count(col("stream")==="law") as "stream_law") Diese nicht
4
Antworten
Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es
1
Antworten
meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es
2
Antworten
Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code
2
Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df
3
Antworten
Unten ist mein spark sql-Skript lädt eine Datei und verwendet den SQL oben drauf, ich will zu sammeln, die die Ausgabe der sql-Abfrage aus und schreibt Sie in eine Datei, die nicht sicher sind, wie Sie kann
2
Antworten
Immer die folgende Fehlermeldung mit Bezug auf den container, während die Abgabe einer spark-Applikation zu GARN. Die HADOOP(2.7.3)/SPARK (2.1) - Umgebung ausgeführt wird, ein pseudo-distributed mode in einem single-node-cluster. Die Anwendung funktioniert perfekt, wenn gemacht, um die
2
Antworten
Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.
1
Antworten
In einem DataFrame-Objekt in Apache Spark (ich bin mit dem Scala-Schnittstelle), wenn ich mich Durchlaufen der Zeilen-Objekte, gibt es eine Möglichkeit, zu extrahieren Struktur der Werte name? Ich bin mit dem folgenden code zu extrahieren, die mit
3
Antworten
Habe ich Folgendes dataframe und schema in Spark val df = spark.read.options(Map("header"-> "true")).csv("path") scala> df show() +-------+-------+-----+ | user| topic| hits| +-------+-------+-----+ | om| scala| 120| | daniel| spark| 80| |3754978| spark| 1| +-------+-------+-----+ scala> df printSchema
3
Antworten
Fange ich mit PySpark und ich habe Probleme mit dem erstellen von DataFrames mit verschachtelten Objekten. Dies ist mein Beispiel. Ich habe Benutzer. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} Nutzer haben Aufträge. $ cat order.json {"id":1,"price":202.30,"userid":1} {"id":2,"price":343.99,"userid":1} {"id":3,"price":399.99,"userid":2}
1
Antworten
Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die
2
Antworten
Ich habe einen dataframe df genannt mit Spalte mit dem Feld "employee_id". Ich bin dabei: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query) Aber immer Folgendes Problem.
3
Antworten
Als eine neue version von spark (1.4) wurde veröffentlicht schien es zu sein, ein schönes frontend interfeace zu spark aus R Paket namens sparkR. Auf der Dokumentations-Seite für die spark R es ist ein Befehl, der ermöglicht,
2
Antworten
Ich versuche zu erstellen StructType in einem anderen StructType, aber es kann nur zum hinzufügen eines StructField. Ich finde keine Methode zum hinzufügen von StructType zu. Wie erstellen StructType - schema für die folgenden string-Darstellung? struct<abc:struct<name:string>,pqr:struct<address:string>> InformationsquelleAutor