Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

2 Antworten

Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

Was ist der Unterschied zwischen spark ' s shuffle Lesen und shuffle schreiben?

2 Antworten

Muss ich laufen, eine spark-Programm, das hat eine riesige Menge an Daten. Ich bin versucht zu optimieren, das spark-Programm und die durch spark-UI und versucht, um den Shuffle-Teil. Gibt es paar der genannten Komponenten, shuffle Lesen und

apache-spark apache-spark-sql

PySpark - Split/Filter DataFrame Spalte Werte

2 Antworten

Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...

apache-spark apache-spark-sql dataframe pyspark python

Wie UND-oder oder-Bedingung in der wenn in der Funke

1 Antworten

Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von

apache-spark apache-spark-sql pyspark

speichern dataframe als externe hive-Tabelle

3 Antworten

Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar

apache-spark apache-spark-sql hive spark-dataframe

DataFrame / Dataset groupBy-Verhalten/ - Optimierung

1 Antworten

Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe

apache-spark apache-spark-dataset apache-spark-sql dataframe performance

Verständnis Funke physischen plan

2 Antworten

Ich versuche zu verstehen, physischen Pläne der Funke-aber ich bin nicht zu verstehen, einige Teile, weil Sie scheinen, unterscheiden sich von traditionellen rdbms. Zum Beispiel, in diesem plan unten, es ist ein plan über eine Abfrage über

apache-spark apache-spark-sql catalyst query-optimization sql

Zeppelin Dynamische Form, Drop-Down-Wert in SQL

2 Antworten

Ich habe ein dropdown-element in meinem Zeppelin notebook val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) Möchte ich den Wert dieser variable instrument in meiner sql. Für z.B., meine nächsten Absatz das notebook enthält %sql select

apache-spark apache-spark-sql apache-zeppelin dynamic-forms

Apache Spark, createDataFrame Beispiel in Java mit List<?> als erstes argument

2 Antworten

Kann mir jemand ein Beispiel geben von java-Implementierung von public DataFrame createDataFrame(java.util.List<?> data,java.lang.Class<?> beanClass) Funktion, wie bereits in Spark JavaDoc? Habe ich eine Liste von JSON-strings, die ich bin übergeben Sie als erstes argument und damit bin

apache-spark apache-spark-sql java

Tut spark-predicate-pushdown-Arbeit mit JDBC?

1 Antworten

Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für

apache-spark apache-spark-sql jdbc pyspark python

Wie kann ich eine for-Schleife zu parallelisieren, in der Funke mit scala?

2 Antworten

Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val

apache-spark apache-spark-sql scala spark-dataframe

SparkSQL Fehler bei der Verwendung von SQL-DATE-Funktion

2 Antworten

Spark ich versuche zum ausführen von SQL-Abfragen über eine temporäre Tabelle, abgeleitet von einem Daten-frame, die ich manuell gebaut, durch das Lesen einer csv-Datei und die Umwandlung der Spalten in den richtigen Datentyp. Insbesondere die Tabelle, die

apache-spark apache-spark-sql scala sql

Gewusst wie: übergeben von Variablen in spark SQL mit python?

2 Antworten

Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir

apache-spark apache-spark-sql pyspark python

FEHLER Vollzieher: Ausnahme, die im task-0.0 Bühne 6.0 Funke scala?

1 Antworten

Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data

apache-spark apache-spark-sql scala spark-dataframe user-defined-functions

Outer-join-Spark-dataframe mit nicht-identischen join-Spalte und dann merge join-Spalte

3 Antworten

Angenommen ich habe die folgenden dataframes in pySpark: df1 = sqlContext.createDataFrame([Row(name='john', age=50), Row(name='james', age=25)]) df2 = sqlContext.createDataFrame([Row(name='john', weight=150), Row(name='mike', weight=115)]) df3 = sqlContext.createDataFrame([Row(name='john', age=50, weight=150), Row(name='james', age=25, weight=None), Row(name='mike', age=None, weight=115)]) Nun angenommen, ich möchte zu erstellen

apache-spark apache-spark-sql join python

PySpark - das Hinzufügen einer Spalte aus einer Liste von Werten mithilfe einer UDF

5 Antworten

Habe ich auf Spalte hinzufügen, um eine PySpark dataframe auf der Grundlage einer Liste von Werten. a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) Habe ich eine Liste namens rating, die Bewertung jedes Haustier. rating = [5,4,1]

apache-spark-sql list pyspark python user-defined-functions

Wie man der letzten Zeile des DataFrame?

6 Antworten

Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun? dies ist mein input: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| 2|

apache-spark apache-spark-sql scala spark-dataframe

Wie berechne Perzentil der Spalte in einen DataFrame in der Funke?

2 Antworten

Ich versuche zu berechnen Perzentil einer Spalte in einem DataFrame? Ich kann nicht finden, percentile_approx Funktion in der Funke-aggregation-Funktionen. Z.B. im Hive-wir haben percentile_approx und wir können es verwenden, in der folgenden Weise hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

apache-spark apache-spark-sql scala spark-dataframe

Wie erstellen Sie eine Beispiel-Spark-dataFrame in Python?

4 Antworten

Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb

apache-spark apache-spark-sql pyspark

Was ist falsch mit spark sql substring-Funktion?

1 Antworten

Verlangt keine Erklärung. Aber könnte mir jemand beschreiben, der die Logik hinter dem pos-parameter von substring, weil ich nicht den Sinn dieses (Mit Spark 2.1): scala> val df = Seq("abcdef").toDS() df: org.apache.spark.sql.Dataset[String] = [value: string] scala> df.show

apache-spark-sql spark-dataframe

Berechnen Sie die Zeit zwischen zwei Datumsangaben in pyspark

2 Antworten

Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from

apache-spark apache-spark-sql pyspark

java.lang.ClassNotFoundException: org.apache.spark.sql.Dataset

3 Antworten

Wenn Sie eine Scala-Datei, die verwendet die Spark Dataset geben, bekomme ich folgenden stack trace: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/Dataset at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at com.intellij.rt.execution.application.AppMain.main(AppMain.java:125) Caused by: java.lang.ClassNotFoundException:

apache-spark apache-spark-sql scala

Wie man mehrere Zeilen json-Datei In Einzelne Datensatz als rdd

3 Antworten

rdd=sc.textFile(json or xml) rdd.collect() [u'{', u' "glossary": {', u' "title": "example glossary",', u'\t\t"GlossDiv": {', u' "title": "S",', u'\t\t\t"GlossList": {', u' "GlossEntry": {', u' "ID": "SGML",', u'\t\t\t\t\t"SortAs": "SGML",', u'\t\t\t\t\t"GlossTerm": "Standard Generalized Markup Language",', u'\t\t\t\t\t"Acronym": "SGML",', u'\t\t\t\t\t"Abbrev": "ISO 8879:1986",',

apache-spark apache-spark-sql

Nicht zu vergleichen zwei Daten in Spark SQL-Abfrage

1 Antworten

Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:

apache-spark apache-spark-sql pyspark

Holen Sie sich die Größe/Länge eines array-Spalte

1 Antworten

Ich bin neu in der Scala-Programmierung und hier ist meine Frage: Wie zählen Sie die Anzahl der string für jede Zeile? Mein Dataframe besteht aus einer einzelnen Spalte des Array[String] Typ. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>] InformationsquelleAutor

apache-spark apache-spark-sql databricks scala

Top Werte aus einer spark-dataframe Spalte in Scala

3 Antworten

val df = sc.parallelize(Seq((201601, a), (201602, b), (201603, c), (201604, c), (201607, c), (201604, c), (201608, c), (201609, c), (201605, b))).toDF("col1", "col2") Ich will top-3-Werte col1. Kann jeder bitte lassen Sie mich wissen, die bessere Möglichkeit, dies

apache-spark apache-spark-sql scala spark-dataframe

argmax Zündkerzen DataFrames: so rufen Sie die Zeile mit dem maximalen Wert

2 Antworten

Gegeben ein Funken DataFrame df möchte ich den maximalen Wert in einem bestimmten numerischen Spalte 'values' ist, und die Zeile(N), wo dieser Wert erreicht wurde. Ich kann natürlich dabei: # it doesn't matter if I use scala

apache-spark apache-spark-sql

Wie zu subtrahieren einer Spalte von Tage aus eine Spalte mit Datumsangaben in Pyspark?

4 Antworten

Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in

apache-spark apache-spark-sql pyspark python user-defined-functions

Wie man Schlüssel und Werte aus MapType Spalte in SparkSQL DataFrame

2 Antworten

Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)

apache-spark apache-spark-dataset apache-spark-sql dataframe scala

SparkException: Werte zu montieren kann nicht null sein

1 Antworten

Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden

apache-spark apache-spark-ml apache-spark-sql

IF-Anweisung Pyspark

2 Antworten

Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

apache-spark apache-spark-sql if-statement pyspark pyspark-sql

cache-Tabellen in apache spark sql

1 Antworten

Vom Funken offizielle Dokument, es sagt: Spark SQL können die cache-Tabellen mit einer in-memory-Spaltenformat von Aufruf sqlContext.cacheTable("tableName") oder dataFrame.cache(). Dann Spark SQL-Scannen wird nur benötigt, Spalten und automatisch optimieren Komprimierung zum minimieren der Speichernutzung und der GC-Druck.

apache-spark apache-spark-sql caching

Data type mismatch, während die Umwandlung von Daten in spark-dataset

1 Antworten

Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

apache-spark apache-spark-dataset apache-spark-sql java parquet

org.apache.spark.SparkException: Fehler beim ausführen der benutzerdefinierten Funktion

1 Antworten

Ich neu in scala und ich bin versucht, führen Sie den folgenden code: val SetID = udf{(c:String, d: String) => if( c.UpperCase.contains("EXKLUS") == true) {d} else {""} } val ParquetWithID = STG1 .withColumn("ID", SetID( col("line_item"), col("line_item_ID"))) beide

apache-spark apache-spark-sql nullpointerexception scala

SparkSQL - Lag-Funktion?

1 Antworten

Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich

apache-spark apache-spark-sql pyspark sql window-functions

zählen von Zeilen des dataframe mit Bedingung in spark

2 Antworten

Ich versuche dieses: df=dfFromJson: {"class":"name 1","stream":"science"} {"class":"name 1","stream":"arts"} {"class":"name 1","stream":"science"} {"class":"name 1","stream":"law"} {"class":"name 1","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} df.groupBy("class").agg(count(col("stream")==="science") as "stream_science", count(col("stream")==="arts") as "stream_arts", count(col("stream")==="law") as "stream_law") Diese nicht

apache-spark apache-spark-sql dataframe json scala

So berechnen Sie die kumulative Summe über sqlContext

4 Antworten

Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es

apache-spark apache-spark-sql pyspark python

pyspark split eine Spalte auf mehrere Spalten ohne pandas

1 Antworten

meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es

apache-spark apache-spark-sql pyspark python

Wie die Steuerung der Anzahl von Ausgabe-Dateien erstellt von Spark job beim schreiben?

2 Antworten

Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code

apache-spark apache-spark-sql hive parquet

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

2 Antworten

Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

apache-spark apache-spark-sql pyspark pyspark-sql python

wie Sie zu sammeln, spark sql-Ausgabe in eine Datei?

3 Antworten

Unten ist mein spark sql-Skript lädt eine Datei und verwendet den SQL oben drauf, ich will zu sammeln, die die Ausgabe der sql-Abfrage aus und schreibt Sie in eine Datei, die nicht sicher sind, wie Sie kann

apache-spark apache-spark-sql scala

org.apache.spark.rpc.RpcTimeoutException: Futures-Zeitüberschreitung nach [120 Sekunden]. Dieser timeout wird gesteuert durch Funken.rpc.lookupTimeout

2 Antworten

Immer die folgende Fehlermeldung mit Bezug auf den container, während die Abgabe einer spark-Applikation zu GARN. Die HADOOP(2.7.3)/SPARK (2.1) - Umgebung ausgeführt wird, ein pseudo-distributed mode in einem single-node-cluster. Die Anwendung funktioniert perfekt, wenn gemacht, um die

apache-spark apache-spark-sql hadoop2 yarn

Führen Sie eine typisierte Verknüpfung in Scala mit Funken-Datasets

2 Antworten

Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.

apache-spark apache-spark-dataset apache-spark-sql join scala

Elemente des Typs Struktur der Zeile, die mit Namen SPARK SCALA

1 Antworten

In einem DataFrame-Objekt in Apache Spark (ich bin mit dem Scala-Schnittstelle), wenn ich mich Durchlaufen der Zeilen-Objekte, gibt es eine Möglichkeit, zu extrahieren Struktur der Werte name? Ich bin mit dem folgenden code zu extrahieren, die mit

apache-spark apache-spark-sql scala

spark-sql cast Funktion erzeugt die Spalte mit NULL-Werten

3 Antworten

apache-spark-sql casting scala

Spark - Erstellen Von Verschachtelten DataFrame

3 Antworten

Fange ich mit PySpark und ich habe Probleme mit dem erstellen von DataFrames mit verschachtelten Objekten. Dies ist mein Beispiel. Ich habe Benutzer. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} Nutzer haben Aufträge. $ cat order.json {"id":1,"price":202.30,"userid":1} {"id":2,"price":343.99,"userid":1} {"id":3,"price":399.99,"userid":2}

apache-spark apache-spark-sql dataframe pyspark python

Wie verbinden Sie mehrere feature-Vektoren in DataFrame?

1 Antworten

Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die

apache-spark apache-spark-ml apache-spark-sql machine-learning

FUNKE : Fehler: `union" erwartet, aber `(' gefunden

2 Antworten

Ich habe einen dataframe df genannt mit Spalte mit dem Feld "employee_id". Ich bin dabei: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query) Aber immer Folgendes Problem.

apache-spark apache-spark-sql dataframe scala sql

Wie zu Lesen csv in sparkR ver 1.4?

3 Antworten

Als eine neue version von spark (1.4) wurde veröffentlicht schien es zu sein, ein schönes frontend interfeace zu spark aus R Paket namens sparkR. Auf der Dokumentations-Seite für die spark R es ist ein Befehl, der ermöglicht,

apache-spark apache-spark-sql csv r sparkr

How to create schema (StructType) mit einem oder mehreren StructTypes?

2 Antworten

Ich versuche zu erstellen StructType in einem anderen StructType, aber es kann nur zum hinzufügen eines StructField. Ich finde keine Methode zum hinzufügen von StructType zu. Wie erstellen StructType - schema für die folgenden string-Darstellung? struct<abc:struct<name:string>,pqr:struct<address:string>> InformationsquelleAutor

apache-spark apache-spark-sql scala