Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

Anzahl der Antworten 2 Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

Was ist der Unterschied zwischen spark ' s shuffle Lesen und shuffle schreiben?

Anzahl der Antworten 2 Antworten
Muss ich laufen, eine spark-Programm, das hat eine riesige Menge an Daten. Ich bin versucht zu optimieren, das spark-Programm und die durch spark-UI und versucht, um den Shuffle-Teil. Gibt es paar der genannten Komponenten, shuffle Lesen und

PySpark - Split/Filter DataFrame Spalte Werte

Anzahl der Antworten 2 Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...

Wie UND-oder oder-Bedingung in der wenn in der Funke

Anzahl der Antworten 1 Antworten
Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von

speichern dataframe als externe hive-Tabelle

Anzahl der Antworten 3 Antworten
Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar

DataFrame / Dataset groupBy-Verhalten/ - Optimierung

Anzahl der Antworten 1 Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe

Verständnis Funke physischen plan

Anzahl der Antworten 2 Antworten
Ich versuche zu verstehen, physischen Pläne der Funke-aber ich bin nicht zu verstehen, einige Teile, weil Sie scheinen, unterscheiden sich von traditionellen rdbms. Zum Beispiel, in diesem plan unten, es ist ein plan über eine Abfrage über

Zeppelin Dynamische Form, Drop-Down-Wert in SQL

Anzahl der Antworten 2 Antworten
Ich habe ein dropdown-element in meinem Zeppelin notebook val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) Möchte ich den Wert dieser variable instrument in meiner sql. Für z.B., meine nächsten Absatz das notebook enthält %sql select

Apache Spark, createDataFrame Beispiel in Java mit List<?> als erstes argument

Anzahl der Antworten 2 Antworten
Kann mir jemand ein Beispiel geben von java-Implementierung von public DataFrame createDataFrame(java.util.List<?> data,java.lang.Class<?> beanClass) Funktion, wie bereits in Spark JavaDoc? Habe ich eine Liste von JSON-strings, die ich bin übergeben Sie als erstes argument und damit bin

Tut spark-predicate-pushdown-Arbeit mit JDBC?

Anzahl der Antworten 1 Antworten
Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für

Wie kann ich eine for-Schleife zu parallelisieren, in der Funke mit scala?

Anzahl der Antworten 2 Antworten
Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val

SparkSQL Fehler bei der Verwendung von SQL-DATE-Funktion

Anzahl der Antworten 2 Antworten
Spark ich versuche zum ausführen von SQL-Abfragen über eine temporäre Tabelle, abgeleitet von einem Daten-frame, die ich manuell gebaut, durch das Lesen einer csv-Datei und die Umwandlung der Spalten in den richtigen Datentyp. Insbesondere die Tabelle, die

Gewusst wie: übergeben von Variablen in spark SQL mit python?

Anzahl der Antworten 2 Antworten
Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir

FEHLER Vollzieher: Ausnahme, die im task-0.0 Bühne 6.0 Funke scala?

Anzahl der Antworten 1 Antworten
Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data

Outer-join-Spark-dataframe mit nicht-identischen join-Spalte und dann merge join-Spalte

Anzahl der Antworten 3 Antworten
Angenommen ich habe die folgenden dataframes in pySpark: df1 = sqlContext.createDataFrame([Row(name='john', age=50), Row(name='james', age=25)]) df2 = sqlContext.createDataFrame([Row(name='john', weight=150), Row(name='mike', weight=115)]) df3 = sqlContext.createDataFrame([Row(name='john', age=50, weight=150), Row(name='james', age=25, weight=None), Row(name='mike', age=None, weight=115)]) Nun angenommen, ich möchte zu erstellen

PySpark - das Hinzufügen einer Spalte aus einer Liste von Werten mithilfe einer UDF

Anzahl der Antworten 5 Antworten
Habe ich auf Spalte hinzufügen, um eine PySpark dataframe auf der Grundlage einer Liste von Werten. a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) Habe ich eine Liste namens rating, die Bewertung jedes Haustier. rating = [5,4,1]

Wie man der letzten Zeile des DataFrame?

Anzahl der Antworten 6 Antworten
Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun? dies ist mein input: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| 2|

Wie berechne Perzentil der Spalte in einen DataFrame in der Funke?

Anzahl der Antworten 2 Antworten
Ich versuche zu berechnen Perzentil einer Spalte in einem DataFrame? Ich kann nicht finden, percentile_approx Funktion in der Funke-aggregation-Funktionen. Z.B. im Hive-wir haben percentile_approx und wir können es verwenden, in der folgenden Weise hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

Wie erstellen Sie eine Beispiel-Spark-dataFrame in Python?

Anzahl der Antworten 4 Antworten
Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb

Was ist falsch mit spark sql substring-Funktion?

Anzahl der Antworten 1 Antworten
Verlangt keine Erklärung. Aber könnte mir jemand beschreiben, der die Logik hinter dem pos-parameter von substring, weil ich nicht den Sinn dieses (Mit Spark 2.1): scala> val df = Seq("abcdef").toDS() df: org.apache.spark.sql.Dataset[String] = [value: string] scala> df.show

Berechnen Sie die Zeit zwischen zwei Datumsangaben in pyspark

Anzahl der Antworten 2 Antworten
Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from

java.lang.ClassNotFoundException: org.apache.spark.sql.Dataset

Anzahl der Antworten 3 Antworten
Wenn Sie eine Scala-Datei, die verwendet die Spark Dataset geben, bekomme ich folgenden stack trace: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/Dataset at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at com.intellij.rt.execution.application.AppMain.main(AppMain.java:125) Caused by: java.lang.ClassNotFoundException:

Wie man mehrere Zeilen json-Datei In Einzelne Datensatz als rdd

Anzahl der Antworten 3 Antworten
rdd=sc.textFile(json or xml) rdd.collect() [u'{', u' "glossary": {', u' "title": "example glossary",', u'\t\t"GlossDiv": {', u' "title": "S",', u'\t\t\t"GlossList": {', u' "GlossEntry": {', u' "ID": "SGML",', u'\t\t\t\t\t"SortAs": "SGML",', u'\t\t\t\t\t"GlossTerm": "Standard Generalized Markup Language",', u'\t\t\t\t\t"Acronym": "SGML",', u'\t\t\t\t\t"Abbrev": "ISO 8879:1986",',

Nicht zu vergleichen zwei Daten in Spark SQL-Abfrage

Anzahl der Antworten 1 Antworten
Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:

Holen Sie sich die Größe/Länge eines array-Spalte

Anzahl der Antworten 1 Antworten
Ich bin neu in der Scala-Programmierung und hier ist meine Frage: Wie zählen Sie die Anzahl der string für jede Zeile? Mein Dataframe besteht aus einer einzelnen Spalte des Array[String] Typ. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>] InformationsquelleAutor

Top Werte aus einer spark-dataframe Spalte in Scala

Anzahl der Antworten 3 Antworten
val df = sc.parallelize(Seq((201601, a), (201602, b), (201603, c), (201604, c), (201607, c), (201604, c), (201608, c), (201609, c), (201605, b))).toDF("col1", "col2") Ich will top-3-Werte col1. Kann jeder bitte lassen Sie mich wissen, die bessere Möglichkeit, dies

argmax Zündkerzen DataFrames: so rufen Sie die Zeile mit dem maximalen Wert

Anzahl der Antworten 2 Antworten
Gegeben ein Funken DataFrame df möchte ich den maximalen Wert in einem bestimmten numerischen Spalte 'values' ist, und die Zeile(N), wo dieser Wert erreicht wurde. Ich kann natürlich dabei: # it doesn't matter if I use scala

Wie zu subtrahieren einer Spalte von Tage aus eine Spalte mit Datumsangaben in Pyspark?

Anzahl der Antworten 4 Antworten
Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in

Wie man Schlüssel und Werte aus MapType Spalte in SparkSQL DataFrame

Anzahl der Antworten 2 Antworten
Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)

SparkException: Werte zu montieren kann nicht null sein

Anzahl der Antworten 1 Antworten
Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden

IF-Anweisung Pyspark

Anzahl der Antworten 2 Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

cache-Tabellen in apache spark sql

Anzahl der Antworten 1 Antworten
Vom Funken offizielle Dokument, es sagt: Spark SQL können die cache-Tabellen mit einer in-memory-Spaltenformat von Aufruf sqlContext.cacheTable("tableName") oder dataFrame.cache(). Dann Spark SQL-Scannen wird nur benötigt, Spalten und automatisch optimieren Komprimierung zum minimieren der Speichernutzung und der GC-Druck.

Data type mismatch, während die Umwandlung von Daten in spark-dataset

Anzahl der Antworten 1 Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

org.apache.spark.SparkException: Fehler beim ausführen der benutzerdefinierten Funktion

Anzahl der Antworten 1 Antworten
Ich neu in scala und ich bin versucht, führen Sie den folgenden code: val SetID = udf{(c:String, d: String) => if( c.UpperCase.contains("EXKLUS") == true) {d} else {""} } val ParquetWithID = STG1 .withColumn("ID", SetID( col("line_item"), col("line_item_ID"))) beide

SparkSQL - Lag-Funktion?

Anzahl der Antworten 1 Antworten
Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich

zählen von Zeilen des dataframe mit Bedingung in spark

Anzahl der Antworten 2 Antworten
Ich versuche dieses: df=dfFromJson: {"class":"name 1","stream":"science"} {"class":"name 1","stream":"arts"} {"class":"name 1","stream":"science"} {"class":"name 1","stream":"law"} {"class":"name 1","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} df.groupBy("class").agg(count(col("stream")==="science") as "stream_science", count(col("stream")==="arts") as "stream_arts", count(col("stream")==="law") as "stream_law") Diese nicht

So berechnen Sie die kumulative Summe über sqlContext

Anzahl der Antworten 4 Antworten
Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es

pyspark split eine Spalte auf mehrere Spalten ohne pandas

Anzahl der Antworten 1 Antworten
meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es

Wie die Steuerung der Anzahl von Ausgabe-Dateien erstellt von Spark job beim schreiben?

Anzahl der Antworten 2 Antworten
Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

Anzahl der Antworten 2 Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

wie Sie zu sammeln, spark sql-Ausgabe in eine Datei?

Anzahl der Antworten 3 Antworten
Unten ist mein spark sql-Skript lädt eine Datei und verwendet den SQL oben drauf, ich will zu sammeln, die die Ausgabe der sql-Abfrage aus und schreibt Sie in eine Datei, die nicht sicher sind, wie Sie kann

org.apache.spark.rpc.RpcTimeoutException: Futures-Zeitüberschreitung nach [120 Sekunden]. Dieser timeout wird gesteuert durch Funken.rpc.lookupTimeout

Anzahl der Antworten 2 Antworten
Immer die folgende Fehlermeldung mit Bezug auf den container, während die Abgabe einer spark-Applikation zu GARN. Die HADOOP(2.7.3)/SPARK (2.1) - Umgebung ausgeführt wird, ein pseudo-distributed mode in einem single-node-cluster. Die Anwendung funktioniert perfekt, wenn gemacht, um die

Führen Sie eine typisierte Verknüpfung in Scala mit Funken-Datasets

Anzahl der Antworten 2 Antworten
Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.

Elemente des Typs Struktur der Zeile, die mit Namen SPARK SCALA

Anzahl der Antworten 1 Antworten
In einem DataFrame-Objekt in Apache Spark (ich bin mit dem Scala-Schnittstelle), wenn ich mich Durchlaufen der Zeilen-Objekte, gibt es eine Möglichkeit, zu extrahieren Struktur der Werte name? Ich bin mit dem folgenden code zu extrahieren, die mit

spark-sql cast Funktion erzeugt die Spalte mit NULL-Werten

Anzahl der Antworten 3 Antworten
Habe ich Folgendes dataframe und schema in Spark val df = spark.read.options(Map("header"-> "true")).csv("path") scala> df show() +-------+-------+-----+ | user| topic| hits| +-------+-------+-----+ | om| scala| 120| | daniel| spark| 80| |3754978| spark| 1| +-------+-------+-----+ scala> df printSchema

Spark - Erstellen Von Verschachtelten DataFrame

Anzahl der Antworten 3 Antworten
Fange ich mit PySpark und ich habe Probleme mit dem erstellen von DataFrames mit verschachtelten Objekten. Dies ist mein Beispiel. Ich habe Benutzer. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} Nutzer haben Aufträge. $ cat order.json {"id":1,"price":202.30,"userid":1} {"id":2,"price":343.99,"userid":1} {"id":3,"price":399.99,"userid":2}

Wie verbinden Sie mehrere feature-Vektoren in DataFrame?

Anzahl der Antworten 1 Antworten
Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die

FUNKE : Fehler: `union" erwartet, aber `(' gefunden

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe df genannt mit Spalte mit dem Feld "employee_id". Ich bin dabei: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query) Aber immer Folgendes Problem.

Wie zu Lesen csv in sparkR ver 1.4?

Anzahl der Antworten 3 Antworten
Als eine neue version von spark (1.4) wurde veröffentlicht schien es zu sein, ein schönes frontend interfeace zu spark aus R Paket namens sparkR. Auf der Dokumentations-Seite für die spark R es ist ein Befehl, der ermöglicht,

How to create schema (StructType) mit einem oder mehreren StructTypes?

Anzahl der Antworten 2 Antworten
Ich versuche zu erstellen StructType in einem anderen StructType, aber es kann nur zum hinzufügen eines StructField. Ich finde keine Methode zum hinzufügen von StructType zu. Wie erstellen StructType - schema für die folgenden string-Darstellung? struct<abc:struct<name:string>,pqr:struct<address:string>> InformationsquelleAutor