Tag: pyspark-sql

Verwenden Sie dieses tag für Fragen rund um das SQL-Modul in PySpark.

Fall, wenn-statement mit IN-Klausel in Pyspark

1 Antworten

Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe

PySpark, Konvertieren Sie die Liste der Zeilen, um Daten-Frames

1 Antworten

Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt

apache-spark pyspark pyspark-sql python

IF-Anweisung Pyspark

2 Antworten

Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

apache-spark apache-spark-sql if-statement pyspark pyspark-sql

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

2 Antworten

Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

apache-spark apache-spark-sql pyspark pyspark-sql python

Wie zu verwenden matplotlib Grundstück pyspark sql-Ergebnisse

1 Antworten

Ich bin neu pyspark. Ich will Handlung und das Ergebnis mit matplotlib, aber nicht sicher sind, welche Funktion zu verwenden. Ich suchte nach einem Weg, um konvertieren von sql-Ergebnis auf pandas und verwenden Sie dann plot. Hallo

matplotlib pandas pyspark-sql python

Wie, um die Anzahl der Partitionen/Knoten beim importieren von Daten in die Funke

3 Antworten

Problem: ich die Daten importieren wollen in Spark EMR-S3 Verwendung: data = sqlContext.read.json("s3n://.....") Gibt es eine Möglichkeit, ich kann die Anzahl der Knoten, die Funken verwendet, um laden und Prozess die Daten? Dies ist ein Beispiel, wie

apache-spark database-partitioning pyspark-sql sql

Pyspark dataframe: Summieren über eine Spalte, während die Gruppierung über die andere

2 Antworten

Ich habe eine Frage zu stellen, Ich habe einen dataframe, wie die folgenden In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5

apache-spark-1.3 apache-spark-sql pyspark pyspark-sql python

Wie Spalte filter auf Werte in der Liste in pyspark?

1 Antworten

Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

Pyspark DataFrame UDF auf Text-Spalte

3 Antworten

Ich versuche zu tun, einige NLP-text bereinigen einiger Unicode-Spalten in einer PySpark DataFrame. Ich habe versucht, in der Spark-1.3, 1.5 und 1.6 und kann nicht scheinen, um die Dinge zu arbeiten, für das Leben von mir. Ich

apache-spark apache-spark-sql pyspark pyspark-sql python

Median / Quantile innerhalb PySpark groupBy

3 Antworten

Ich würde gerne berechnen, Gruppe Quantile auf einer Spark-dataframe (mit PySpark). Entweder eine Ungefähre oder genaue Ergebnis wäre in Ordnung. Ich bevorzuge eine Lösung, die ich verwenden kann, im Rahmen der groupBy /agg, so dass ich kann

apache-spark apache-spark-sql pyspark pyspark-sql

Die Anwendung einer Fenster-Funktion zu berechnen, die Unterschiede in pySpark

2 Antworten

Ich bin mit pySpark, und haben mein dataframe mit zwei Spalten, in denen täglich ein Vermögenswert Preis wie folgt: ind = sc.parallelize(range(1,5)) prices = sc.parallelize([33.3,31.1,51.2,21.3]) data = ind.zip(prices) df = sqlCtx.createDataFrame(data,["day","price"]) Den ich nach der Anwendung df.show():

pyspark pyspark-sql spark-dataframe window-functions

Wie konvertieren von Typ Zeile in den Vektor zu füttern, um die KMeans

2 Antworten

wenn ich versuche zu füttern df2 zu kmeans, bekomme ich folgenden Fehler clusters = KMeans.train(df2, 10, maxIterations=30, runs=10, initializationMode="random") Den Fehler bekomme ich: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector df2 ist ein dataframe erstellt wie folgt:

apache-spark apache-spark-mllib k-means pyspark pyspark-sql

So erstellen Sie eine Tabelle auswählen, in pyspark.sql

2 Antworten

Ist es möglich, erstellen Sie eine Tabelle auf spark mit einer select-Anweisung? Ich den folgenden import findspark findspark.init() import pyspark from pyspark.sql import SQLContext sc = pyspark.SparkContext() sqlCtx = SQLContext(sc) spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv") spark_df.registerTempTable("my_table") sqlCtx.sql("CREATE TABLE

apache-spark pyspark pyspark-sql python

Zu versuchen, eine Verbindung zu Oracle von Spark

2 Antworten

Ich versuche eine Verbindung zu Oracle zu Funken und wollen, ziehen Sie Daten von einigen Tabellen und SQL-Abfragen. Aber ich bin nicht in der Lage, eine Verbindung zu Oracle. Ich habe versucht, verschiedene arbeiten rund Optionen, aber

apache-spark-sql oracleclient pyspark-sql

Probleme Mit Pyspark Round-Funktion

1 Antworten

Habe einige Mühe, die round-Funktion in pyspark zu arbeiten - ich habe den untenstehenden code-block, wo ich bin versuchen, um die new_bid Spalte auf 2 Dezimalstellen genau und benennen Sie die Spalte als bid danach - ich

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

Pyspark - Datei Laden: Pfad nicht vorhanden ist

1 Antworten

Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob

amazon-emr apache-spark emr pyspark pyspark-sql

Wie kann ich festlegen, eine leere dataframe in Pyspark, und fügen Sie die entsprechenden dataframes?

4 Antworten

So, ich möchte Lesen Sie die csv-Dateien aus einem Verzeichnis, wie einem pyspark dataframe und fügen Sie diese in einzelne dataframe. Nicht immer sind die alternative für diese in pyspark, die Art, wie wir in pandas. Z.B.

pyspark pyspark-sql

Sie Spalten auswählen, die in Pyspark Dataframe

5 Antworten

Ich bin auf der Suche nach einem Weg, um wählen Sie Spalten mein dataframe in pyspark. Für die erste Zeile, die ich kenne, die ich verwenden kann df.first() aber nicht sicher über die Säulen gegeben, dass Sie

apache-spark apache-spark-sql pyspark pyspark-sql python

Pyspark: filter dataframe durch regex-string-Formatierung?

2 Antworten

Gelesen habe ich mehrere Beiträge über die Verwendung des "like" - operator zum filtern von ein Funke dataframe, die durch die Bedingung enthält, einen string-Ausdruck, aber Frage mich, ob das folgenden ist eine "best-practice" - auf die

apache-spark-sql pyspark pyspark-sql regex spark-dataframe

Wie Zählen, eindeutige ID nach groupBy in pyspark

1 Antworten

Ich bin mit dem folgenden code zu agregate Studenten pro Jahr. Der Zweck ist, zu wissen, die Gesamtzahl der Schüler für jedes Jahr. from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))

pyspark pyspark-sql python spark-dataframe

PySpark - Erstellen einer Daten-frame aus text-Datei

1 Antworten

Habe ich eine einfache text-Datei, die enthält "Transaktionen". 1. Zeile die Spaltennamen wie z.B. "STARTZEIT", "ENDZEIT", "GRÖßE".. über ~100 Spaltennamen. Den Namen der Spalten in der Datei sind ohne Anführungszeichen. Will ich mit Spark, konvertieren Sie diese

apache-spark apache-spark-sql pyspark-sql python-2.7 spark-dataframe

Schreiben spark dataframe Datei mit python und '|' Trennzeichen

2 Antworten

Ich konstruiert haben, die einen Funken dataframe aus einer Abfrage. Was ich Wünsche zu tun ist, drucken Sie das dataframe in eine text-Datei mit allen Informationen, die durch ' | ' getrennt, wie die folgenden: +-------+----+----+----+ |Summary|col1|col2|col3|

apache-spark pyspark pyspark-sql python

pyspark approxQuantile Funktion

2 Antworten

Habe ich dataframe mit diesen Spalten id, price, timestamp. Ich würde gerne erfahren, median, gruppiert nach id. Ich bin mit diesem code zu finden, aber es ist mir dieser Fehler. from pyspark.sql import DataFrameStatFunctions as statFunc windowSpec

apache-spark apache-spark-sql pyspark pyspark-sql

Trim-string-Spalte in PySpark dataframe

4 Antworten

Ich bin Anfänger auf Python und Funken. Nach dem erstellen eines DataFrame aus CSV Datei, ich würde gerne wissen, wie ich trimmen kann eine Spalte. Ich habe versucht: df = df.withColumn("Product", df.Product.strip()) df ist meine Daten-frame, Product

apache-spark apache-spark-sql pyspark pyspark-sql trim

schreiben Sie eine csv-Spalte mit Namen und Lesen einer csv-Datei, die erzeugt wird, die aus einer sparksql dataframe in Pyspark

4 Antworten

habe ich begonnen, die Schale mit databrick csv-Paket #../spark-1.6.1-bin-hadoop2.6/bin/pyspark --packages com.databricks:spark-csv_2.11:1.3.0 Dann lese ich eine csv Datei habe einige groupby-op und dump, um eine csv-Datei. from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load(path.csv') ####it has

apache-spark pyspark pyspark-sql

PySpark: ändern Sie Werte in der Spalte, wenn eine andere Spalte Wert eine Bedingung erfüllt

1 Antworten

Ich habe eine PySpark Dataframe mit zwei Spalten, Id und rank, +---+----+ | Id|Rank| +---+----+ | a| 5| | b| 7| | c| 8| | d| 1| +---+----+ Für jede Zeile, ich bin auf der Suche zu

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

Ableitung von Perzentil der Verwendung von Spark-Daten-frame und GroupBy in python

3 Antworten

Ich habe eine Spark-dataframe die Date, Group und Price Spalten. Ich versuche zur Ableitung der percentile(0.6) für die Price Spalte, dataframe in Python. Außerdem muss ich hinzufügen, um die Ausgabe in einer neuen Spalte. Habe ich versucht

apache-spark pyspark pyspark-sql python-2.7

speichern einer Liste von Zeilen in eine Hive-Tabelle in pyspark

1 Antworten

Ich habe eine pyspark app. Ich kopierte eine hive-Tabelle zu meiner hdfs-Verzeichnis & in python ich sqlContext.sql eine Abfrage auf diese Tabelle. Nun ist diese variable ist ein dataframe ich nenne rows. Ich brauche, um nach dem

hive pyspark pyspark-sql python

PySpark Fehlermeldung: AttributeError: 'NoneType' - Objekt hat kein Attribut '_jvm'

3 Antworten

Habe ich timestamp-datasets, die im format von Und ich geschrieben haben, eine udf in pyspark zu verarbeiten Datensatz und zurück, wie Anzeigen von Schlüssel-Werte. Aber bin immer folgende Fehlermeldung angezeigt. Dataset:df_ts_list +--------------------+ | ts_list| +--------------------+ |[1477411200, 1477...|

apache-spark apache-spark-sql ipython pyspark pyspark-sql

Apache spark Umgang mit case-Anweisungen

1 Antworten

Beschäftige ich mich mit der Umwandlung von SQL-code zu PySpark code und stieß auf einige SQL-Anweisungen. Ich weiß nicht, wie zu nähern case-Statements in pyspark? Ich bin der Planung über die Schaffung eines RDD und dann mit

apache-spark pyspark pyspark-sql rdd spark-dataframe

pyspark mysql-jdbc-laden ist Ein Fehler aufgetreten beim aufrufen von o23.laden Keine passenden Treiber

1 Antworten

Ich verwenden das Andockfenster Bild sequenceiq/spark auf meinem Mac zu studieren und diese spark-Beispiele, während der Studie Prozess, upgrade ich die Funke im inneren das Bild 1.6.1 nach diese Antwort, und der Fehler ist aufgetreten als ich

docker jdbc mysql pyspark pyspark-sql

Immer OutofMemoryError - GC overhead limit überschreiten, in pyspark

1 Antworten

in der Mitte des Projekts bin ich immer der Balg Fehler nach dem aufrufen einer Funktion in meinem spark sql-Abfrage ich geschrieben habe, eine Benutzer-Funktion definieren, die zwei string-und concat Sie nach der Verkettung wird es dauern,

apache-spark apache-spark-sql pyspark pyspark-sql udf

Wie bedingt ersetzen Wert in einer Spalte auf der Grundlage der Auswertung des Ausdrucks auf der Basis einer anderen Spalte in Pyspark?

1 Antworten

import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (0, 5, float(10)), (1, 6, float('nan')), (0, 6, float('nan'))], ('session', "timestamp1", "id2")) +-------+----------+----+ |session|timestamp1| id2| +-------+----------+----+ | 1|

apache-spark apache-spark-sql pyspark pyspark-sql

Pyspark Dataframe Anwenden-Funktion auf zwei Spalten

1 Antworten

Sagen, ich habe zwei PySpark DataFrames df1 und df2. df1= 'a' 1 2 5 df2= 'b' 3 6 Und ich möchten, finden Sie den nächsten df2['b'] Wert für jeden df1['a'], und fügen Sie die nächsten Werte in

pyspark pyspark-sql spark-dataframe

how to get max(Datum) aus der gegebenen Menge von Daten zusammengefasst, die durch einige Felder mit pyspark?

1 Antworten

Habe ich die Daten im dataframe wie folgt: datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 |

apache-spark apache-spark-sql pyspark pyspark-sql sql

python, pyspark : Holen Sie sich die Summe der pyspark dataframe Spalte Werte

2 Antworten

sagen, ich habe einen dataframe, wie dies name age city abc 20 A def 30 B möchte ich hinzufügen, eine Zeile mit der Zusammenfassung am Ende der dataframe, so dass das Ergebnis wird sein, wie name age

pyspark pyspark-sql python

Spark SQL konvertieren string in timestamp

1 Antworten

Ich bin neu zu entfachen, SQL und versuche zu konvertieren einen string in ein timestamp in einer spark-Daten-frame. Ich habe einen string, der sieht aus wie '2017-08-01T02:26:59.000Z' in einer Spalte namens " time_string Meinen code zu konvertieren

apache-spark apache-spark-sql pyspark-sql sql

So wählen Sie die Letzte Zeile und auch, wie Sie Zugang zu PySpark dataframe, die durch den index?

4 Antworten

Vom PySpark SQL dataframe wie name age city abc 20 A def 30 B Wie man die Letzte Zeile.(Wie von df.limit(1) ich kann die erste Zeile des dataframe in neuen dataframe). Und wie kann ich auf die

apache-spark apache-spark-sql pyspark pyspark-sql python

PySpark: Nehmen Sie den Durchschnitt einer Spalte nach mit filter-Funktion

1 Antworten

Ich bin mit dem folgenden code, um die Durchschnittliche Alter von Menschen, deren Gehalt größer ist als eine Schwelle. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) die Spalte Alter numeric (float), aber trotzdem bin ich immer diese Fehlermeldung. py4j.protocol.Py4JJavaError: An

apache-spark apache-spark-sql pyspark pyspark-sql python

Spark 2.0: Relativer Pfad in absoluten URI (Funke-Lager)

1 Antworten

Ich versuche, die Migration von Spark 1.6.1 Spark-Version 2.0.0 und ich erhalte eine seltsame Fehlermeldung, wenn Sie versuchen zu Lesen einer csv-Datei in SparkSQL. Früher, wenn ich lese eine Datei von der lokalen Festplatte in pyspark ich

apache-spark apache-spark-sql pyspark pyspark-sql windows

So finden Zählung von Null und Nan-Werte für jede Spalte in einer PySpark dataframe effizient?

2 Antworten

import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))], ('session', "timestamp1", "id2")) Erwartete Ausgabe dataframe mit Graf von

apache-spark apache-spark-sql pyspark pyspark-sql

Kann nicht finden, die col-Funktion in pyspark

3 Antworten

In pyspark 1.6.2, kann ich importieren col Funktion von from pyspark.sql.functions import col aber wenn ich versuchen, es bis in die Github source code ich finde keine col Funktion in functions.py Datei, wie kann python import einer

apache-spark apache-spark-sql pyspark pyspark-sql python

Wie man Namen von dataframe Spalte in pyspark?

3 Antworten

In pandas, dies kann durch die Spalte.name. Aber, wie Sie das gleiche tun, wenn Ihre Spalte von spark dataframe? z.B. Das aufrufende Programm hat einen Funken dataframe: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] Dieses Programm ruft

pyspark pyspark-sql

Pyspark String in Datumsformat konvertieren

4 Antworten

Habe ich ein Datum pyspark dataframe mit einer string-Spalte im format MM-dd-yyyy und ich bin versucht zu konvertieren, das in einer date-Spalte. Habe ich versucht: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich bekomme einen string, der null-Werte. Kann mir jemand helfen?

apache-spark apache-spark-sql pyspark pyspark-sql

Verknüpfen Sie zwei Datenrahmen, wählen Sie alle Spalten aus einer und einige Spalten aus der anderen aus

4 Antworten

Sagen wir, ich habe eine spark-Daten-frame df1, mit mehreren Spalten (bei denen die Spalte 'id') und Daten, frame-df2 mit den beiden Spalten 'id' und 'die anderen'. Gibt es eine Möglichkeit, replizieren Sie den folgenden Befehl sqlContext.sql("SELECT df1.*,

pyspark pyspark-sql

Spark-Dataframe-Stringspalte in mehrere Spalten aufteilen

1 Antworten

Ich habe gesehen, verschiedene Menschen, was darauf hindeutet, dass Dataframe.explode ist eine nützliche Methode, um dies zu tun, aber es führt zu mehr Zeilen als die ursprünglichen dataframe, das ist nicht, was will ich überhaupt. Ich möchte

apache-spark apache-spark-sql pyspark pyspark-sql spark-dataframe

zeigen unterschiedliche Spaltenwerte in pyspark dataframe: python

3 Antworten

Bitte vorschlagen pyspark dataframe alternative für Pandas df['col'].unique(). Möchte ich Liste alle eindeutigen Werte in einem pyspark dataframe Spalte. Nicht der SQL-Typ Weg (registertemplate dann die SQL-Abfrage für die unterschiedlichen Werte). Außerdem brauche ich nicht groupby->countDistinctvielmehr will

pyspark pyspark-sql

Wie ändere ich Datenrahmenspaltennamen in pyspark?

7 Antworten

Ich komme aus pandas hintergrund und bin verwendet, um das Lesen von Daten aus CSV-Dateien in ein dataframe und dann einfach ändern Sie die Spalten-Namen, um etwas sinnvolles mit dem einfachen Befehl: df.columns = new_column_name_list Jedoch das

apache-spark pyspark pyspark-sql python