Tag: pyspark-sql

Verwenden Sie dieses tag für Fragen rund um das SQL-Modul in PySpark.

Fall, wenn-statement mit IN-Klausel in Pyspark

Anzahl der Antworten 1 Antworten
Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe

PySpark, Konvertieren Sie die Liste der Zeilen, um Daten-Frames

Anzahl der Antworten 1 Antworten
Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt

IF-Anweisung Pyspark

Anzahl der Antworten 2 Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

Anzahl der Antworten 2 Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

Wie zu verwenden matplotlib Grundstück pyspark sql-Ergebnisse

Anzahl der Antworten 1 Antworten
Ich bin neu pyspark. Ich will Handlung und das Ergebnis mit matplotlib, aber nicht sicher sind, welche Funktion zu verwenden. Ich suchte nach einem Weg, um konvertieren von sql-Ergebnis auf pandas und verwenden Sie dann plot. Hallo

Wie, um die Anzahl der Partitionen/Knoten beim importieren von Daten in die Funke

Anzahl der Antworten 3 Antworten
Problem: ich die Daten importieren wollen in Spark EMR-S3 Verwendung: data = sqlContext.read.json("s3n://.....") Gibt es eine Möglichkeit, ich kann die Anzahl der Knoten, die Funken verwendet, um laden und Prozess die Daten? Dies ist ein Beispiel, wie

Pyspark dataframe: Summieren über eine Spalte, während die Gruppierung über die andere

Anzahl der Antworten 2 Antworten
Ich habe eine Frage zu stellen, Ich habe einen dataframe, wie die folgenden In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5

Wie Spalte filter auf Werte in der Liste in pyspark?

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly

Pyspark DataFrame UDF auf Text-Spalte

Anzahl der Antworten 3 Antworten
Ich versuche zu tun, einige NLP-text bereinigen einiger Unicode-Spalten in einer PySpark DataFrame. Ich habe versucht, in der Spark-1.3, 1.5 und 1.6 und kann nicht scheinen, um die Dinge zu arbeiten, für das Leben von mir. Ich

Median / Quantile innerhalb PySpark groupBy

Anzahl der Antworten 3 Antworten
Ich würde gerne berechnen, Gruppe Quantile auf einer Spark-dataframe (mit PySpark). Entweder eine Ungefähre oder genaue Ergebnis wäre in Ordnung. Ich bevorzuge eine Lösung, die ich verwenden kann, im Rahmen der groupBy /agg, so dass ich kann

Die Anwendung einer Fenster-Funktion zu berechnen, die Unterschiede in pySpark

Anzahl der Antworten 2 Antworten
Ich bin mit pySpark, und haben mein dataframe mit zwei Spalten, in denen täglich ein Vermögenswert Preis wie folgt: ind = sc.parallelize(range(1,5)) prices = sc.parallelize([33.3,31.1,51.2,21.3]) data = ind.zip(prices) df = sqlCtx.createDataFrame(data,["day","price"]) Den ich nach der Anwendung df.show():

Wie konvertieren von Typ Zeile in den Vektor zu füttern, um die KMeans

Anzahl der Antworten 2 Antworten
wenn ich versuche zu füttern df2 zu kmeans, bekomme ich folgenden Fehler clusters = KMeans.train(df2, 10, maxIterations=30, runs=10, initializationMode="random") Den Fehler bekomme ich: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector df2 ist ein dataframe erstellt wie folgt:

So erstellen Sie eine Tabelle auswählen, in pyspark.sql

Anzahl der Antworten 2 Antworten
Ist es möglich, erstellen Sie eine Tabelle auf spark mit einer select-Anweisung? Ich den folgenden import findspark findspark.init() import pyspark from pyspark.sql import SQLContext sc = pyspark.SparkContext() sqlCtx = SQLContext(sc) spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv") spark_df.registerTempTable("my_table") sqlCtx.sql("CREATE TABLE

Zu versuchen, eine Verbindung zu Oracle von Spark

Anzahl der Antworten 2 Antworten
Ich versuche eine Verbindung zu Oracle zu Funken und wollen, ziehen Sie Daten von einigen Tabellen und SQL-Abfragen. Aber ich bin nicht in der Lage, eine Verbindung zu Oracle. Ich habe versucht, verschiedene arbeiten rund Optionen, aber

Probleme Mit Pyspark Round-Funktion

Anzahl der Antworten 1 Antworten
Habe einige Mühe, die round-Funktion in pyspark zu arbeiten - ich habe den untenstehenden code-block, wo ich bin versuchen, um die new_bid Spalte auf 2 Dezimalstellen genau und benennen Sie die Spalte als bid danach - ich

Pyspark - Datei Laden: Pfad nicht vorhanden ist

Anzahl der Antworten 1 Antworten
Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob

Wie kann ich festlegen, eine leere dataframe in Pyspark, und fügen Sie die entsprechenden dataframes?

Anzahl der Antworten 4 Antworten
So, ich möchte Lesen Sie die csv-Dateien aus einem Verzeichnis, wie einem pyspark dataframe und fügen Sie diese in einzelne dataframe. Nicht immer sind die alternative für diese in pyspark, die Art, wie wir in pandas. Z.B.

Sie Spalten auswählen, die in Pyspark Dataframe

Anzahl der Antworten 5 Antworten
Ich bin auf der Suche nach einem Weg, um wählen Sie Spalten mein dataframe in pyspark. Für die erste Zeile, die ich kenne, die ich verwenden kann df.first() aber nicht sicher über die Säulen gegeben, dass Sie

Pyspark: filter dataframe durch regex-string-Formatierung?

Anzahl der Antworten 2 Antworten
Gelesen habe ich mehrere Beiträge über die Verwendung des "like" - operator zum filtern von ein Funke dataframe, die durch die Bedingung enthält, einen string-Ausdruck, aber Frage mich, ob das folgenden ist eine "best-practice" - auf die

Wie Zählen, eindeutige ID nach groupBy in pyspark

Anzahl der Antworten 1 Antworten
Ich bin mit dem folgenden code zu agregate Studenten pro Jahr. Der Zweck ist, zu wissen, die Gesamtzahl der Schüler für jedes Jahr. from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))

PySpark - Erstellen einer Daten-frame aus text-Datei

Anzahl der Antworten 1 Antworten
Habe ich eine einfache text-Datei, die enthält "Transaktionen". 1. Zeile die Spaltennamen wie z.B. "STARTZEIT", "ENDZEIT", "GRÖßE".. über ~100 Spaltennamen. Den Namen der Spalten in der Datei sind ohne Anführungszeichen. Will ich mit Spark, konvertieren Sie diese

Schreiben spark dataframe Datei mit python und '|' Trennzeichen

Anzahl der Antworten 2 Antworten
Ich konstruiert haben, die einen Funken dataframe aus einer Abfrage. Was ich Wünsche zu tun ist, drucken Sie das dataframe in eine text-Datei mit allen Informationen, die durch ' | ' getrennt, wie die folgenden: +-------+----+----+----+ |Summary|col1|col2|col3|

pyspark approxQuantile Funktion

Anzahl der Antworten 2 Antworten
Habe ich dataframe mit diesen Spalten id, price, timestamp. Ich würde gerne erfahren, median, gruppiert nach id. Ich bin mit diesem code zu finden, aber es ist mir dieser Fehler. from pyspark.sql import DataFrameStatFunctions as statFunc windowSpec

Trim-string-Spalte in PySpark dataframe

Anzahl der Antworten 4 Antworten
Ich bin Anfänger auf Python und Funken. Nach dem erstellen eines DataFrame aus CSV Datei, ich würde gerne wissen, wie ich trimmen kann eine Spalte. Ich habe versucht: df = df.withColumn("Product", df.Product.strip()) df ist meine Daten-frame, Product

schreiben Sie eine csv-Spalte mit Namen und Lesen einer csv-Datei, die erzeugt wird, die aus einer sparksql dataframe in Pyspark

Anzahl der Antworten 4 Antworten
habe ich begonnen, die Schale mit databrick csv-Paket #../spark-1.6.1-bin-hadoop2.6/bin/pyspark --packages com.databricks:spark-csv_2.11:1.3.0 Dann lese ich eine csv Datei habe einige groupby-op und dump, um eine csv-Datei. from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load(path.csv') ####it has

PySpark: ändern Sie Werte in der Spalte, wenn eine andere Spalte Wert eine Bedingung erfüllt

Anzahl der Antworten 1 Antworten
Ich habe eine PySpark Dataframe mit zwei Spalten, Id und rank, +---+----+ | Id|Rank| +---+----+ | a| 5| | b| 7| | c| 8| | d| 1| +---+----+ Für jede Zeile, ich bin auf der Suche zu

Ableitung von Perzentil der Verwendung von Spark-Daten-frame und GroupBy in python

Anzahl der Antworten 3 Antworten
Ich habe eine Spark-dataframe die Date, Group und Price Spalten. Ich versuche zur Ableitung der percentile(0.6) für die Price Spalte, dataframe in Python. Außerdem muss ich hinzufügen, um die Ausgabe in einer neuen Spalte. Habe ich versucht

speichern einer Liste von Zeilen in eine Hive-Tabelle in pyspark

Anzahl der Antworten 1 Antworten
Ich habe eine pyspark app. Ich kopierte eine hive-Tabelle zu meiner hdfs-Verzeichnis & in python ich sqlContext.sql eine Abfrage auf diese Tabelle. Nun ist diese variable ist ein dataframe ich nenne rows. Ich brauche, um nach dem

PySpark Fehlermeldung: AttributeError: 'NoneType' - Objekt hat kein Attribut '_jvm'

Anzahl der Antworten 3 Antworten
Habe ich timestamp-datasets, die im format von Und ich geschrieben haben, eine udf in pyspark zu verarbeiten Datensatz und zurück, wie Anzeigen von Schlüssel-Werte. Aber bin immer folgende Fehlermeldung angezeigt. Dataset:df_ts_list +--------------------+ | ts_list| +--------------------+ |[1477411200, 1477...|

Apache spark Umgang mit case-Anweisungen

Anzahl der Antworten 1 Antworten
Beschäftige ich mich mit der Umwandlung von SQL-code zu PySpark code und stieß auf einige SQL-Anweisungen. Ich weiß nicht, wie zu nähern case-Statements in pyspark? Ich bin der Planung über die Schaffung eines RDD und dann mit

pyspark mysql-jdbc-laden ist Ein Fehler aufgetreten beim aufrufen von o23.laden Keine passenden Treiber

Anzahl der Antworten 1 Antworten
Ich verwenden das Andockfenster Bild sequenceiq/spark auf meinem Mac zu studieren und diese spark-Beispiele, während der Studie Prozess, upgrade ich die Funke im inneren das Bild 1.6.1 nach diese Antwort, und der Fehler ist aufgetreten als ich

Immer OutofMemoryError - GC overhead limit überschreiten, in pyspark

Anzahl der Antworten 1 Antworten
in der Mitte des Projekts bin ich immer der Balg Fehler nach dem aufrufen einer Funktion in meinem spark sql-Abfrage ich geschrieben habe, eine Benutzer-Funktion definieren, die zwei string-und concat Sie nach der Verkettung wird es dauern,

Wie bedingt ersetzen Wert in einer Spalte auf der Grundlage der Auswertung des Ausdrucks auf der Basis einer anderen Spalte in Pyspark?

Anzahl der Antworten 1 Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (0, 5, float(10)), (1, 6, float('nan')), (0, 6, float('nan'))], ('session', "timestamp1", "id2")) +-------+----------+----+ |session|timestamp1| id2| +-------+----------+----+ | 1|

Pyspark Dataframe Anwenden-Funktion auf zwei Spalten

Anzahl der Antworten 1 Antworten
Sagen, ich habe zwei PySpark DataFrames df1 und df2. df1= 'a' 1 2 5 df2= 'b' 3 6 Und ich möchten, finden Sie den nächsten df2['b'] Wert für jeden df1['a'], und fügen Sie die nächsten Werte in

how to get max(Datum) aus der gegebenen Menge von Daten zusammengefasst, die durch einige Felder mit pyspark?

Anzahl der Antworten 1 Antworten
Habe ich die Daten im dataframe wie folgt: datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 |

python, pyspark : Holen Sie sich die Summe der pyspark dataframe Spalte Werte

Anzahl der Antworten 2 Antworten
sagen, ich habe einen dataframe, wie dies name age city abc 20 A def 30 B möchte ich hinzufügen, eine Zeile mit der Zusammenfassung am Ende der dataframe, so dass das Ergebnis wird sein, wie name age

Spark SQL konvertieren string in timestamp

Anzahl der Antworten 1 Antworten
Ich bin neu zu entfachen, SQL und versuche zu konvertieren einen string in ein timestamp in einer spark-Daten-frame. Ich habe einen string, der sieht aus wie '2017-08-01T02:26:59.000Z' in einer Spalte namens " time_string Meinen code zu konvertieren

So wählen Sie die Letzte Zeile und auch, wie Sie Zugang zu PySpark dataframe, die durch den index?

Anzahl der Antworten 4 Antworten
Vom PySpark SQL dataframe wie name age city abc 20 A def 30 B Wie man die Letzte Zeile.(Wie von df.limit(1) ich kann die erste Zeile des dataframe in neuen dataframe). Und wie kann ich auf die

PySpark: Nehmen Sie den Durchschnitt einer Spalte nach mit filter-Funktion

Anzahl der Antworten 1 Antworten
Ich bin mit dem folgenden code, um die Durchschnittliche Alter von Menschen, deren Gehalt größer ist als eine Schwelle. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) die Spalte Alter numeric (float), aber trotzdem bin ich immer diese Fehlermeldung. py4j.protocol.Py4JJavaError: An

Spark 2.0: Relativer Pfad in absoluten URI (Funke-Lager)

Anzahl der Antworten 1 Antworten
Ich versuche, die Migration von Spark 1.6.1 Spark-Version 2.0.0 und ich erhalte eine seltsame Fehlermeldung, wenn Sie versuchen zu Lesen einer csv-Datei in SparkSQL. Früher, wenn ich lese eine Datei von der lokalen Festplatte in pyspark ich

So finden Zählung von Null und Nan-Werte für jede Spalte in einer PySpark dataframe effizient?

Anzahl der Antworten 2 Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))], ('session', "timestamp1", "id2")) Erwartete Ausgabe dataframe mit Graf von

Kann nicht finden, die col-Funktion in pyspark

Anzahl der Antworten 3 Antworten
In pyspark 1.6.2, kann ich importieren col Funktion von from pyspark.sql.functions import col aber wenn ich versuchen, es bis in die Github source code ich finde keine col Funktion in functions.py Datei, wie kann python import einer

Wie man Namen von dataframe Spalte in pyspark?

Anzahl der Antworten 3 Antworten
In pandas, dies kann durch die Spalte.name. Aber, wie Sie das gleiche tun, wenn Ihre Spalte von spark dataframe? z.B. Das aufrufende Programm hat einen Funken dataframe: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] Dieses Programm ruft

Pyspark String in Datumsformat konvertieren

Anzahl der Antworten 4 Antworten
Habe ich ein Datum pyspark dataframe mit einer string-Spalte im format MM-dd-yyyy und ich bin versucht zu konvertieren, das in einer date-Spalte. Habe ich versucht: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich bekomme einen string, der null-Werte. Kann mir jemand helfen?

Verknüpfen Sie zwei Datenrahmen, wählen Sie alle Spalten aus einer und einige Spalten aus der anderen aus

Anzahl der Antworten 4 Antworten
Sagen wir, ich habe eine spark-Daten-frame df1, mit mehreren Spalten (bei denen die Spalte 'id') und Daten, frame-df2 mit den beiden Spalten 'id' und 'die anderen'. Gibt es eine Möglichkeit, replizieren Sie den folgenden Befehl sqlContext.sql("SELECT df1.*,

Spark-Dataframe-Stringspalte in mehrere Spalten aufteilen

Anzahl der Antworten 1 Antworten
Ich habe gesehen, verschiedene Menschen, was darauf hindeutet, dass Dataframe.explode ist eine nützliche Methode, um dies zu tun, aber es führt zu mehr Zeilen als die ursprünglichen dataframe, das ist nicht, was will ich überhaupt. Ich möchte

zeigen unterschiedliche Spaltenwerte in pyspark dataframe: python

Anzahl der Antworten 3 Antworten
Bitte vorschlagen pyspark dataframe alternative für Pandas df['col'].unique(). Möchte ich Liste alle eindeutigen Werte in einem pyspark dataframe Spalte. Nicht der SQL-Typ Weg (registertemplate dann die SQL-Abfrage für die unterschiedlichen Werte). Außerdem brauche ich nicht groupby->countDistinctvielmehr will

Wie ändere ich Datenrahmenspaltennamen in pyspark?

Anzahl der Antworten 7 Antworten
Ich komme aus pandas hintergrund und bin verwendet, um das Lesen von Daten aus CSV-Dateien in ein dataframe und dann einfach ändern Sie die Spalten-Namen, um etwas sinnvolles mit dem einfachen Befehl: df.columns = new_column_name_list Jedoch das