Tag: pyspark-sql
Verwenden Sie dieses tag für Fragen rund um das SQL-Modul in PySpark.
1
Antworten
Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe
1
Antworten
Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt
2
Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|
2
Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df
1
Antworten
Ich bin neu pyspark. Ich will Handlung und das Ergebnis mit matplotlib, aber nicht sicher sind, welche Funktion zu verwenden. Ich suchte nach einem Weg, um konvertieren von sql-Ergebnis auf pandas und verwenden Sie dann plot. Hallo
3
Antworten
Problem: ich die Daten importieren wollen in Spark EMR-S3 Verwendung: data = sqlContext.read.json("s3n://.....") Gibt es eine Möglichkeit, ich kann die Anzahl der Knoten, die Funken verwendet, um laden und Prozess die Daten? Dies ist ein Beispiel, wie
2
Antworten
Ich habe eine Frage zu stellen, Ich habe einen dataframe, wie die folgenden In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5
1
Antworten
Ich habe einen dataframe rawdata, auf die ich mich bewerben filter-Bedingung auf Spalte X mit Werten, CB,CI und CR. So habe ich den folgenden code: df = dfRawData.filter(col("X").between("CB","CI","CR")) Aber ich erhalte die folgende Fehlermeldung: zwischen() takes exactly
3
Antworten
Ich versuche zu tun, einige NLP-text bereinigen einiger Unicode-Spalten in einer PySpark DataFrame. Ich habe versucht, in der Spark-1.3, 1.5 und 1.6 und kann nicht scheinen, um die Dinge zu arbeiten, für das Leben von mir. Ich
3
Antworten
Ich würde gerne berechnen, Gruppe Quantile auf einer Spark-dataframe (mit PySpark). Entweder eine Ungefähre oder genaue Ergebnis wäre in Ordnung. Ich bevorzuge eine Lösung, die ich verwenden kann, im Rahmen der groupBy /agg, so dass ich kann
2
Antworten
Ich bin mit pySpark, und haben mein dataframe mit zwei Spalten, in denen täglich ein Vermögenswert Preis wie folgt: ind = sc.parallelize(range(1,5)) prices = sc.parallelize([33.3,31.1,51.2,21.3]) data = ind.zip(prices) df = sqlCtx.createDataFrame(data,["day","price"]) Den ich nach der Anwendung df.show():
2
Antworten
wenn ich versuche zu füttern df2 zu kmeans, bekomme ich folgenden Fehler clusters = KMeans.train(df2, 10, maxIterations=30, runs=10, initializationMode="random") Den Fehler bekomme ich: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector df2 ist ein dataframe erstellt wie folgt:
2
Antworten
Ist es möglich, erstellen Sie eine Tabelle auf spark mit einer select-Anweisung? Ich den folgenden import findspark findspark.init() import pyspark from pyspark.sql import SQLContext sc = pyspark.SparkContext() sqlCtx = SQLContext(sc) spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv") spark_df.registerTempTable("my_table") sqlCtx.sql("CREATE TABLE
2
Antworten
Ich versuche eine Verbindung zu Oracle zu Funken und wollen, ziehen Sie Daten von einigen Tabellen und SQL-Abfragen. Aber ich bin nicht in der Lage, eine Verbindung zu Oracle. Ich habe versucht, verschiedene arbeiten rund Optionen, aber
1
Antworten
Habe einige Mühe, die round-Funktion in pyspark zu arbeiten - ich habe den untenstehenden code-block, wo ich bin versuchen, um die new_bid Spalte auf 2 Dezimalstellen genau und benennen Sie die Spalte als bid danach - ich
1
Antworten
Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob
4
Antworten
So, ich möchte Lesen Sie die csv-Dateien aus einem Verzeichnis, wie einem pyspark dataframe und fügen Sie diese in einzelne dataframe. Nicht immer sind die alternative für diese in pyspark, die Art, wie wir in pandas. Z.B.
5
Antworten
Ich bin auf der Suche nach einem Weg, um wählen Sie Spalten mein dataframe in pyspark. Für die erste Zeile, die ich kenne, die ich verwenden kann df.first() aber nicht sicher über die Säulen gegeben, dass Sie
2
Antworten
Gelesen habe ich mehrere Beiträge über die Verwendung des "like" - operator zum filtern von ein Funke dataframe, die durch die Bedingung enthält, einen string-Ausdruck, aber Frage mich, ob das folgenden ist eine "best-practice" - auf die
1
Antworten
Ich bin mit dem folgenden code zu agregate Studenten pro Jahr. Der Zweck ist, zu wissen, die Gesamtzahl der Schüler für jedes Jahr. from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
1
Antworten
Habe ich eine einfache text-Datei, die enthält "Transaktionen". 1. Zeile die Spaltennamen wie z.B. "STARTZEIT", "ENDZEIT", "GRÖßE".. über ~100 Spaltennamen. Den Namen der Spalten in der Datei sind ohne Anführungszeichen. Will ich mit Spark, konvertieren Sie diese
2
Antworten
Ich konstruiert haben, die einen Funken dataframe aus einer Abfrage. Was ich Wünsche zu tun ist, drucken Sie das dataframe in eine text-Datei mit allen Informationen, die durch ' | ' getrennt, wie die folgenden: +-------+----+----+----+ |Summary|col1|col2|col3|
2
Antworten
Habe ich dataframe mit diesen Spalten id, price, timestamp. Ich würde gerne erfahren, median, gruppiert nach id. Ich bin mit diesem code zu finden, aber es ist mir dieser Fehler. from pyspark.sql import DataFrameStatFunctions as statFunc windowSpec
4
Antworten
Ich bin Anfänger auf Python und Funken. Nach dem erstellen eines DataFrame aus CSV Datei, ich würde gerne wissen, wie ich trimmen kann eine Spalte. Ich habe versucht: df = df.withColumn("Product", df.Product.strip()) df ist meine Daten-frame, Product
4
Antworten
habe ich begonnen, die Schale mit databrick csv-Paket #../spark-1.6.1-bin-hadoop2.6/bin/pyspark --packages com.databricks:spark-csv_2.11:1.3.0 Dann lese ich eine csv Datei habe einige groupby-op und dump, um eine csv-Datei. from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load(path.csv') ####it has
1
Antworten
Ich habe eine PySpark Dataframe mit zwei Spalten, Id und rank, +---+----+ | Id|Rank| +---+----+ | a| 5| | b| 7| | c| 8| | d| 1| +---+----+ Für jede Zeile, ich bin auf der Suche zu
3
Antworten
Ich habe eine Spark-dataframe die Date, Group und Price Spalten. Ich versuche zur Ableitung der percentile(0.6) für die Price Spalte, dataframe in Python. Außerdem muss ich hinzufügen, um die Ausgabe in einer neuen Spalte. Habe ich versucht
1
Antworten
Ich habe eine pyspark app. Ich kopierte eine hive-Tabelle zu meiner hdfs-Verzeichnis & in python ich sqlContext.sql eine Abfrage auf diese Tabelle. Nun ist diese variable ist ein dataframe ich nenne rows. Ich brauche, um nach dem
3
Antworten
Habe ich timestamp-datasets, die im format von Und ich geschrieben haben, eine udf in pyspark zu verarbeiten Datensatz und zurück, wie Anzeigen von Schlüssel-Werte. Aber bin immer folgende Fehlermeldung angezeigt. Dataset:df_ts_list +--------------------+ | ts_list| +--------------------+ |[1477411200, 1477...|
1
Antworten
Beschäftige ich mich mit der Umwandlung von SQL-code zu PySpark code und stieß auf einige SQL-Anweisungen. Ich weiß nicht, wie zu nähern case-Statements in pyspark? Ich bin der Planung über die Schaffung eines RDD und dann mit
1
Antworten
Ich verwenden das Andockfenster Bild sequenceiq/spark auf meinem Mac zu studieren und diese spark-Beispiele, während der Studie Prozess, upgrade ich die Funke im inneren das Bild 1.6.1 nach diese Antwort, und der Fehler ist aufgetreten als ich
1
Antworten
in der Mitte des Projekts bin ich immer der Balg Fehler nach dem aufrufen einer Funktion in meinem spark sql-Abfrage ich geschrieben habe, eine Benutzer-Funktion definieren, die zwei string-und concat Sie nach der Verkettung wird es dauern,
1
Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (0, 5, float(10)), (1, 6, float('nan')), (0, 6, float('nan'))], ('session', "timestamp1", "id2")) +-------+----------+----+ |session|timestamp1| id2| +-------+----------+----+ | 1|
1
Antworten
Sagen, ich habe zwei PySpark DataFrames df1 und df2. df1= 'a' 1 2 5 df2= 'b' 3 6 Und ich möchten, finden Sie den nächsten df2['b'] Wert für jeden df1['a'], und fügen Sie die nächsten Werte in
1
Antworten
Habe ich die Daten im dataframe wie folgt: datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 |
2
Antworten
sagen, ich habe einen dataframe, wie dies name age city abc 20 A def 30 B möchte ich hinzufügen, eine Zeile mit der Zusammenfassung am Ende der dataframe, so dass das Ergebnis wird sein, wie name age
1
Antworten
Ich bin neu zu entfachen, SQL und versuche zu konvertieren einen string in ein timestamp in einer spark-Daten-frame. Ich habe einen string, der sieht aus wie '2017-08-01T02:26:59.000Z' in einer Spalte namens " time_string Meinen code zu konvertieren
4
Antworten
Vom PySpark SQL dataframe wie name age city abc 20 A def 30 B Wie man die Letzte Zeile.(Wie von df.limit(1) ich kann die erste Zeile des dataframe in neuen dataframe). Und wie kann ich auf die
1
Antworten
Ich bin mit dem folgenden code, um die Durchschnittliche Alter von Menschen, deren Gehalt größer ist als eine Schwelle. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) die Spalte Alter numeric (float), aber trotzdem bin ich immer diese Fehlermeldung. py4j.protocol.Py4JJavaError: An
1
Antworten
Ich versuche, die Migration von Spark 1.6.1 Spark-Version 2.0.0 und ich erhalte eine seltsame Fehlermeldung, wenn Sie versuchen zu Lesen einer csv-Datei in SparkSQL. Früher, wenn ich lese eine Datei von der lokalen Festplatte in pyspark ich
2
Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))], ('session', "timestamp1", "id2")) Erwartete Ausgabe dataframe mit Graf von
3
Antworten
In pyspark 1.6.2, kann ich importieren col Funktion von from pyspark.sql.functions import col aber wenn ich versuchen, es bis in die Github source code ich finde keine col Funktion in functions.py Datei, wie kann python import einer
3
Antworten
In pandas, dies kann durch die Spalte.name. Aber, wie Sie das gleiche tun, wenn Ihre Spalte von spark dataframe? z.B. Das aufrufende Programm hat einen Funken dataframe: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] Dieses Programm ruft
4
Antworten
Habe ich ein Datum pyspark dataframe mit einer string-Spalte im format MM-dd-yyyy und ich bin versucht zu konvertieren, das in einer date-Spalte. Habe ich versucht: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich bekomme einen string, der null-Werte. Kann mir jemand helfen?
4
Antworten
Sagen wir, ich habe eine spark-Daten-frame df1, mit mehreren Spalten (bei denen die Spalte 'id') und Daten, frame-df2 mit den beiden Spalten 'id' und 'die anderen'. Gibt es eine Möglichkeit, replizieren Sie den folgenden Befehl sqlContext.sql("SELECT df1.*,
1
Antworten
Ich habe gesehen, verschiedene Menschen, was darauf hindeutet, dass Dataframe.explode ist eine nützliche Methode, um dies zu tun, aber es führt zu mehr Zeilen als die ursprünglichen dataframe, das ist nicht, was will ich überhaupt. Ich möchte
3
Antworten
Bitte vorschlagen pyspark dataframe alternative für Pandas df['col'].unique(). Möchte ich Liste alle eindeutigen Werte in einem pyspark dataframe Spalte. Nicht der SQL-Typ Weg (registertemplate dann die SQL-Abfrage für die unterschiedlichen Werte). Außerdem brauche ich nicht groupby->countDistinctvielmehr will
7
Antworten
Ich komme aus pandas hintergrund und bin verwendet, um das Lesen von Daten aus CSV-Dateien in ein dataframe und dann einfach ändern Sie die Spalten-Namen, um etwas sinnvolles mit dem einfachen Befehl: df.columns = new_column_name_list Jedoch das