Tag: pyspark

Die Spark Python-API (PySpark) stellt der apache-spark-Programmiermodell Python.

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

2 Antworten

Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

Spark: How to map Python mit Scala oder Java-User Defined Functions?

1 Antworten

Lassen Sie uns sagen zum Beispiel, dass mein team ausgewählt hat Python als Referenz Sprache zu entwickeln, mit Funke. Aber später aus Gründen der Leistung, die wir entwickeln möchten, bestimmte Scala oder Java-spezifische Bibliotheken, um die Karte

apache-spark java pyspark python scala

PySpark - Split/Filter DataFrame Spalte Werte

2 Antworten

Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...

apache-spark apache-spark-sql dataframe pyspark python

Wie UND-oder oder-Bedingung in der wenn in der Funke

1 Antworten

Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von

apache-spark apache-spark-sql pyspark

Filterung pyspark dataframe, wenn die Spalte text enthält Wörter in der angegebenen Liste

2 Antworten

Ich gesehen habe Fragen, die hier gepostet, die ähnlich wie mir, aber ich bin noch immer Fehler in meinem code, wenn Sie versuchen, einige Antworten akzeptiert. Ich habe einen dataframe mit drei Spalten--erstellt _am, text und Wörter

pyspark python spark-dataframe

Tipps für das richtig die Verwendung von großen broadcast-Variablen?

1 Antworten

Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und

apache-spark pickle pyspark python rdd

Fall, wenn-statement mit IN-Klausel in Pyspark

1 Antworten

Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe

apache-spark pyspark pyspark-sql

So prüfen Sie den Schnittpunkt von zwei DataFrame Spalten in der Funke

1 Antworten

Entweder pyspark oder sparkr (am besten beides), wie bekomme ich den Schnittpunkt von zwei DataFrame Spalten? Zum Beispiel, in sparkr ich habe Folgendes DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"), surname = c("Smith", "Williams", "Brown",

apache-spark pyspark sparkr

ClassNotFoundException geworfen Einführung Funke-Shell

2 Antworten

Ich versuche zu starten, die Funke-shell für python aus dem Verzeichnis mit ./bin/pyspark Wenn ich den Befehl ausführen bekomme ich folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/launcher/Main Caused by: java.lang.ClassNotFoundException: org.apache.spark.launcher.Main at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method)

apache-spark pyspark

Tut spark-predicate-pushdown-Arbeit mit JDBC?

1 Antworten

Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für

apache-spark apache-spark-sql jdbc pyspark python

pyspark: ValueError: Einige Arten nicht bestimmt werden kann nach der Herleitung

5 Antworten

Habe ich ein Pandabären-Daten-frame my_df, und my_df.dtypes uns gibt: ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype: object Dann bin ich versucht zu konvertieren, die pandas data frame my_df zu Funken-Daten-frame-by-doing unter:

pandas pyspark python python-2.7 spark-dataframe

Pyspark JSON-Objekt oder eine Datei zu RDD

2 Antworten

Ich bin neu PySpark und ich habe eine AskReddit json-Datei die ich aus dieser link. Ich bin versucht, erstellen Sie eine RDD-die ich dann hoffen, führen den Betrieb wie map und flatmap. Ich wurde empfohlen, um die

json pyspark python rdd

Gewusst wie: übergeben von Variablen in spark SQL mit python?

2 Antworten

Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir

apache-spark apache-spark-sql pyspark python

Wie, um eine Funktion auszuführen auf alle Spark-Arbeiter vor der Verarbeitung Daten in PySpark?

2 Antworten

Bin ich mit einem Spark-Streaming Aufgabe in einem cluster mithilfe von GARN. Jedem Knoten im cluster läuft mehrere Funken Arbeitnehmer. Bevor das streaming beginnt, möchte ich ausführen, dass die "setup" Funktion auf alle Arbeitnehmer auf allen Knoten

apache-spark pyspark python

Kein Modul namens numpy, wenn spark-Abgabe

4 Antworten

Ich bin spark-die Einreichung einer python-Datei, die importiert numpy, aber ich bin immer ein no module named numpy Fehler. $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/www/my_numpy_als.py", line 13, in <module> from pyspark.mllib.recommendation

apache-spark numpy pyspark

Kann ich das ändern SparkContext.appName on-the-fly?

1 Antworten

Ich weiß, dass ich verwenden können, SparkConf.set ("Funke.app.name',...) zu setzen appName vor erstellen der SparkContext. Allerdings möchte ich ändern Sie den Namen der Anwendung ein, wie Sie fortschreitet, D. H., nach SparkContext erstellt wurde. Ach, Einstellung sc.appName

apache-spark pyspark

Oozie-job nicht ausgeführt werden, wenn mit PySpark in SparkAction

4 Antworten

Ich angetroffen habe mehrere Beispiele von SparkAction jobs in Oozie, und die meisten von Ihnen sind in Java. Ich Editiere ein wenig und führen Sie das Beispiel in Cloudera CDH Quickstart 5.4.0 (mit Spark version 1.4.0). workflow.xml

apache-spark cloudera-quickstart-vm java oozie pyspark

PySpark - das Hinzufügen einer Spalte aus einer Liste von Werten mithilfe einer UDF

5 Antworten

Habe ich auf Spalte hinzufügen, um eine PySpark dataframe auf der Grundlage einer Liste von Werten. a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) Habe ich eine Liste namens rating, die Bewertung jedes Haustier. rating = [5,4,1]

apache-spark-sql list pyspark python user-defined-functions

Wie anzeigen-Funktionen aus der Ausgabe eines VectorAssembler zurück zu den Spaltennamen in der Funke ML?

3 Antworten

Ich versuche, führen Sie eine lineare regression in PySpark und ich möchte erstellen Sie eine Tabelle mit Zusammenfassung der Statistiken, wie die Koeffizienten, P-Werte und t-Werte für jede Spalte in meinem Datensatz. Jedoch, um zu trainieren Sie

apache-spark apache-spark-ml machine-learning pyspark python

Summe Betrieb auf PySpark DataFrame geben TypeError, wenn der Typ in Ordnung ist

1 Antworten

Habe ich solche DataFrame in PySpark (dies ist das Ergebnis eines nehmen(3) das dataframe ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] den gleichen Besitzer mehr Zeilen. Was ich tun müssen,

apache-spark dataframe pyspark python

group-by-value in spark python

4 Antworten

Ich habe versucht, für die Gruppierung nach dem Wert von raw-Schlüssel-Wert-Paare wie [(1, a), (2, a), (3, a), (4, a), (3, b), (1, b), (1, c), (4, c), (4, d)] Ich bin in der Lage zu group

apache-spark pyspark python

Erstellen eines dictionary-Typ-Spalte in dataframe

3 Antworten

Betrachten Sie die folgenden dataframe: ------------+--------------------+ |id| values +------------+--------------------+ | 39|a,a,b,b,c,c,c,c,d | 520|a,b,c | 832|a,a Möchte ich es konvertieren in die folgenden DataFrame: ------------+--------------------+ |id| values +------------+--------------------+ | 39|{"a":2, "b": 2,"c": 4,"d": 1} | 520|{"a": 1,"b": 1,"c":

pyspark python spark-dataframe

Wie erstellen Sie eine Beispiel-Spark-dataFrame in Python?

4 Antworten

Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb

apache-spark apache-spark-sql pyspark

Apache Spark mit Python: Fehler

8 Antworten

Neu zu entfachen. Heruntergeladen alles in Ordnung, aber wenn ich pyspark, bekomme ich folgenden Fehler: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To

apache-spark pyspark python

Die Berechnung der Kosinus-ähnlichkeit zwischen allen Zeilen des dataframe in pyspark

1 Antworten

Ich habe einen Datensatz mit Arbeiter mit Ihrer demographischen Daten wie Alter, Geschlecht,Anschrift usw.-und Ihrem Arbeitsort. Ich habe eine RDD aus dem dataset-Objekt und konvertiert es in ein DataFrame. Gibt es mehrere Einträge für jede ID. Also,

Berechnen Sie die Zeit zwischen zwei Datumsangaben in pyspark

2 Antworten

Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from

apache-spark apache-spark-sql pyspark

pyspark in Ipython notebook wirft Py4JNetworkError

1 Antworten

War ich mit IPython notebook laufen PySpark nur mit hinzufügen der Folgendes notebook: import os os.chdir('../data_files') import sys import pandas as pd %pylab inline from IPython.display import Image os.environ['SPARK_HOME']="spark-1.3.1-bin-hadoop2.6" sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'python') ) sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'bin') )

ipython ipython-notebook pyspark

Nicht zu vergleichen zwei Daten in Spark SQL-Abfrage

1 Antworten

Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:

apache-spark apache-spark-sql pyspark

PySpark, Konvertieren Sie die Liste der Zeilen, um Daten-Frames

1 Antworten

Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt

apache-spark pyspark pyspark-sql python

Wie zu subtrahieren einer Spalte von Tage aus eine Spalte mit Datumsangaben in Pyspark?

4 Antworten

Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in

apache-spark apache-spark-sql pyspark python user-defined-functions

Wie die Summe von Werten in einem iterator in einem PySpark groupByKey()

3 Antworten

Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:

apache-spark iterator pyspark python rdd

pyspark zählen von Zeilen über Bedingung

2 Antworten

Ich habe einen dataframe test = spark.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330),('bn',2,220),('mb',14520,331)],['x','y','z']) test.show() Ich brauche zum zählen der Zeilen anhand einer Bedingung: test.groupBy("x").agg(count(col("y")>12453),count(col("z")>230)).show() gibt +---+------------------+----------------+ | x|count((y > 12453))|count((z > 230))| +---+------------------+----------------+ | bn| 2| 2| |

count pyspark

wordCounts.dstream().saveAsTextFiles("LOCAL FILE SYSTEM PATH", "txt"); nicht in Datei schreiben

3 Antworten

Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

apache-spark hadoop-streaming pyspark spark-streaming streaming

So finden die nächsten Nachbarn von 1 Milliarde Datensätze mit Spark?

3 Antworten

Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top

apache-spark euclidean-distance nearest-neighbor pyspark spark-dataframe

IF-Anweisung Pyspark

2 Antworten

Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

apache-spark apache-spark-sql if-statement pyspark pyspark-sql

SparkSQL - Lag-Funktion?

1 Antworten

Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich

apache-spark apache-spark-sql pyspark sql window-functions

finden Sie die minimale und maximale Datum aus den Daten in einem RDD in PySpark

3 Antworten

Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und

apache-spark datetime pyspark python rdd

So berechnen Sie die kumulative Summe über sqlContext

4 Antworten

Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es

apache-spark apache-spark-sql pyspark python

Pyspark auf Garn-cluster-Modus

1 Antworten

Gibt es eine Möglichkeit zu laufen pyspark Skripte mit Garn-cluster-Modus ohne Verwendung der spark-submit-Skript? Ich brauche es auf diese Weise, weil ich integriere diesen code in eine django-web-app. Wenn ich versuche zum ausführen von Skripts in Garn-cluster-Modus

apache-spark pyspark yarn

pyspark split eine Spalte auf mehrere Spalten ohne pandas

1 Antworten

meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es

apache-spark apache-spark-sql pyspark python

Py4J Fehler beim erstellen einer spark-dataframe mit pyspark

5 Antworten

Habe ich installiert pyspark mit python 3.6 und ich bin mit jupyter notebook zu initialisieren einer spark-Sitzung. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("test").enableHieSupport.getOrCreate() läuft ohne Fehler Aber ich Schreibe, df = spark.range(10) df.show() Wirft es mir

apache-spark pyspark python

Speichern von aggregierten Wert eines PySpark dataframe Spalte in eine variable

4 Antworten

Arbeite ich mit PySpark dataframes hier. "test1" ist mein PySpark dataframe und event_date ist ein TimestampType. Also, wenn ich versuche mir ein distinct count von event_date, das Ergebnis ist eine integer-variable, aber wenn ich versuche max von

apache-spark pyspark

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

2 Antworten

Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

apache-spark apache-spark-sql pyspark pyspark-sql python

PySpark & MLLib: Klasse Wahrscheinlichkeiten von Random Forest Vorhersagen

4 Antworten

Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich

apache-spark apache-spark-mllib pyspark random-forest

pyspark: pip install nicht finden konnte, eine version

4 Antworten

Ich versuche zu installieren die pyspark mit pip install wie unten. Aber ich bekam folgenden Fehler. (python_virenv)edamame$ pip install pyspark Collecting pyspark Could not find a version that satisfies the requirement pyspark (from versions: ) No matching

pip pyspark

Pyspark: PicklingError: Konnte nicht serialisiert Objekt:

1 Antworten

pickle pyspark user-defined-functions

Wie konnte ich das order by sum, in einen DataFrame in PySpark?

1 Antworten

Analog: order_items.groupBy("order_item_order_id").count().orderBy(desc("count")).show() Habe ich versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("sum")).show() aber das gibt einen Fehler: Py4JJavaError: Fehler beim aufrufen von o501.Art. : org.apache.spark.sql.AnalysisException: cannot resolve 'Summe' gegeben Eingabespalten order_item_order_id, SUM(order_item_subtotal#429); Habe ich auch schon versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("SUM(order_item_subtotal)")).show() aber ich bekomme den gleichen

pyspark python spark-dataframe

pySpark konvertieren einer Liste oder RDD element Wert (int)

1 Antworten

Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

apache-spark pyspark python rdd tokenize

Spark mit PySpark Lesen Bilder

2 Antworten

Hallo, ich habe eine Menge von Bildern (untere Millionen), die ich tun müssen, Einstufung auf. Ich bin mit Funken und es geschafft zu Lesen, in der alle Bilder im format von (filename1, content1), (filename2, content2) ... in

apache-spark image pyspark python scipy

gelten OneHotEncoder für mehrere kategorische Spalten in SparkMlib

2 Antworten

Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',

apache-spark apache-spark-ml apache-spark-mllib pyspark python