Tag: pyspark

Die Spark Python-API (PySpark) stellt der apache-spark-Programmiermodell Python.

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

Anzahl der Antworten 2 Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

Spark: How to map Python mit Scala oder Java-User Defined Functions?

Anzahl der Antworten 1 Antworten
Lassen Sie uns sagen zum Beispiel, dass mein team ausgewählt hat Python als Referenz Sprache zu entwickeln, mit Funke. Aber später aus Gründen der Leistung, die wir entwickeln möchten, bestimmte Scala oder Java-spezifische Bibliotheken, um die Karte

PySpark - Split/Filter DataFrame Spalte Werte

Anzahl der Antworten 2 Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...

Wie UND-oder oder-Bedingung in der wenn in der Funke

Anzahl der Antworten 1 Antworten
Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von

Filterung pyspark dataframe, wenn die Spalte text enthält Wörter in der angegebenen Liste

Anzahl der Antworten 2 Antworten
Ich gesehen habe Fragen, die hier gepostet, die ähnlich wie mir, aber ich bin noch immer Fehler in meinem code, wenn Sie versuchen, einige Antworten akzeptiert. Ich habe einen dataframe mit drei Spalten--erstellt _am, text und Wörter

Tipps für das richtig die Verwendung von großen broadcast-Variablen?

Anzahl der Antworten 1 Antworten
Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und

Fall, wenn-statement mit IN-Klausel in Pyspark

Anzahl der Antworten 1 Antworten
Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe

So prüfen Sie den Schnittpunkt von zwei DataFrame Spalten in der Funke

Anzahl der Antworten 1 Antworten
Entweder pyspark oder sparkr (am besten beides), wie bekomme ich den Schnittpunkt von zwei DataFrame Spalten? Zum Beispiel, in sparkr ich habe Folgendes DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"), surname = c("Smith", "Williams", "Brown",

ClassNotFoundException geworfen Einführung Funke-Shell

Anzahl der Antworten 2 Antworten
Ich versuche zu starten, die Funke-shell für python aus dem Verzeichnis mit ./bin/pyspark Wenn ich den Befehl ausführen bekomme ich folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/launcher/Main Caused by: java.lang.ClassNotFoundException: org.apache.spark.launcher.Main at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method)

Tut spark-predicate-pushdown-Arbeit mit JDBC?

Anzahl der Antworten 1 Antworten
Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für

pyspark: ValueError: Einige Arten nicht bestimmt werden kann nach der Herleitung

Anzahl der Antworten 5 Antworten
Habe ich ein Pandabären-Daten-frame my_df, und my_df.dtypes uns gibt: ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype: object Dann bin ich versucht zu konvertieren, die pandas data frame my_df zu Funken-Daten-frame-by-doing unter:

Pyspark JSON-Objekt oder eine Datei zu RDD

Anzahl der Antworten 2 Antworten
Ich bin neu PySpark und ich habe eine AskReddit json-Datei die ich aus dieser link. Ich bin versucht, erstellen Sie eine RDD-die ich dann hoffen, führen den Betrieb wie map und flatmap. Ich wurde empfohlen, um die

Gewusst wie: übergeben von Variablen in spark SQL mit python?

Anzahl der Antworten 2 Antworten
Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir

Wie, um eine Funktion auszuführen auf alle Spark-Arbeiter vor der Verarbeitung Daten in PySpark?

Anzahl der Antworten 2 Antworten
Bin ich mit einem Spark-Streaming Aufgabe in einem cluster mithilfe von GARN. Jedem Knoten im cluster läuft mehrere Funken Arbeitnehmer. Bevor das streaming beginnt, möchte ich ausführen, dass die "setup" Funktion auf alle Arbeitnehmer auf allen Knoten

Kein Modul namens numpy, wenn spark-Abgabe

Anzahl der Antworten 4 Antworten
Ich bin spark-die Einreichung einer python-Datei, die importiert numpy, aber ich bin immer ein no module named numpy Fehler. $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/www/my_numpy_als.py", line 13, in <module> from pyspark.mllib.recommendation

Kann ich das ändern SparkContext.appName on-the-fly?

Anzahl der Antworten 1 Antworten
Ich weiß, dass ich verwenden können, SparkConf.set ("Funke.app.name',...) zu setzen appName vor erstellen der SparkContext. Allerdings möchte ich ändern Sie den Namen der Anwendung ein, wie Sie fortschreitet, D. H., nach SparkContext erstellt wurde. Ach, Einstellung sc.appName

Oozie-job nicht ausgeführt werden, wenn mit PySpark in SparkAction

Anzahl der Antworten 4 Antworten
Ich angetroffen habe mehrere Beispiele von SparkAction jobs in Oozie, und die meisten von Ihnen sind in Java. Ich Editiere ein wenig und führen Sie das Beispiel in Cloudera CDH Quickstart 5.4.0 (mit Spark version 1.4.0). workflow.xml

PySpark - das Hinzufügen einer Spalte aus einer Liste von Werten mithilfe einer UDF

Anzahl der Antworten 5 Antworten
Habe ich auf Spalte hinzufügen, um eine PySpark dataframe auf der Grundlage einer Liste von Werten. a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) Habe ich eine Liste namens rating, die Bewertung jedes Haustier. rating = [5,4,1]

Wie anzeigen-Funktionen aus der Ausgabe eines VectorAssembler zurück zu den Spaltennamen in der Funke ML?

Anzahl der Antworten 3 Antworten
Ich versuche, führen Sie eine lineare regression in PySpark und ich möchte erstellen Sie eine Tabelle mit Zusammenfassung der Statistiken, wie die Koeffizienten, P-Werte und t-Werte für jede Spalte in meinem Datensatz. Jedoch, um zu trainieren Sie

Summe Betrieb auf PySpark DataFrame geben TypeError, wenn der Typ in Ordnung ist

Anzahl der Antworten 1 Antworten
Habe ich solche DataFrame in PySpark (dies ist das Ergebnis eines nehmen(3) das dataframe ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] den gleichen Besitzer mehr Zeilen. Was ich tun müssen,

group-by-value in spark python

Anzahl der Antworten 4 Antworten
Ich habe versucht, für die Gruppierung nach dem Wert von raw-Schlüssel-Wert-Paare wie [(1, a), (2, a), (3, a), (4, a), (3, b), (1, b), (1, c), (4, c), (4, d)] Ich bin in der Lage zu group

Erstellen eines dictionary-Typ-Spalte in dataframe

Anzahl der Antworten 3 Antworten
Betrachten Sie die folgenden dataframe: ------------+--------------------+ |id| values +------------+--------------------+ | 39|a,a,b,b,c,c,c,c,d | 520|a,b,c | 832|a,a Möchte ich es konvertieren in die folgenden DataFrame: ------------+--------------------+ |id| values +------------+--------------------+ | 39|{"a":2, "b": 2,"c": 4,"d": 1} | 520|{"a": 1,"b": 1,"c":

Wie erstellen Sie eine Beispiel-Spark-dataFrame in Python?

Anzahl der Antworten 4 Antworten
Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb

Apache Spark mit Python: Fehler

Anzahl der Antworten 8 Antworten
Neu zu entfachen. Heruntergeladen alles in Ordnung, aber wenn ich pyspark, bekomme ich folgenden Fehler: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To

Die Berechnung der Kosinus-ähnlichkeit zwischen allen Zeilen des dataframe in pyspark

Anzahl der Antworten 1 Antworten
Ich habe einen Datensatz mit Arbeiter mit Ihrer demographischen Daten wie Alter, Geschlecht,Anschrift usw.-und Ihrem Arbeitsort. Ich habe eine RDD aus dem dataset-Objekt und konvertiert es in ein DataFrame. Gibt es mehrere Einträge für jede ID. Also,

Berechnen Sie die Zeit zwischen zwei Datumsangaben in pyspark

Anzahl der Antworten 2 Antworten
Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from

pyspark in Ipython notebook wirft Py4JNetworkError

Anzahl der Antworten 1 Antworten
War ich mit IPython notebook laufen PySpark nur mit hinzufügen der Folgendes notebook: import os os.chdir('../data_files') import sys import pandas as pd %pylab inline from IPython.display import Image os.environ['SPARK_HOME']="spark-1.3.1-bin-hadoop2.6" sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'python') ) sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'bin') )

Nicht zu vergleichen zwei Daten in Spark SQL-Abfrage

Anzahl der Antworten 1 Antworten
Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:

PySpark, Konvertieren Sie die Liste der Zeilen, um Daten-Frames

Anzahl der Antworten 1 Antworten
Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt

Wie zu subtrahieren einer Spalte von Tage aus eine Spalte mit Datumsangaben in Pyspark?

Anzahl der Antworten 4 Antworten
Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in

Wie die Summe von Werten in einem iterator in einem PySpark groupByKey()

Anzahl der Antworten 3 Antworten
Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:

pyspark zählen von Zeilen über Bedingung

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe test = spark.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330),('bn',2,220),('mb',14520,331)],['x','y','z']) test.show() Ich brauche zum zählen der Zeilen anhand einer Bedingung: test.groupBy("x").agg(count(col("y")>12453),count(col("z")>230)).show() gibt +---+------------------+----------------+ | x|count((y > 12453))|count((z > 230))| +---+------------------+----------------+ | bn| 2| 2| |

wordCounts.dstream().saveAsTextFiles("LOCAL FILE SYSTEM PATH", "txt"); nicht in Datei schreiben

Anzahl der Antworten 3 Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

So finden die nächsten Nachbarn von 1 Milliarde Datensätze mit Spark?

Anzahl der Antworten 3 Antworten
Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top

IF-Anweisung Pyspark

Anzahl der Antworten 2 Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

SparkSQL - Lag-Funktion?

Anzahl der Antworten 1 Antworten
Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich

finden Sie die minimale und maximale Datum aus den Daten in einem RDD in PySpark

Anzahl der Antworten 3 Antworten
Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und

So berechnen Sie die kumulative Summe über sqlContext

Anzahl der Antworten 4 Antworten
Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es

Pyspark auf Garn-cluster-Modus

Anzahl der Antworten 1 Antworten
Gibt es eine Möglichkeit zu laufen pyspark Skripte mit Garn-cluster-Modus ohne Verwendung der spark-submit-Skript? Ich brauche es auf diese Weise, weil ich integriere diesen code in eine django-web-app. Wenn ich versuche zum ausführen von Skripts in Garn-cluster-Modus

pyspark split eine Spalte auf mehrere Spalten ohne pandas

Anzahl der Antworten 1 Antworten
meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es

Py4J Fehler beim erstellen einer spark-dataframe mit pyspark

Anzahl der Antworten 5 Antworten
Habe ich installiert pyspark mit python 3.6 und ich bin mit jupyter notebook zu initialisieren einer spark-Sitzung. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("test").enableHieSupport.getOrCreate() läuft ohne Fehler Aber ich Schreibe, df = spark.range(10) df.show() Wirft es mir

Speichern von aggregierten Wert eines PySpark dataframe Spalte in eine variable

Anzahl der Antworten 4 Antworten
Arbeite ich mit PySpark dataframes hier. "test1" ist mein PySpark dataframe und event_date ist ein TimestampType. Also, wenn ich versuche mir ein distinct count von event_date, das Ergebnis ist eine integer-variable, aber wenn ich versuche max von

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

Anzahl der Antworten 2 Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

PySpark & MLLib: Klasse Wahrscheinlichkeiten von Random Forest Vorhersagen

Anzahl der Antworten 4 Antworten
Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich

pyspark: pip install nicht finden konnte, eine version

Anzahl der Antworten 4 Antworten
Ich versuche zu installieren die pyspark mit pip install wie unten. Aber ich bekam folgenden Fehler. (python_virenv)edamame$ pip install pyspark Collecting pyspark Could not find a version that satisfies the requirement pyspark (from versions: ) No matching

Pyspark: PicklingError: Konnte nicht serialisiert Objekt:

Anzahl der Antworten 1 Antworten
Habe ich die folgenden zwei data frames: df_whitelist und df_text +-------+--------------------+ |keyword| whitelist_terms | +-------+--------------------+ | LA| LA city| | LA| US LA in da | | client|this client has i...| | client|our client has do...| +-------+--------------------+

Wie konnte ich das order by sum, in einen DataFrame in PySpark?

Anzahl der Antworten 1 Antworten
Analog: order_items.groupBy("order_item_order_id").count().orderBy(desc("count")).show() Habe ich versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("sum")).show() aber das gibt einen Fehler: Py4JJavaError: Fehler beim aufrufen von o501.Art. : org.apache.spark.sql.AnalysisException: cannot resolve 'Summe' gegeben Eingabespalten order_item_order_id, SUM(order_item_subtotal#429); Habe ich auch schon versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("SUM(order_item_subtotal)")).show() aber ich bekomme den gleichen

pySpark konvertieren einer Liste oder RDD element Wert (int)

Anzahl der Antworten 1 Antworten
Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

Spark mit PySpark Lesen Bilder

Anzahl der Antworten 2 Antworten
Hallo, ich habe eine Menge von Bildern (untere Millionen), die ich tun müssen, Einstufung auf. Ich bin mit Funken und es geschafft zu Lesen, in der alle Bilder im format von (filename1, content1), (filename2, content2) ... in

gelten OneHotEncoder für mehrere kategorische Spalten in SparkMlib

Anzahl der Antworten 2 Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',