Tag: pyspark
Die Spark Python-API (PySpark) stellt der apache-spark-Programmiermodell Python.
2
Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|
1
Antworten
Lassen Sie uns sagen zum Beispiel, dass mein team ausgewählt hat Python als Referenz Sprache zu entwickeln, mit Funke. Aber später aus Gründen der Leistung, die wir entwickeln möchten, bestimmte Scala oder Java-spezifische Bibliotheken, um die Karte
2
Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...
1
Antworten
Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von
2
Antworten
Ich gesehen habe Fragen, die hier gepostet, die ähnlich wie mir, aber ich bin noch immer Fehler in meinem code, wenn Sie versuchen, einige Antworten akzeptiert. Ich habe einen dataframe mit drei Spalten--erstellt _am, text und Wörter
1
Antworten
Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und
1
Antworten
Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe
1
Antworten
Entweder pyspark oder sparkr (am besten beides), wie bekomme ich den Schnittpunkt von zwei DataFrame Spalten? Zum Beispiel, in sparkr ich habe Folgendes DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"), surname = c("Smith", "Williams", "Brown",
2
Antworten
Ich versuche zu starten, die Funke-shell für python aus dem Verzeichnis mit ./bin/pyspark Wenn ich den Befehl ausführen bekomme ich folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/launcher/Main Caused by: java.lang.ClassNotFoundException: org.apache.spark.launcher.Main at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method)
1
Antworten
Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für
5
Antworten
Habe ich ein Pandabären-Daten-frame my_df, und my_df.dtypes uns gibt: ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype: object Dann bin ich versucht zu konvertieren, die pandas data frame my_df zu Funken-Daten-frame-by-doing unter:
2
Antworten
Ich bin neu PySpark und ich habe eine AskReddit json-Datei die ich aus dieser link. Ich bin versucht, erstellen Sie eine RDD-die ich dann hoffen, führen den Betrieb wie map und flatmap. Ich wurde empfohlen, um die
2
Antworten
Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir
2
Antworten
Bin ich mit einem Spark-Streaming Aufgabe in einem cluster mithilfe von GARN. Jedem Knoten im cluster läuft mehrere Funken Arbeitnehmer. Bevor das streaming beginnt, möchte ich ausführen, dass die "setup" Funktion auf alle Arbeitnehmer auf allen Knoten
4
Antworten
Ich bin spark-die Einreichung einer python-Datei, die importiert numpy, aber ich bin immer ein no module named numpy Fehler. $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/www/my_numpy_als.py", line 13, in <module> from pyspark.mllib.recommendation
1
Antworten
Ich weiß, dass ich verwenden können, SparkConf.set ("Funke.app.name',...) zu setzen appName vor erstellen der SparkContext. Allerdings möchte ich ändern Sie den Namen der Anwendung ein, wie Sie fortschreitet, D. H., nach SparkContext erstellt wurde. Ach, Einstellung sc.appName
4
Antworten
Ich angetroffen habe mehrere Beispiele von SparkAction jobs in Oozie, und die meisten von Ihnen sind in Java. Ich Editiere ein wenig und führen Sie das Beispiel in Cloudera CDH Quickstart 5.4.0 (mit Spark version 1.4.0). workflow.xml
5
Antworten
Habe ich auf Spalte hinzufügen, um eine PySpark dataframe auf der Grundlage einer Liste von Werten. a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) Habe ich eine Liste namens rating, die Bewertung jedes Haustier. rating = [5,4,1]
3
Antworten
Ich versuche, führen Sie eine lineare regression in PySpark und ich möchte erstellen Sie eine Tabelle mit Zusammenfassung der Statistiken, wie die Koeffizienten, P-Werte und t-Werte für jede Spalte in meinem Datensatz. Jedoch, um zu trainieren Sie
1
Antworten
Habe ich solche DataFrame in PySpark (dies ist das Ergebnis eines nehmen(3) das dataframe ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] den gleichen Besitzer mehr Zeilen. Was ich tun müssen,
4
Antworten
Ich habe versucht, für die Gruppierung nach dem Wert von raw-Schlüssel-Wert-Paare wie [(1, a), (2, a), (3, a), (4, a), (3, b), (1, b), (1, c), (4, c), (4, d)] Ich bin in der Lage zu group
3
Antworten
Betrachten Sie die folgenden dataframe: ------------+--------------------+ |id| values +------------+--------------------+ | 39|a,a,b,b,c,c,c,c,d | 520|a,b,c | 832|a,a Möchte ich es konvertieren in die folgenden DataFrame: ------------+--------------------+ |id| values +------------+--------------------+ | 39|{"a":2, "b": 2,"c": 4,"d": 1} | 520|{"a": 1,"b": 1,"c":
4
Antworten
Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb
8
Antworten
Neu zu entfachen. Heruntergeladen alles in Ordnung, aber wenn ich pyspark, bekomme ich folgenden Fehler: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To
1
Antworten
Ich habe einen Datensatz mit Arbeiter mit Ihrer demographischen Daten wie Alter, Geschlecht,Anschrift usw.-und Ihrem Arbeitsort. Ich habe eine RDD aus dem dataset-Objekt und konvertiert es in ein DataFrame. Gibt es mehrere Einträge für jede ID. Also,
2
Antworten
Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from
1
Antworten
War ich mit IPython notebook laufen PySpark nur mit hinzufügen der Folgendes notebook: import os os.chdir('../data_files') import sys import pandas as pd %pylab inline from IPython.display import Image os.environ['SPARK_HOME']="spark-1.3.1-bin-hadoop2.6" sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'python') ) sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'bin') )
1
Antworten
Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:
1
Antworten
Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt
4
Antworten
Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in
3
Antworten
Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:
2
Antworten
Ich habe einen dataframe test = spark.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330),('bn',2,220),('mb',14520,331)],['x','y','z']) test.show() Ich brauche zum zählen der Zeilen anhand einer Bedingung: test.groupBy("x").agg(count(col("y")>12453),count(col("z")>230)).show() gibt +---+------------------+----------------+ | x|count((y > 12453))|count((z > 230))| +---+------------------+----------------+ | bn| 2| 2| |
3
Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }
3
Antworten
Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top
2
Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|
1
Antworten
Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich
3
Antworten
Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und
4
Antworten
Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es
1
Antworten
Gibt es eine Möglichkeit zu laufen pyspark Skripte mit Garn-cluster-Modus ohne Verwendung der spark-submit-Skript? Ich brauche es auf diese Weise, weil ich integriere diesen code in eine django-web-app. Wenn ich versuche zum ausführen von Skripts in Garn-cluster-Modus
1
Antworten
meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es
5
Antworten
Habe ich installiert pyspark mit python 3.6 und ich bin mit jupyter notebook zu initialisieren einer spark-Sitzung. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("test").enableHieSupport.getOrCreate() läuft ohne Fehler Aber ich Schreibe, df = spark.range(10) df.show() Wirft es mir
4
Antworten
Arbeite ich mit PySpark dataframes hier. "test1" ist mein PySpark dataframe und event_date ist ein TimestampType. Also, wenn ich versuche mir ein distinct count von event_date, das Ergebnis ist eine integer-variable, aber wenn ich versuche max von
2
Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df
4
Antworten
Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich
4
Antworten
Ich versuche zu installieren die pyspark mit pip install wie unten. Aber ich bekam folgenden Fehler. (python_virenv)edamame$ pip install pyspark Collecting pyspark Could not find a version that satisfies the requirement pyspark (from versions: ) No matching
1
Antworten
Habe ich die folgenden zwei data frames: df_whitelist und df_text +-------+--------------------+ |keyword| whitelist_terms | +-------+--------------------+ | LA| LA city| | LA| US LA in da | | client|this client has i...| | client|our client has do...| +-------+--------------------+
1
Antworten
Analog: order_items.groupBy("order_item_order_id").count().orderBy(desc("count")).show() Habe ich versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("sum")).show() aber das gibt einen Fehler: Py4JJavaError: Fehler beim aufrufen von o501.Art. : org.apache.spark.sql.AnalysisException: cannot resolve 'Summe' gegeben Eingabespalten order_item_order_id, SUM(order_item_subtotal#429); Habe ich auch schon versucht: order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("SUM(order_item_subtotal)")).show() aber ich bekomme den gleichen
1
Antworten
Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.
2
Antworten
Hallo, ich habe eine Menge von Bildern (untere Millionen), die ich tun müssen, Einstufung auf. Ich bin mit Funken und es geschafft zu Lesen, in der alle Bilder im format von (filename1, content1), (filename2, content2) ... in
2
Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',