Tag: rdd

Resilient Distributed Datasets (RDDs) sind ein distributed memory Abstraktion, die Programmierern ermöglicht die Durchführung von in-memory-Berechnungen auf großen Clustern, unter Beibehaltung der Fehlertoleranz von Datenfluss-Modellen wie MapReduce.

Tipps für das richtig die Verwendung von großen broadcast-Variablen?

Anzahl der Antworten 1 Antworten
Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und

Funke : Wie mapPartition und erstellen/Verbindung schließen pro partition

Anzahl der Antworten 2 Antworten
So, ich möchte, um bestimmte Operationen auf meine Funke DataFrame, schreibt Sie in die DB und erstellen Sie einen anderen DataFrame am Ende. Es sieht wie folgt aus : import sqlContext.implicits._ val newDF = myDF.mapPartitions( iterator =>

Pyspark JSON-Objekt oder eine Datei zu RDD

Anzahl der Antworten 2 Antworten
Ich bin neu PySpark und ich habe eine AskReddit json-Datei die ich aus dieser link. Ich bin versucht, erstellen Sie eine RDD-die ich dann hoffen, führen den Betrieb wie map und flatmap. Ich wurde empfohlen, um die

Wie funktioniert Sparks RDD.randomSplit tatsächlich teilen die RDD

Anzahl der Antworten 1 Antworten
Also davon ausgehen, ive bekam ein rdd mit 3000 Zeilen. Die 2000 ersten Zeilen der Klasse 1 und die letzten 1000 Zeilen der class2. Der RDD ist partitioniert über 100 Partitionen. Beim Aufruf RDD.randomSplit(0.8,0.2) Macht die Funktion

apache-spark-regex extrahieren Wörter aus rdd

Anzahl der Antworten 2 Antworten
Ich versuche, zu extrahieren Wörter aus einer Textdatei. Textdatei: "Line1 with words to extract" "Line2 with words to extract" "Line3 with words to extract" Folgendes gut funktioniert: val data = sc.textFile(file_in).map(_.toLowerCase).cache() val all = data.flatMap(a => "[a-zA-Z]+".r

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

Anzahl der Antworten 1 Antworten
Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

So aktualisieren Sie ein RDD?

Anzahl der Antworten 2 Antworten
Entwickeln wir in der Spark-Rahmen, worin bewegen wir uns historischen Daten, die in der RDD-sets. Grundsätzlich RDD ist unveränderlich, nur-lese-dataset, auf dem wir Aktionen. Auf dieser Basis haben wir verschoben historischen Daten in RDD und wir machen

Wie die Summe von Werten in einem iterator in einem PySpark groupByKey()

Anzahl der Antworten 3 Antworten
Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:

Zählen Sie auf Spark Dataframe ist extrem langsam

Anzahl der Antworten 2 Antworten
Ich bin erstellen Sie ein neues DataFrame mit einer Handvoll von Datensätzen aus einer Beitreten. val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) joined_df.cache() joined_df.count() Alles ist schnell (unter einer Sekunde), außer die count-Methode.

finden Sie die minimale und maximale Datum aus den Daten in einem RDD in PySpark

Anzahl der Antworten 3 Antworten
Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und

wie interpretieren RDD.treeAggregate

Anzahl der Antworten 1 Antworten
Lief ich in diese Zeile in der Apache-Spark source code val (gradientSum, lossSum, miniBatchSize) = data .sample(false, miniBatchFraction, 42 + i) .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))( seqOp = (c, v) => { //c: (grad, loss, count), v: (label, features)

Karte RDD zu PairRDD in Scala

Anzahl der Antworten 3 Antworten
Ich versuche, anzeigen RDD zu pairRDD in scala, so könnte ich reduceByKey später. Hier ist was ich getan habe: userRecords ist der org.apache.spark.rdd.RDD[UserElement] Ich versuchen, erstellen Sie eine pairRDD von userRecords wie unten: val userPairs: PairRDDFunctions[String, UserElement]

pySpark konvertieren einer Liste oder RDD element Wert (int)

Anzahl der Antworten 1 Antworten
Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

reduce() gegen die Falten() in Apache Spark

Anzahl der Antworten 1 Antworten
Was ist der Unterschied zwischen reduce vs. fold im Hinblick auf Ihre technische Umsetzung? Ich verstehe, dass Sie unterscheiden sich durch Ihre Signatur als fold akzeptiert zusätzliche parameter (D. H. Anfangswert), die Hinzugefügt wird jede partition Ausgang.

Was ist eine glom?. Wie unterscheidet es sich von mapPartitions?

Anzahl der Antworten 2 Antworten
Habe ich über das glom() Methode auf RDD. Gemäß der Dokumentation Rückkehr eine RDD erstellt durch Koaleszenz alle Elemente innerhalb jeder partition in ein array Tut glom schieben Sie die Daten auf die Partitionen, oder kommt es

Das verbinden von zwei RDD[String] -Funke-Scala

Anzahl der Antworten 1 Antworten
Habe ich zwei RDDS : rdd1 [String,String,String]: Name, Address, Zipcode rdd2 [String,String,String]: Name, Address, Landmark Ich versuche zu join diese 2 RDDs mit der Funktion : rdd1.join(rdd2) Aber ich erhalte eine Fehlermeldung : error: value fullOuterJoin is

'Liste' - Objekt hat kein Attribut 'anzeigen'

Anzahl der Antworten 1 Antworten
Ich weiß, es ist Ursache, dass map ist eine Funktion und keine Methode der Liste. Aber gibt es eine Möglichkeit, ich kann die map-Funktion zum übergeben von Daten an die Funktion aufgerufen, in anzeigen. Hier ist mein

Wie zu beheben scala.MatchError beim erstellen einer Daten-Frame

Anzahl der Antworten 1 Antworten
Ich habe die text-Datei, die komplexe strukturierte Reihe. Ich bin mit Kunden-Konverter, der konvertiert den gegebenen string(Zeile) zu Pojo-Klasse(countryInfo). Nach der Konvertierung, Baue ich DF. Die POJO-Klasse hat ein Feld, das eine Liste der Custome-Typ(GlobalizedPlayTimeWindows). Ich schuf

neu partitionieren() ist nicht auf RDD-partition Größe

Anzahl der Antworten 1 Antworten
Ich versuche, ändern Sie die Größe der partition einer RDD mit repartition () - Methode. Der Aufruf der Methode auf dem RDD gelingt, aber wenn ich explizit überprüfen Sie die Größe der partition mit partition.size-Eigenschaft des RDD,

Wie man N-te Zeile der Funke RDD?

Anzahl der Antworten 3 Antworten
Angenommen ich habe ein RDD beliebiger Objekte. Ich möchte um die 10 (sagen) Zeile des RDD. Wie soll ich das tun? Eine Möglichkeit ist die Verwendung von rdd.nehmen Sie(n) und dann Zugriff auf das N-te element ist

Gewusst wie: Sortieren einer RDD und Begrenzung in der Funke?

Anzahl der Antworten 1 Antworten
Ich habe RDD der Klasse "Foo": class Foo( name : String, createDate : Date ). Ich will eine andere RDD mit 10 Prozent älter Foo. Meine erste Idee war die Art von createDate - und Grenzwert von

Spark - scala: shuffle RDD / split-RDD in zwei willkürliche Teile zufällig

Anzahl der Antworten 2 Antworten
Wie kann ich einen rdd array Funke, und teilen Sie es in zwei rdds nach dem Zufallsprinzip, so dass jeder rdd wird auch einige Teil der Daten (sagen wir 97% und 3%). Dachte ich shuffle die Liste

Holen Sie sich den max-Wert für jeden Schlüssel in einem Spark-RDD

Anzahl der Antworten 1 Antworten
Was ist der beste Weg, um wieder die Zeile max (Wert) mit jeweils einer zugeordneten eindeutigen Schlüssel in einer spark-RDD? Bin ich mit python und ich habe versucht, Mathe max, das mapping und die Reduzierung von Tasten

Wie konvertieren von spark DataFrame zu RDD mllib LabeledPoints?

Anzahl der Antworten 1 Antworten
Habe ich versucht zu übernehmen PCA auf meine Daten und dann anwenden, RandomForest, um die transformierten Daten. Allerdings PCA.transform(Daten) gab mir einen DataFrame, aber ich brauche eine mllib LabeledPoints zu ernähren, meine RandomForest. Wie kann ich das

So konvertieren Sie eine Fall-Klasse-basierten RDD in ein DataFrame?

Anzahl der Antworten 3 Antworten
Den Spark-Dokumentation veranschaulicht, wie erstellen Sie ein DataFrame von einer RDD, mit Scala case-Klassen zu schließen, ein schema. Ich bin versucht zu reproduzieren, dieses Konzept mit sqlContext.createDataFrame(RDD, CaseClass), aber mein DataFrame endet leer. Hier ist mein Scala-code:

Ist groupByKey immer vorgezogen reduceByKey

Anzahl der Antworten 3 Antworten
Ich benutze immer reduceByKey wenn ich zum gruppieren von Daten in RDDs, denn es führt eine anzeigen-Seite zu reduzieren, bevor das mischen von Daten, was oft bedeutet, dass weniger Daten hin und her geschoben und ich somit

pyspark Partitionierung von Daten mit partitionby

Anzahl der Antworten 2 Antworten
Ich verstehe, dass partitionBy Funktion Partitionen meine Daten. Wenn ich rdd.partitionBy(100) es wird die partition meine Daten durch Schlüssel in 100 Teile. D. H. Daten, die im Zusammenhang mit ähnlichen Tasten gruppiert werden, Ist mein Verständnis richtig?

laden Sie eine lokale Datei, um eine Funke mit sc.Textdatei()

Anzahl der Antworten 4 Antworten
Frage So laden Sie eine Datei aus dem lokalen Dateisystem zu entfachen, mit sc.Textdatei? Muss ich ändern -env Variablen? Auch wenn ich versuchte, das gleiche auf meinem windows, wo Hadoop ist nicht installiert, ich habe den gleichen

Spark JSON-text-Feld zu RDD

Anzahl der Antworten 1 Antworten
Habe ich ein cassandra-Tabelle mit einem Feld vom Typ text namens snapshot mit JSON-Objekten: [identifier, timestamp, snapshot] Habe ich verstanden, dass, um in der Lage sein, um Transformationen auf das Feld mit der Funke, ich brauche, um

Konvertieren einer Scala Iterierbar[Tupel] zu RDD

Anzahl der Antworten 1 Antworten
Habe ich eine Liste von Tupeln (String, String, Int, Double), die ich konvertieren möchte, um Funken RDD. Im Allgemeinen, wie konvertiere ich eine Scala Iterierbar[(a1, a2, a3, ..., an)] in einer Spark-RDD? InformationsquelleAutor menorah84 | 2015-10-22

Konvertieren Sie eine RDD zu iterierbar: PySpark?

Anzahl der Antworten 2 Antworten
Habe ich ein RDD, die ich Schaffe, durch das laden einer text-Datei und Vorverarbeitung es. Ich will nicht, es zu sammeln und speichern Sie es auf der Festplatte oder Speicher(gesamte Daten), sondern vielmehr wollen, übergeben Sie es

So fügen Sie eine neue Spalte ein Funke RDD?

Anzahl der Antworten 2 Antworten
Habe ich ein RDD mit VIELE Spalten (z.B., Hunderte), wie füge ich eine weitere Spalte am Ende dieses RDD? Zum Beispiel, wenn mein RDD ist wie folgt: 123, 523, 534, ..., 893 536, 98, 1623, ..., 98472

pyspark join rdds durch einen speziellen Schlüssel

Anzahl der Antworten 2 Antworten
Habe ich zwei rdds, die ich brauche, um Sie miteinander zu verbinden. Sie sehen aus wie die folgenden: RDD1 [(u'2', u'100', 2), (u'1', u'300', 1), (u'1', u'200', 1)] RDD2 [(u'1', u'2'), (u'1', u'3')] Meine gewünschte Ausgabe: [(u'1',

Funke: Fehler: Wert geteilt wird, der nicht Mitglied der org.apache.spark.rdd.RDD[String]

Anzahl der Antworten 2 Antworten
Den code-snippet, das ich ausführen wollte: val textfile = sc.textFile("small_file.txt") val arr = textfile.split(",") for (v <- arr) { println(v) Die Pakete, die ich enthalten: import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.SparkContext._ import org.apache.spark.rdd.RDD._ import org.apache.spark.rdd.RDD Die Fehler,

Macht eine Verknüpfung von co-partitioniert RDDs verursachen einen shuffle in Apache Spark?

Anzahl der Antworten 1 Antworten
Wird rdd1.join(rdd2) Ursache shuffle passieren, wenn rdd1 und rdd2 haben die gleichen Partitionierer? Können Sie umschreiben diese Frage, um deutlicher zu sein? Nur weil RDDs Partitionen auf derselben Maschine bedeutet nicht, dass alle Tasten immer auf der

Spark / Scala: die Übergabe der RDD-Funktion

Anzahl der Antworten 2 Antworten
Bin ich gespannt, was genau passieren einer RDD auf eine Funktion in Spark. def my_func(x : RDD[String]) : RDD[String] = { do_something_here } Nehmen wir an, wir definieren eine Funktion wie oben. Wenn wir die Funktion aufrufen,

Wie partition RDD durch Schlüssel in der Funke?

Anzahl der Antworten 2 Antworten
Gegeben, dass die HashPartitioner docs sagen: [HashPartitioner] implementiert eine hash-basierte Partitionierung mit Java Objekt.hashCode. Sagen, ich will die partition DeviceData durch seine kind. case class DeviceData(kind: String, time: Long, data: String) Ist es richtig zu partition eine

So erstellen Sie ein DataFrame von einer text-Datei in Spark

Anzahl der Antworten 7 Antworten
Ich habe eine text Datei in HDFS und ich wollen, es zu konvertieren, um einen Daten-Frame in Spark. Bin ich mit der Spark-Rahmen um die Datei zu laden und dann versuchen zu generieren, die einzelnen Spalten aus

Drucken RDD-out auf die Konsole im spark streaming

Anzahl der Antworten 2 Antworten
Schreibe ich ein spark-streaming-Anwendung zum empfangen von Daten von Kafka durch die Verwendung KafkaUtils, und was ich will zu tun ist, drucken Sie Daten erhielt ich von Kafka. Hier ist mein code den ich verwenden spark-submit ausführen

'PipelinedRDD' - Objekt hat kein Attribut 'toDF' in PySpark

Anzahl der Antworten 1 Antworten
Ich versuche zu laden, ein SVM-Datei und wandeln Sie es in ein DataFrame so kann ich mit dem ML-Modul (Pipeline ML) aus Funken. Ich habe gerade installiert ein frisches Funke 1.5.0 unter Ubuntu 14.04 (keine spark-env.sh konfiguriert).

Wie zu glätten verschachtelte Listen in PySpark?

Anzahl der Antworten 1 Antworten
Ich habe eine RDD-Struktur wie: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]] und ich möchte es werden: rdd = [1,2,3,4,5,6,7,8,9,10] Wie Schreibe ich eine Karte oder verringern Funktion, damit es funktioniert? InformationsquelleAutor axinggu | 2016-01-10

Wie funktioniert HashPartitioner Arbeit?

Anzahl der Antworten 3 Antworten
Lese ich bis auf die Dokumentation der HashPartitioner. Leider nichts wurde viel erklärt, außer für die API-Aufrufe. Ich bin unter der Annahme, dass HashPartitioner Partitionen verteilt, basierend auf dem Hashwert des keys. Zum Beispiel, wenn meine Daten

Unterschied zwischen DataFrame, Dataset, und RDD Spark

Anzahl der Antworten 14 Antworten
Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor menorah84 | 2015-07-20

Mit foreach mit einem Funken RDD in python

Anzahl der Antworten 1 Antworten
Ich versuche es mit einem sehr großen RDD läuft auf einem cluster, und schreiben Sie es auf ein .csv. Es ist so groß, dass .collect() bricht, so dass stattdessen möchte ich zum speichern der RDD in Stücke

Pattern-matching - spark-scala RDD

Anzahl der Antworten 2 Antworten
Ich bin neu zu entfachen und Scala aus der R-hintergrund.Nach ein paar Transformationen von RDD, bekomme ich eine RDD-Typ Description: RDD[(String, Int)] Nun ich möchte einen Regulären Ausdruck auf den String-RDD und extrahieren von Teilzeichenfolgen aus der

spark RDD Sortieren durch zwei Werte

Anzahl der Antworten 1 Antworten
Ich habe eine RDDvon (name:String, popularity:Int, rank:Int). Ich möchte diese Art von rank und wenn rank entspricht dann popularity. Ich bin damit durch zwei Transformationen. var result = myRDD .sortBy(_._2, ascending = false) .sortBy(_._3, ascending = false)

Matrix-Multiplikation in Apache Spark

Anzahl der Antworten 1 Antworten
Ich versuche zum durchführen der matrix-Multiplikation unter Verwendung von Apache Spark und Java. Habe ich 2 wesentliche Fragen: How to create RDD vertreten kann matrix in Apache Spark? Wie multiplizieren von zwei solchen RDDs? InformationsquelleAutor Jigar |

pyspark: 'PipelinedRDD' - Objekt ist nicht durchsuchbar

Anzahl der Antworten 2 Antworten
Bin ich immer diese Fehlermeldung, aber ich weiß nicht, warum. Grundsätzlich bin ich erroring aus diesem code: a = data.mapPartitions(helper(locations)) wo Daten ist ein RDD und mein Helfer ist definiert als: def helper(iterator, locations): for x in

Funke: Wie RDD.Landkarte/mapToPair Arbeit mit Java

Anzahl der Antworten 3 Antworten
Habe ich einige Paare cw (Integer i, String word) mit ich Anzahl der vorkommen von Wort in eine text-Datei. Ich möchte einfach für jedes paar ein neues paar c1 (Integer i, 1) mit 1 festen Anzahl. Es

Vergleichen von Daten in zwei RDD-Zündkerzen

Anzahl der Antworten 2 Antworten
Ich bin in der Lage zu drucken, die Daten in zwei RDD mit dem code unten. usersRDD.foreach(println) empRDD.foreach(println) Ich brauche zum vergleichen von Daten in zwei RDDs. Wie kann ich Durchlaufen und vergleichen Sie Felddaten in einer