Tag: rdd

Resilient Distributed Datasets (RDDs) sind ein distributed memory Abstraktion, die Programmierern ermöglicht die Durchführung von in-memory-Berechnungen auf großen Clustern, unter Beibehaltung der Fehlertoleranz von Datenfluss-Modellen wie MapReduce.

Tipps für das richtig die Verwendung von großen broadcast-Variablen?

1 Antworten

Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und

Funke : Wie mapPartition und erstellen/Verbindung schließen pro partition

2 Antworten

So, ich möchte, um bestimmte Operationen auf meine Funke DataFrame, schreibt Sie in die DB und erstellen Sie einen anderen DataFrame am Ende. Es sieht wie folgt aus : import sqlContext.implicits._ val newDF = myDF.mapPartitions( iterator =>

apache-spark rdd scala

Pyspark JSON-Objekt oder eine Datei zu RDD

2 Antworten

Ich bin neu PySpark und ich habe eine AskReddit json-Datei die ich aus dieser link. Ich bin versucht, erstellen Sie eine RDD-die ich dann hoffen, führen den Betrieb wie map und flatmap. Ich wurde empfohlen, um die

json pyspark python rdd

Wie funktioniert Sparks RDD.randomSplit tatsächlich teilen die RDD

1 Antworten

Also davon ausgehen, ive bekam ein rdd mit 3000 Zeilen. Die 2000 ersten Zeilen der Klasse 1 und die letzten 1000 Zeilen der class2. Der RDD ist partitioniert über 100 Partitionen. Beim Aufruf RDD.randomSplit(0.8,0.2) Macht die Funktion

apache-spark rdd

apache-spark-regex extrahieren Wörter aus rdd

2 Antworten

Ich versuche, zu extrahieren Wörter aus einer Textdatei. Textdatei: "Line1 with words to extract" "Line2 with words to extract" "Line3 with words to extract" Folgendes gut funktioniert: val data = sc.textFile(file_in).map(_.toLowerCase).cache() val all = data.flatMap(a => "[a-zA-Z]+".r

apache-spark rdd regex scala

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

1 Antworten

Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

apache-spark dataframe rdd spark-csv spark-dataframe

So aktualisieren Sie ein RDD?

2 Antworten

Entwickeln wir in der Spark-Rahmen, worin bewegen wir uns historischen Daten, die in der RDD-sets. Grundsätzlich RDD ist unveränderlich, nur-lese-dataset, auf dem wir Aktionen. Auf dieser Basis haben wir verschoben historischen Daten in RDD und wir machen

apache-spark rdd spark-streaming

Wie die Summe von Werten in einem iterator in einem PySpark groupByKey()

3 Antworten

Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:

apache-spark iterator pyspark python rdd

Zählen Sie auf Spark Dataframe ist extrem langsam

2 Antworten

Ich bin erstellen Sie ein neues DataFrame mit einer Handvoll von Datensätzen aus einer Beitreten. val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) joined_df.cache() joined_df.count() Alles ist schnell (unter einer Sekunde), außer die count-Methode.

apache-spark count rdd scala spark-dataframe

finden Sie die minimale und maximale Datum aus den Daten in einem RDD in PySpark

3 Antworten

Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und

apache-spark datetime pyspark python rdd

wie interpretieren RDD.treeAggregate

1 Antworten

Lief ich in diese Zeile in der Apache-Spark source code val (gradientSum, lossSum, miniBatchSize) = data .sample(false, miniBatchFraction, 42 + i) .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))( seqOp = (c, v) => { //c: (grad, loss, count), v: (label, features)

apache-spark distributed-computing rdd scala

Karte RDD zu PairRDD in Scala

3 Antworten

Ich versuche, anzeigen RDD zu pairRDD in scala, so könnte ich reduceByKey später. Hier ist was ich getan habe: userRecords ist der org.apache.spark.rdd.RDD[UserElement] Ich versuchen, erstellen Sie eine pairRDD von userRecords wie unten: val userPairs: PairRDDFunctions[String, UserElement]

apache-spark java rdd scala

pySpark konvertieren einer Liste oder RDD element Wert (int)

1 Antworten

Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

apache-spark pyspark python rdd tokenize

reduce() gegen die Falten() in Apache Spark

1 Antworten

Was ist der Unterschied zwischen reduce vs. fold im Hinblick auf Ihre technische Umsetzung? Ich verstehe, dass Sie unterscheiden sich durch Ihre Signatur als fold akzeptiert zusätzliche parameter (D. H. Anfangswert), die Hinzugefügt wird jede partition Ausgang.

apache-spark fold rdd reduce scala

Was ist eine glom?. Wie unterscheidet es sich von mapPartitions?

2 Antworten

Habe ich über das glom() Methode auf RDD. Gemäß der Dokumentation Rückkehr eine RDD erstellt durch Koaleszenz alle Elemente innerhalb jeder partition in ein array Tut glom schieben Sie die Daten auf die Partitionen, oder kommt es

apache-spark rdd

Das verbinden von zwei RDD[String] -Funke-Scala

1 Antworten

Habe ich zwei RDDS : rdd1 [String,String,String]: Name, Address, Zipcode rdd2 [String,String,String]: Name, Address, Landmark Ich versuche zu join diese 2 RDDs mit der Funktion : rdd1.join(rdd2) Aber ich erhalte eine Fehlermeldung : error: value fullOuterJoin is

apache-spark join rdd scala string

'Liste' - Objekt hat kein Attribut 'anzeigen'

1 Antworten

Ich weiß, es ist Ursache, dass map ist eine Funktion und keine Methode der Liste. Aber gibt es eine Möglichkeit, ich kann die map-Funktion zum übergeben von Daten an die Funktion aufgerufen, in anzeigen. Hier ist mein

apache-spark pyspark rdd

Wie zu beheben scala.MatchError beim erstellen einer Daten-Frame

1 Antworten

Ich habe die text-Datei, die komplexe strukturierte Reihe. Ich bin mit Kunden-Konverter, der konvertiert den gegebenen string(Zeile) zu Pojo-Klasse(countryInfo). Nach der Konvertierung, Baue ich DF. Die POJO-Klasse hat ein Feld, das eine Liste der Custome-Typ(GlobalizedPlayTimeWindows). Ich schuf

case-class dataframe rdd scala

neu partitionieren() ist nicht auf RDD-partition Größe

1 Antworten

Ich versuche, ändern Sie die Größe der partition einer RDD mit repartition () - Methode. Der Aufruf der Methode auf dem RDD gelingt, aber wenn ich explizit überprüfen Sie die Größe der partition mit partition.size-Eigenschaft des RDD,

apache-spark rdd

Wie man N-te Zeile der Funke RDD?

3 Antworten

Angenommen ich habe ein RDD beliebiger Objekte. Ich möchte um die 10 (sagen) Zeile des RDD. Wie soll ich das tun? Eine Möglichkeit ist die Verwendung von rdd.nehmen Sie(n) und dann Zugriff auf das N-te element ist

apache-spark hadoop rdd

Gewusst wie: Sortieren einer RDD und Begrenzung in der Funke?

1 Antworten

Ich habe RDD der Klasse "Foo": class Foo( name : String, createDate : Date ). Ich will eine andere RDD mit 10 Prozent älter Foo. Meine erste Idee war die Art von createDate - und Grenzwert von

apache-spark rdd scala

Spark - scala: shuffle RDD / split-RDD in zwei willkürliche Teile zufällig

2 Antworten

Wie kann ich einen rdd array Funke, und teilen Sie es in zwei rdds nach dem Zufallsprinzip, so dass jeder rdd wird auch einige Teil der Daten (sagen wir 97% und 3%). Dachte ich shuffle die Liste

apache-spark rdd scala

Holen Sie sich den max-Wert für jeden Schlüssel in einem Spark-RDD

1 Antworten

Was ist der beste Weg, um wieder die Zeile max (Wert) mit jeweils einer zugeordneten eindeutigen Schlüssel in einer spark-RDD? Bin ich mit python und ich habe versucht, Mathe max, das mapping und die Reduzierung von Tasten

apache-spark pyspark python rdd

Wie konvertieren von spark DataFrame zu RDD mllib LabeledPoints?

1 Antworten

Habe ich versucht zu übernehmen PCA auf meine Daten und dann anwenden, RandomForest, um die transformierten Daten. Allerdings PCA.transform(Daten) gab mir einen DataFrame, aber ich brauche eine mllib LabeledPoints zu ernähren, meine RandomForest. Wie kann ich das

apache-spark apache-spark-mllib pca rdd scala

So konvertieren Sie eine Fall-Klasse-basierten RDD in ein DataFrame?

3 Antworten

Den Spark-Dokumentation veranschaulicht, wie erstellen Sie ein DataFrame von einer RDD, mit Scala case-Klassen zu schließen, ein schema. Ich bin versucht zu reproduzieren, dieses Konzept mit sqlContext.createDataFrame(RDD, CaseClass), aber mein DataFrame endet leer. Hier ist mein Scala-code:

apache-spark apache-spark-sql dataframe rdd scala

Ist groupByKey immer vorgezogen reduceByKey

3 Antworten

Ich benutze immer reduceByKey wenn ich zum gruppieren von Daten in RDDs, denn es führt eine anzeigen-Seite zu reduzieren, bevor das mischen von Daten, was oft bedeutet, dass weniger Daten hin und her geschoben und ich somit

apache-spark rdd

pyspark Partitionierung von Daten mit partitionby

2 Antworten

Ich verstehe, dass partitionBy Funktion Partitionen meine Daten. Wenn ich rdd.partitionBy(100) es wird die partition meine Daten durch Schlüssel in 100 Teile. D. H. Daten, die im Zusammenhang mit ähnlichen Tasten gruppiert werden, Ist mein Verständnis richtig?

apache-spark partitioning pyspark python rdd

laden Sie eine lokale Datei, um eine Funke mit sc.Textdatei()

4 Antworten

Frage So laden Sie eine Datei aus dem lokalen Dateisystem zu entfachen, mit sc.Textdatei? Muss ich ändern -env Variablen? Auch wenn ich versuchte, das gleiche auf meinem windows, wo Hadoop ist nicht installiert, ich habe den gleichen

apache-spark api hadoop rdd scala

Spark JSON-text-Feld zu RDD

1 Antworten

Habe ich ein cassandra-Tabelle mit einem Feld vom Typ text namens snapshot mit JSON-Objekten: [identifier, timestamp, snapshot] Habe ich verstanden, dass, um in der Lage sein, um Transformationen auf das Feld mit der Funke, ich brauche, um

apache-spark cassandra rdd scala

Konvertieren einer Scala Iterierbar[Tupel] zu RDD

1 Antworten

Habe ich eine Liste von Tupeln (String, String, Int, Double), die ich konvertieren möchte, um Funken RDD. Im Allgemeinen, wie konvertiere ich eine Scala Iterierbar[(a1, a2, a3, ..., an)] in einer Spark-RDD? InformationsquelleAutor menorah84 | 2015-10-22

apache-spark rdd scala

Konvertieren Sie eine RDD zu iterierbar: PySpark?

2 Antworten

Habe ich ein RDD, die ich Schaffe, durch das laden einer text-Datei und Vorverarbeitung es. Ich will nicht, es zu sammeln und speichern Sie es auf der Festplatte oder Speicher(gesamte Daten), sondern vielmehr wollen, übergeben Sie es

apache-spark pyspark python rdd

So fügen Sie eine neue Spalte ein Funke RDD?

2 Antworten

Habe ich ein RDD mit VIELE Spalten (z.B., Hunderte), wie füge ich eine weitere Spalte am Ende dieses RDD? Zum Beispiel, wenn mein RDD ist wie folgt: 123, 523, 534, ..., 893 536, 98, 1623, ..., 98472

apache-spark rdd

pyspark join rdds durch einen speziellen Schlüssel

2 Antworten

Habe ich zwei rdds, die ich brauche, um Sie miteinander zu verbinden. Sie sehen aus wie die folgenden: RDD1 [(u'2', u'100', 2), (u'1', u'300', 1), (u'1', u'200', 1)] RDD2 [(u'1', u'2'), (u'1', u'3')] Meine gewünschte Ausgabe: [(u'1',

join pyspark rdd

Funke: Fehler: Wert geteilt wird, der nicht Mitglied der org.apache.spark.rdd.RDD[String]

2 Antworten

Den code-snippet, das ich ausführen wollte: val textfile = sc.textFile("small_file.txt") val arr = textfile.split(",") for (v <- arr) { println(v) Die Pakete, die ich enthalten: import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.SparkContext._ import org.apache.spark.rdd.RDD._ import org.apache.spark.rdd.RDD Die Fehler,

apache-spark rdd scala split

Macht eine Verknüpfung von co-partitioniert RDDs verursachen einen shuffle in Apache Spark?

1 Antworten

Wird rdd1.join(rdd2) Ursache shuffle passieren, wenn rdd1 und rdd2 haben die gleichen Partitionierer? Können Sie umschreiben diese Frage, um deutlicher zu sein? Nur weil RDDs Partitionen auf derselben Maschine bedeutet nicht, dass alle Tasten immer auf der

apache-spark rdd spark-streaming

Spark / Scala: die Übergabe der RDD-Funktion

2 Antworten

Bin ich gespannt, was genau passieren einer RDD auf eine Funktion in Spark. def my_func(x : RDD[String]) : RDD[String] = { do_something_here } Nehmen wir an, wir definieren eine Funktion wie oben. Wenn wir die Funktion aufrufen,

apache-spark rdd scala

Wie partition RDD durch Schlüssel in der Funke?

2 Antworten

Gegeben, dass die HashPartitioner docs sagen: [HashPartitioner] implementiert eine hash-basierte Partitionierung mit Java Objekt.hashCode. Sagen, ich will die partition DeviceData durch seine kind. case class DeviceData(kind: String, time: Long, data: String) Ist es richtig zu partition eine

apache-spark rdd scala

So erstellen Sie ein DataFrame von einer text-Datei in Spark

7 Antworten

Ich habe eine text Datei in HDFS und ich wollen, es zu konvertieren, um einen Daten-Frame in Spark. Bin ich mit der Spark-Rahmen um die Datei zu laden und dann versuchen zu generieren, die einzelnen Spalten aus

apache-spark apache-spark-sql dataframe rdd scala

Drucken RDD-out auf die Konsole im spark streaming

2 Antworten

Schreibe ich ein spark-streaming-Anwendung zum empfangen von Daten von Kafka durch die Verwendung KafkaUtils, und was ich will zu tun ist, drucken Sie Daten erhielt ich von Kafka. Hier ist mein code den ich verwenden spark-submit ausführen

apache-spark rdd spark-streaming

'PipelinedRDD' - Objekt hat kein Attribut 'toDF' in PySpark

1 Antworten

Ich versuche zu laden, ein SVM-Datei und wandeln Sie es in ein DataFrame so kann ich mit dem ML-Modul (Pipeline ML) aus Funken. Ich habe gerade installiert ein frisches Funke 1.5.0 unter Ubuntu 14.04 (keine spark-env.sh konfiguriert).

apache-spark apache-spark-sql pyspark python rdd

Wie zu glätten verschachtelte Listen in PySpark?

1 Antworten

Ich habe eine RDD-Struktur wie: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]] und ich möchte es werden: rdd = [1,2,3,4,5,6,7,8,9,10] Wie Schreibe ich eine Karte oder verringern Funktion, damit es funktioniert? InformationsquelleAutor axinggu | 2016-01-10

apache-spark python rdd

Wie funktioniert HashPartitioner Arbeit?

3 Antworten

Lese ich bis auf die Dokumentation der HashPartitioner. Leider nichts wurde viel erklärt, außer für die API-Aufrufe. Ich bin unter der Annahme, dass HashPartitioner Partitionen verteilt, basierend auf dem Hashwert des keys. Zum Beispiel, wenn meine Daten

apache-spark partitioning rdd scala

Unterschied zwischen DataFrame, Dataset, und RDD Spark

14 Antworten

Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor menorah84 | 2015-07-20

apache-spark apache-spark-dataset apache-spark-sql rdd

Mit foreach mit einem Funken RDD in python

1 Antworten

Ich versuche es mit einem sehr großen RDD läuft auf einem cluster, und schreiben Sie es auf ein .csv. Es ist so groß, dass .collect() bricht, so dass stattdessen möchte ich zum speichern der RDD in Stücke

apache-spark foreach python rdd

Pattern-matching - spark-scala RDD

2 Antworten

Ich bin neu zu entfachen und Scala aus der R-hintergrund.Nach ein paar Transformationen von RDD, bekomme ich eine RDD-Typ Description: RDD[(String, Int)] Nun ich möchte einen Regulären Ausdruck auf den String-RDD und extrahieren von Teilzeichenfolgen aus der

apache-spark pattern-matching rdd regex scala

spark RDD Sortieren durch zwei Werte

1 Antworten

Ich habe eine RDDvon (name:String, popularity:Int, rank:Int). Ich möchte diese Art von rank und wenn rank entspricht dann popularity. Ich bin damit durch zwei Transformationen. var result = myRDD .sortBy(_._2, ascending = false) .sortBy(_._3, ascending = false)

apache-spark rdd scala sorting

Matrix-Multiplikation in Apache Spark

1 Antworten

Ich versuche zum durchführen der matrix-Multiplikation unter Verwendung von Apache Spark und Java. Habe ich 2 wesentliche Fragen: How to create RDD vertreten kann matrix in Apache Spark? Wie multiplizieren von zwei solchen RDDs? InformationsquelleAutor Jigar |

apache-spark apache-spark-mllib java rdd scala

pyspark: 'PipelinedRDD' - Objekt ist nicht durchsuchbar

2 Antworten

Bin ich immer diese Fehlermeldung, aber ich weiß nicht, warum. Grundsätzlich bin ich erroring aus diesem code: a = data.mapPartitions(helper(locations)) wo Daten ist ein RDD und mein Helfer ist definiert als: def helper(iterator, locations): for x in

pyspark rdd

Funke: Wie RDD.Landkarte/mapToPair Arbeit mit Java

3 Antworten

Habe ich einige Paare cw (Integer i, String word) mit ich Anzahl der vorkommen von Wort in eine text-Datei. Ich möchte einfach für jedes paar ein neues paar c1 (Integer i, 1) mit 1 festen Anzahl. Es

apache-spark java keyvaluepair rdd tuples

Vergleichen von Daten in zwei RDD-Zündkerzen

2 Antworten

Ich bin in der Lage zu drucken, die Daten in zwei RDD mit dem code unten. usersRDD.foreach(println) empRDD.foreach(println) Ich brauche zum vergleichen von Daten in zwei RDDs. Wie kann ich Durchlaufen und vergleichen Sie Felddaten in einer

apache-spark cloudera-cdh rdd scala-2.10