Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Verursacht durch: java.lang.ClassNotFoundException: org.apache.hadoop.fs.CanSetDropBehind Problem in ecllipse

Anzahl der Antworten 2 Antworten
Habe ich das unter spark-word-count-Programm : package com.sample.spark; import java.util.Arrays; import java.util.List; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.spark.api.java.*; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFlatMapFunction; import org.apache.spark.api.java.function.PairFunction; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import scala.Tuple2; public class SparkWordCount

org.apache.spark.rpc.RpcTimeoutException: Futures-Zeitüberschreitung nach [120 Sekunden]. Dieser timeout wird gesteuert durch Funken.rpc.lookupTimeout

Anzahl der Antworten 2 Antworten
Immer die folgende Fehlermeldung mit Bezug auf den container, während die Abgabe einer spark-Applikation zu GARN. Die HADOOP(2.7.3)/SPARK (2.1) - Umgebung ausgeführt wird, ein pseudo-distributed mode in einem single-node-cluster. Die Anwendung funktioniert perfekt, wenn gemacht, um die

Spark MLLib Kmeans von dataframe, und wieder zurück

Anzahl der Antworten 4 Antworten
Ich das Ziel, mich zu bewerben, ein kmeans-clustering-Algorithmus, um einen sehr großen Datensatz, mit Funken (1.3.1) MLLib. Habe ich aufgerufen, die Daten aus HDFS mit einem hiveContext von Spark und möchte schließlich, um ihn wieder dort Weg

So speichern Sie eine Karte Ergebnis in eine text-Datei in Spark scala?

Anzahl der Antworten 3 Antworten
Habe ich dieses: val tokenFreq = reverseKey.countByKey //tokenFreq: scala.collection.Map[String,Long] = Map(ABIGAIL -> 3,... und ich wollen speichern Sie die tokenFreq das Ergebnis in eine text-Datei. Habe ich versucht zu verwenden saveAsTextFile, aber er sagt: Fehler: Wert saveAsTextFile

Übergabe in Kerberos-keytab - /AUFTRAGGEBER über SparkLauncher

Anzahl der Antworten 2 Antworten
spark-submit ermöglicht es uns, übergeben Sie die Kerberos-Anmeldeinformationen über die --keytab und --principal Optionen. Wenn ich versuche, fügen Sie diese über addSparkArg("--keytab",keytab) bekomme ich einen '--keytab' does not expect a value Fehler - ich nehme an, diese

Unterschied zwischen rdd.sammeln().toMap zu rdd.collectAsMap()?

Anzahl der Antworten 2 Antworten
Gibt es Auswirkungen auf die Leistung, wenn ich collectAsMap auf meine RDD statt rdd.sammeln().toMap ? Ich habe einen Schlüssel-Wert rdd und ich konvertieren möchten, um HashMap so weit ich weiß, collect() nicht effizient auf große Datensätze, wie

Wie schaffen encoder für benutzerdefinierte Java-Objekte?

Anzahl der Antworten 1 Antworten
Verwende ich folgende Klasse erstellen bean von Spark Encoder Class OuterClass implements Serializable { int id; ArrayList<InnerClass> listofInner; public int getId() { return id; } public void setId (int num) { this.id = num; } public ArrayList<InnerClass>

pySpark konvertieren einer Liste oder RDD element Wert (int)

Anzahl der Antworten 1 Antworten
Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

erstellen Sie eindeutige Werte für jede Taste in einer spark-RDD

Anzahl der Antworten 2 Antworten
Ich möchte erstellen Sie eine RDD von key, value Paare, wo jeder Schlüssel hätte einen eindeutigen Wert. Der Zweck ist, zu "erinnern" Schlüssel-Indizes für später verwenden, da die Tasten möglicherweise gemischt, um die Partitionen, und im Grunde

Machen Schlüssel-Wert-Paare aus einem HDFS-Sequenz-Datei mit Apache Spark

Anzahl der Antworten 1 Antworten
Was ist der beste Weg, um Schlüssel-Wert-Paare aus einem HDFS-Sequenz-Datei? Der Grund, warum ich Frage, ich habe zum Sortieren einer Sequenz-Datei. Die sortByKey Methode ist nicht verfügbar, es sei denn, Ihr RDD ist in der form von

Führen Sie eine typisierte Verknüpfung in Scala mit Funken-Datasets

Anzahl der Antworten 2 Antworten
Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.

Wie man den Namen der Datei für die Aufzeichnung in spark RDD (JavaRDD)

Anzahl der Antworten 3 Antworten
Ich bin laden Sie mehrere Dateien in eine JavaRDD mit JavaRDD<String> allLines = sc.textFile(hdfs://path/*.csv); Nach dem laden der Dateien, die ich ändern jeder Datensatz und wollen, um Sie zu speichern. Allerdings muss ich auch speichern Sie die

Wie kann ich auf Werte zugreifen, die in einer scala.Sammlung.veränderlich.WrappedArray von WrappedArray in java

Anzahl der Antworten 1 Antworten
Ich bin Parsen einer json-Datei in SparkSQL in JAVA und ich muss in der Lage sein, um Zugriff auf die Koordinaten, die sind wieder in, was scheint, ein WrappedArray von WrappedArrays. Hier ist der code: df.registerTempTable("test_articles"); sql

Elemente des Typs Struktur der Zeile, die mit Namen SPARK SCALA

Anzahl der Antworten 1 Antworten
In einem DataFrame-Objekt in Apache Spark (ich bin mit dem Scala-Schnittstelle), wenn ich mich Durchlaufen der Zeilen-Objekte, gibt es eine Möglichkeit, zu extrahieren Struktur der Werte name? Ich bin mit dem folgenden code zu extrahieren, die mit

reduce() gegen die Falten() in Apache Spark

Anzahl der Antworten 1 Antworten
Was ist der Unterschied zwischen reduce vs. fold im Hinblick auf Ihre technische Umsetzung? Ich verstehe, dass Sie unterscheiden sich durch Ihre Signatur als fold akzeptiert zusätzliche parameter (D. H. Anfangswert), die Hinzugefügt wird jede partition Ausgang.

Spark mit PySpark Lesen Bilder

Anzahl der Antworten 2 Antworten
Hallo, ich habe eine Menge von Bildern (untere Millionen), die ich tun müssen, Einstufung auf. Ich bin mit Funken und es geschafft zu Lesen, in der alle Bilder im format von (filename1, content1), (filename2, content2) ... in

gelten OneHotEncoder für mehrere kategorische Spalten in SparkMlib

Anzahl der Antworten 2 Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',

pyspark Lineare Regression Beispiel aus der offiziellen Dokumentation - Schlechte Ergebnisse?

Anzahl der Antworten 1 Antworten
Ich Plane, verwenden Sie die Lineare Regression in der Funke. Um loszulegen, ich habe das Beispiel aus der offiziellen Dokumentation (die finden Sie hier) Fand ich auch diese Frage auf stackoverflow, die im wesentlichen die gleiche Frage

pyspark gewusst wie: laden von komprimierten bissig-Datei

Anzahl der Antworten 2 Antworten
Habe ich komprimiert eine Datei mit python-bissig und steckte es in meine hdfs-Speicher. Ich versuche jetzt, es zu Lesen in wie so aber bekomme ich folgenden traceback. Ich kann nicht finden, ein Beispiel, wie die Datei zu

Spark-iteration Zeit steigt exponentiell bei der Verwendung von join

Anzahl der Antworten 3 Antworten
Ich bin ganz neu zu entfachen, und ich bin versucht zu implementieren iterative Algorithmus für clustering (expectation-maximization) mit Schwerpunkt vertreten durch Markov-Modell. Also muss ich tun, Iterationen und schließt. Einem problem, das ich erlebe ist, dass die

Spark - Erstellen Von Verschachtelten DataFrame

Anzahl der Antworten 3 Antworten
Fange ich mit PySpark und ich habe Probleme mit dem erstellen von DataFrames mit verschachtelten Objekten. Dies ist mein Beispiel. Ich habe Benutzer. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} Nutzer haben Aufträge. $ cat order.json {"id":1,"price":202.30,"userid":1} {"id":2,"price":343.99,"userid":1} {"id":3,"price":399.99,"userid":2}

Spark streaming-Ausgabe nicht gespeichert HDFS-Datei

Anzahl der Antworten 4 Antworten
Ich versuche zu sparen das Spark-streaming-Ausgang zu einer Datei in HDFS. Gerade jetzt, es ist nicht speichern Sie eine beliebige Datei. Hier ist mein code : StreamingExamples.setStreamingLogLevels(); SparkConf sparkConf = new SparkConf().setAppName("MyTestCOunt"); JavaStreamingContext ssc = new JavaStreamingContext(sparkConf,

Wie berechne ich den Mittelwert von jedem paar in einer RDD, bestehend aus (Key, [Wert]) - Paare in der Funke?

Anzahl der Antworten 3 Antworten
Ich bin sehr neu für Scala und Funken, also bitte verzeihen Sie mir, wenn ich werde über dieses komplett falsch. Nach der Aufnahme in eine csv-Datei, Filterung und Zuordnung; ich habe eine RDD, dass ist ein Haufen

Was ist eine glom?. Wie unterscheidet es sich von mapPartitions?

Anzahl der Antworten 2 Antworten
Habe ich über das glom() Methode auf RDD. Gemäß der Dokumentation Rückkehr eine RDD erstellt durch Koaleszenz alle Elemente innerhalb jeder partition in ein array Tut glom schieben Sie die Daten auf die Partitionen, oder kommt es

Wie zu lösen "Exception in thread "main" org.apache.spark.SparkException: Applikation beendet mit dem status fehlgeschlagen"?

Anzahl der Antworten 1 Antworten
cancerdetector@cluster-cancerdetector-m:~/SparkBWA/build$ spark-submit --class SparkBWA --master yarn-cluster --deploy-mode cluster --conf spark.yarn.jar=hdfs:///user/spark/spark-assembly.jar --driver-memory 1500m --executor-memory 1500m --executor-cores 1 --archives ./bwa.zip --verbose ./SparkBWA.jar -algorithm mem -reads paired -index /Data/HumanBase/hg38 -partitions 32 ERR000589_1.filt.fastq ERR000589_2.filt.fastqhb Output_ERR000589 Using properties file: /usr/lib/spark/conf/spark-defaults.conf Adding default

Geteilte Inhalte von String-Spalte in PySpark Dataframe

Anzahl der Antworten 1 Antworten
Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good

Den Antrag auf spark-cluster

Anzahl der Antworten 1 Antworten
Ich habe Probleme versuchen, einen Antrag zu stellen (job) zu Funken (1.0.0) cluster, die ich bereits master und befestigt ein Arbeiter (oder zumindest das ist, was die WebUI sagt) nach dieser Anleitung http://spark.apache.org/docs/latest/spark-standalone.html mit einem pre-builded version,

Wie verbinden Sie mehrere feature-Vektoren in DataFrame?

Anzahl der Antworten 1 Antworten
Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die

Wie, um das setup Intellij 14 Scala Worksheet ausführen Funke

Anzahl der Antworten 6 Antworten
Ich versuche zu schaffen, eine SparkContext in einem Intellij 14 Scala Arbeitsblatt. hier sind meine Abhängigkeiten name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" //for working with Spark API libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.0"

Wie zu beheben "MetadataFetchFailedException: Fehlt eine Ausgabe Speicherort für shuffle"?

Anzahl der Antworten 1 Antworten
Wenn ich erhöhen Sie die Modell-Größe meiner word2vec Modell ich fange an, diese Art von Ausnahme in meinen melden: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 6 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:542) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:538) at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)

FUNKE : Fehler: `union" erwartet, aber `(' gefunden

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe df genannt mit Spalte mit dem Feld "employee_id". Ich bin dabei: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query) Aber immer Folgendes Problem.

Wie die Verkettung von einem string und einer Spalte in einem dataframe in der Funke?

Anzahl der Antworten 2 Antworten
Habe ich das heutige Datum als string. Ich brauche, um zu verketten, es mit einem Zeit-Wert, der vorhanden ist, wie eine Spalte in einem dataframe. Wenn ich versuche, bekomme ich String Index out of bounds Ausnahme. Mein

Wie zu Lesen csv in sparkR ver 1.4?

Anzahl der Antworten 3 Antworten
Als eine neue version von spark (1.4) wurde veröffentlicht schien es zu sein, ein schönes frontend interfeace zu spark aus R Paket namens sparkR. Auf der Dokumentations-Seite für die spark R es ist ein Befehl, der ermöglicht,

Reinigung Spark-history-logs

Anzahl der Antworten 1 Antworten
Wir haben lange läuft EMR-cluster, in dem wir unterbreiten Spark-jobs. Ich sehe, dass im Laufe der Zeit die HDFS füllt sich mit der Spark application-logs, die manchmal macht ein host ungesund wie angezeigt von EMR/Garn (?). Läuft

Wie fügen Sie den Namen der Quelldatei für jede Zeile in der Funke?

Anzahl der Antworten 2 Antworten
Ich bin neu zu entfachen, und ich versuche, fügen Sie eine Spalte für jede Eingabe die Zeile mit dem Dateinamen, dass es kommt. Habe ich andere gesehen, fragt eine ähnliche Frage, aber Ihre Antworten verwendet wholeTextFile, aber

Das verbinden von zwei RDD[String] -Funke-Scala

Anzahl der Antworten 1 Antworten
Habe ich zwei RDDS : rdd1 [String,String,String]: Name, Address, Zipcode rdd2 [String,String,String]: Name, Address, Landmark Ich versuche zu join diese 2 RDDs mit der Funktion : rdd1.join(rdd2) Aber ich erhalte eine Fehlermeldung : error: value fullOuterJoin is

spark-Programm java.lang.OutOfMemoryError: Direkte Pufferspeicher

Anzahl der Antworten 1 Antworten
Ich bin mit folgenden Laufzeit-spark-Konfiguration Werte spark-submit --executor-Speicher 8G --Funken.Garn.executor.memoryOverhead 2G aber noch erhöhen folgenden out-of-memory-Fehler: Ich habe eine pairRDD mit 8362269460 Linien und die partition, die Größe ist 128 .Es heben Sie diese Fehlermeldung, wenn pairRDD.groupByKey.saveAsTextFile

Was tun WARNEN Meldungen beim starten Funke-shell?

Anzahl der Antworten 2 Antworten
Beim starten meines spark-shell ich hatte ein paar WARN Nachrichten. Aber ich kann Sie nicht verstehen. Gibt es keine wichtigen Probleme, die ich beachten sollte? Oder gibt es eine Konfiguration, die ich verpasst? Oder diese WARN Meldungen

Spark-reichen nicht importieren SparkContext

Anzahl der Antworten 1 Antworten
Bin ich mit Spark 1.4.1 auf meinem lokalen Mac laptop und bin in der Lage zu verwenden pyspark interaktiv, ohne Probleme. Funke wurde durch Homebrew installiert und ich bin mit Anaconda Python. Allerdings, sobald ich versuche, mit

Spark AttributeError: 'DataFrame' - Objekt hat kein Attribut 'weekofyear'

Anzahl der Antworten 2 Antworten
Muss ich bekommen die Nummer der Woche des Jahres from pyspark.sql.functions import weekofyear dt =sqlContext.createDataFrame([('2015-04-08',)], ['a']) dt = dt.weekofyear(dt.a).alias('week') dt.show() Aber bekam ich diese Fehlermeldung:AttributeError: 'DataFrame' - Objekt hat kein Attribut 'weekofyear' Irgendeine Idee? Dank InformationsquelleAutor newleaf

How to create schema (StructType) mit einem oder mehreren StructTypes?

Anzahl der Antworten 2 Antworten
Ich versuche zu erstellen StructType in einem anderen StructType, aber es kann nur zum hinzufügen eines StructField. Ich finde keine Methode zum hinzufügen von StructType zu. Wie erstellen StructType - schema für die folgenden string-Darstellung? struct<abc:struct<name:string>,pqr:struct<address:string>> InformationsquelleAutor

pyspark Fehler: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

Anzahl der Antworten 1 Antworten
Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten

Fügen Sie eine neue Zeile an eine text-Datei in Spark

Anzahl der Antworten 3 Antworten
Ich habe gelesen, der text-Datei in Spark mit dem Befehl val data = sc.textFile("/path/to/my/file/part-0000[0-4]") Möchte ich hinzufügen, eine neue Zeile als header meiner Datei. Gibt es eine Möglichkeit, das zu tun, ohne sich die RDD in ein

Wie "Lookup" - Betrieb auf Spark dataframes gegeben mehrere Bedingungen

Anzahl der Antworten 2 Antworten
Ich bin ein Neuling auf Spark (Meine version ist die 1.6.0) und jetzt versuche ich das problem zu lösen, die unten gegeben werden: Angenommen, es gibt zwei Quellcode-Dateien: Die erste (Eine für Kurzschluß) ist eine große, eine

Dataframe transpose mit pyspark in Apache Spark

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe df haben folgende Struktur: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-----+-----+-------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...|

Spark 2.3.0 netty version Problem: NoSuchMethod io.netty.Puffer.PooledByteBufAllocator.(Metrisch)

Anzahl der Antworten 2 Antworten
Ich gerade aktualisiert meine spark-Projekt von 2.2.1 auf 2.3.0 zu finden, die Versionierung Ausnahme unten. Ich habe Abhängigkeiten auf der Funke-cassandra-Anschluss.2.0.7 und cassandra-driver-Kern.3.4.0 von datastax, die wiederum Abhängigkeiten auf netty 4.x in der Erwägung, dass spark 2.3.0

'Liste' - Objekt hat kein Attribut 'anzeigen'

Anzahl der Antworten 1 Antworten
Ich weiß, es ist Ursache, dass map ist eine Funktion und keine Methode der Liste. Aber gibt es eine Möglichkeit, ich kann die map-Funktion zum übergeben von Daten an die Funktion aufgerufen, in anzeigen. Hier ist mein

Spark 1.5.2: org.apache.spark.sql.AnalysisException: nicht-operator 'Union;

Anzahl der Antworten 3 Antworten
Habe ich zwei dataframes df1 und df2. Beide haben das folgende schema: |-- ts: long (nullable = true) |-- id: integer (nullable = true) |-- managers: array (nullable = true) | |-- element: string (containsNull = true)

DataFrame filtern, basierend auf der zweiten Dataframe

Anzahl der Antworten 2 Antworten
Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

Fügen Sie die Anzahl der Tage, die Spalte Datum Spalte im gleichen dataframe für Spark-Scala-App

Anzahl der Antworten 2 Antworten
Ich habe eine dataframe df von columns ("id", "current_date", "days") und ich bin versucht hinzuzufügen, die die "days" zu "current_date" und erstellen Sie eine neue dataframe mit neuen column genannt "new_date" mit spark-scala-Funktion date_add() val newDF =