Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Verursacht durch: java.lang.ClassNotFoundException: org.apache.hadoop.fs.CanSetDropBehind Problem in ecllipse

2 Antworten

Habe ich das unter spark-word-count-Programm : package com.sample.spark; import java.util.Arrays; import java.util.List; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.spark.api.java.*; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFlatMapFunction; import org.apache.spark.api.java.function.PairFunction; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import scala.Tuple2; public class SparkWordCount

org.apache.spark.rpc.RpcTimeoutException: Futures-Zeitüberschreitung nach [120 Sekunden]. Dieser timeout wird gesteuert durch Funken.rpc.lookupTimeout

2 Antworten

Immer die folgende Fehlermeldung mit Bezug auf den container, während die Abgabe einer spark-Applikation zu GARN. Die HADOOP(2.7.3)/SPARK (2.1) - Umgebung ausgeführt wird, ein pseudo-distributed mode in einem single-node-cluster. Die Anwendung funktioniert perfekt, wenn gemacht, um die

apache-spark apache-spark-sql hadoop2 yarn

Spark MLLib Kmeans von dataframe, und wieder zurück

4 Antworten

Ich das Ziel, mich zu bewerben, ein kmeans-clustering-Algorithmus, um einen sehr großen Datensatz, mit Funken (1.3.1) MLLib. Habe ich aufgerufen, die Daten aus HDFS mit einem hiveContext von Spark und möchte schließlich, um ihn wieder dort Weg

apache-spark k-means

So speichern Sie eine Karte Ergebnis in eine text-Datei in Spark scala?

3 Antworten

Habe ich dieses: val tokenFreq = reverseKey.countByKey //tokenFreq: scala.collection.Map[String,Long] = Map(ABIGAIL -> 3,... und ich wollen speichern Sie die tokenFreq das Ergebnis in eine text-Datei. Habe ich versucht zu verwenden saveAsTextFile, aber er sagt: Fehler: Wert saveAsTextFile

apache-spark scala

Übergabe in Kerberos-keytab - /AUFTRAGGEBER über SparkLauncher

2 Antworten

spark-submit ermöglicht es uns, übergeben Sie die Kerberos-Anmeldeinformationen über die --keytab und --principal Optionen. Wenn ich versuche, fügen Sie diese über addSparkArg("--keytab",keytab) bekomme ich einen '--keytab' does not expect a value Fehler - ich nehme an, diese

apache-spark

Unterschied zwischen rdd.sammeln().toMap zu rdd.collectAsMap()?

2 Antworten

Gibt es Auswirkungen auf die Leistung, wenn ich collectAsMap auf meine RDD statt rdd.sammeln().toMap ? Ich habe einen Schlüssel-Wert rdd und ich konvertieren möchten, um HashMap so weit ich weiß, collect() nicht effizient auf große Datensätze, wie

apache-spark distributed-computing scala

Wie schaffen encoder für benutzerdefinierte Java-Objekte?

1 Antworten

Verwende ich folgende Klasse erstellen bean von Spark Encoder Class OuterClass implements Serializable { int id; ArrayList<InnerClass> listofInner; public int getId() { return id; } public void setId (int num) { this.id = num; } public ArrayList<InnerClass>

apache-spark apache-spark-2.0 java spark-java

pySpark konvertieren einer Liste oder RDD element Wert (int)

1 Antworten

Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.

apache-spark pyspark python rdd tokenize

erstellen Sie eindeutige Werte für jede Taste in einer spark-RDD

2 Antworten

Ich möchte erstellen Sie eine RDD von key, value Paare, wo jeder Schlüssel hätte einen eindeutigen Wert. Der Zweck ist, zu "erinnern" Schlüssel-Indizes für später verwenden, da die Tasten möglicherweise gemischt, um die Partitionen, und im Grunde

apache-spark

Machen Schlüssel-Wert-Paare aus einem HDFS-Sequenz-Datei mit Apache Spark

1 Antworten

Was ist der beste Weg, um Schlüssel-Wert-Paare aus einem HDFS-Sequenz-Datei? Der Grund, warum ich Frage, ich habe zum Sortieren einer Sequenz-Datei. Die sortByKey Methode ist nicht verfügbar, es sei denn, Ihr RDD ist in der form von

apache-spark hdfs scala

Führen Sie eine typisierte Verknüpfung in Scala mit Funken-Datasets

2 Antworten

Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.

apache-spark apache-spark-dataset apache-spark-sql join scala

Wie man den Namen der Datei für die Aufzeichnung in spark RDD (JavaRDD)

3 Antworten

Ich bin laden Sie mehrere Dateien in eine JavaRDD mit JavaRDD<String> allLines = sc.textFile(hdfs://path/*.csv); Nach dem laden der Dateien, die ich ändern jeder Datensatz und wollen, um Sie zu speichern. Allerdings muss ich auch speichern Sie die

apache-spark hadoop hdfs java

Wie kann ich auf Werte zugreifen, die in einer scala.Sammlung.veränderlich.WrappedArray von WrappedArray in java

1 Antworten

Ich bin Parsen einer json-Datei in SparkSQL in JAVA und ich muss in der Lage sein, um Zugriff auf die Koordinaten, die sind wieder in, was scheint, ein WrappedArray von WrappedArrays. Hier ist der code: df.registerTempTable("test_articles"); sql

apache-spark java json scala

Elemente des Typs Struktur der Zeile, die mit Namen SPARK SCALA

1 Antworten

In einem DataFrame-Objekt in Apache Spark (ich bin mit dem Scala-Schnittstelle), wenn ich mich Durchlaufen der Zeilen-Objekte, gibt es eine Möglichkeit, zu extrahieren Struktur der Werte name? Ich bin mit dem folgenden code zu extrahieren, die mit

apache-spark apache-spark-sql scala

reduce() gegen die Falten() in Apache Spark

1 Antworten

Was ist der Unterschied zwischen reduce vs. fold im Hinblick auf Ihre technische Umsetzung? Ich verstehe, dass Sie unterscheiden sich durch Ihre Signatur als fold akzeptiert zusätzliche parameter (D. H. Anfangswert), die Hinzugefügt wird jede partition Ausgang.

apache-spark fold rdd reduce scala

Spark mit PySpark Lesen Bilder

2 Antworten

Hallo, ich habe eine Menge von Bildern (untere Millionen), die ich tun müssen, Einstufung auf. Ich bin mit Funken und es geschafft zu Lesen, in der alle Bilder im format von (filename1, content1), (filename2, content2) ... in

apache-spark image pyspark python scipy

gelten OneHotEncoder für mehrere kategorische Spalten in SparkMlib

2 Antworten

Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',

apache-spark apache-spark-ml apache-spark-mllib pyspark python

pyspark Lineare Regression Beispiel aus der offiziellen Dokumentation - Schlechte Ergebnisse?

1 Antworten

Ich Plane, verwenden Sie die Lineare Regression in der Funke. Um loszulegen, ich habe das Beispiel aus der offiziellen Dokumentation (die finden Sie hier) Fand ich auch diese Frage auf stackoverflow, die im wesentlichen die gleiche Frage

apache-spark apache-spark-mllib linear-regression pyspark python

pyspark gewusst wie: laden von komprimierten bissig-Datei

2 Antworten

Habe ich komprimiert eine Datei mit python-bissig und steckte es in meine hdfs-Speicher. Ich versuche jetzt, es zu Lesen in wie so aber bekomme ich folgenden traceback. Ich kann nicht finden, ein Beispiel, wie die Datei zu

apache-spark pyspark snappy

Spark-iteration Zeit steigt exponentiell bei der Verwendung von join

3 Antworten

Ich bin ganz neu zu entfachen, und ich bin versucht zu implementieren iterative Algorithmus für clustering (expectation-maximization) mit Schwerpunkt vertreten durch Markov-Modell. Also muss ich tun, Iterationen und schließt. Einem problem, das ich erlebe ist, dass die

apache-spark iteration loops pyspark python

Spark - Erstellen Von Verschachtelten DataFrame

3 Antworten

Fange ich mit PySpark und ich habe Probleme mit dem erstellen von DataFrames mit verschachtelten Objekten. Dies ist mein Beispiel. Ich habe Benutzer. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} Nutzer haben Aufträge. $ cat order.json {"id":1,"price":202.30,"userid":1} {"id":2,"price":343.99,"userid":1} {"id":3,"price":399.99,"userid":2}

apache-spark apache-spark-sql dataframe pyspark python

Spark streaming-Ausgabe nicht gespeichert HDFS-Datei

4 Antworten

Ich versuche zu sparen das Spark-streaming-Ausgang zu einer Datei in HDFS. Gerade jetzt, es ist nicht speichern Sie eine beliebige Datei. Hier ist mein code : StreamingExamples.setStreamingLogLevels(); SparkConf sparkConf = new SparkConf().setAppName("MyTestCOunt"); JavaStreamingContext ssc = new JavaStreamingContext(sparkConf,

apache-spark hadoop java

Wie berechne ich den Mittelwert von jedem paar in einer RDD, bestehend aus (Key, [Wert]) - Paare in der Funke?

3 Antworten

Ich bin sehr neu für Scala und Funken, also bitte verzeihen Sie mir, wenn ich werde über dieses komplett falsch. Nach der Aufnahme in eine csv-Datei, Filterung und Zuordnung; ich habe eine RDD, dass ist ein Haufen

apache-spark scala

Was ist eine glom?. Wie unterscheidet es sich von mapPartitions?

2 Antworten

Habe ich über das glom() Methode auf RDD. Gemäß der Dokumentation Rückkehr eine RDD erstellt durch Koaleszenz alle Elemente innerhalb jeder partition in ein array Tut glom schieben Sie die Daten auf die Partitionen, oder kommt es

apache-spark rdd

Wie zu lösen "Exception in thread "main" org.apache.spark.SparkException: Applikation beendet mit dem status fehlgeschlagen"?

1 Antworten

cancerdetector@cluster-cancerdetector-m:~/SparkBWA/build$ spark-submit --class SparkBWA --master yarn-cluster --deploy-mode cluster --conf spark.yarn.jar=hdfs:///user/spark/spark-assembly.jar --driver-memory 1500m --executor-memory 1500m --executor-cores 1 --archives ./bwa.zip --verbose ./SparkBWA.jar -algorithm mem -reads paired -index /Data/HumanBase/hg38 -partitions 32 ERR000589_1.filt.fastq ERR000589_2.filt.fastqhb Output_ERR000589 Using properties file: /usr/lib/spark/conf/spark-defaults.conf Adding default

apache-spark spark-streaming

Geteilte Inhalte von String-Spalte in PySpark Dataframe

1 Antworten

Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good

apache-spark apache-spark-mllib pyspark spark-dataframe

Den Antrag auf spark-cluster

1 Antworten

Ich habe Probleme versuchen, einen Antrag zu stellen (job) zu Funken (1.0.0) cluster, die ich bereits master und befestigt ein Arbeiter (oder zumindest das ist, was die WebUI sagt) nach dieser Anleitung http://spark.apache.org/docs/latest/spark-standalone.html mit einem pre-builded version,

apache-spark java

Wie verbinden Sie mehrere feature-Vektoren in DataFrame?

1 Antworten

Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die

apache-spark apache-spark-ml apache-spark-sql machine-learning

Wie, um das setup Intellij 14 Scala Worksheet ausführen Funke

6 Antworten

Ich versuche zu schaffen, eine SparkContext in einem Intellij 14 Scala Arbeitsblatt. hier sind meine Abhängigkeiten name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" //for working with Spark API libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.0"

apache-spark intellij-idea scala worksheet

Wie zu beheben "MetadataFetchFailedException: Fehlt eine Ausgabe Speicherort für shuffle"?

1 Antworten

Wenn ich erhöhen Sie die Modell-Größe meiner word2vec Modell ich fange an, diese Art von Ausnahme in meinen melden: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 6 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:542) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:538) at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)

apache-spark apache-spark-mllib scala word2vec

FUNKE : Fehler: `union" erwartet, aber `(' gefunden

2 Antworten

Ich habe einen dataframe df genannt mit Spalte mit dem Feld "employee_id". Ich bin dabei: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query) Aber immer Folgendes Problem.

apache-spark apache-spark-sql dataframe scala sql

Wie die Verkettung von einem string und einer Spalte in einem dataframe in der Funke?

2 Antworten

Habe ich das heutige Datum als string. Ich brauche, um zu verketten, es mit einem Zeit-Wert, der vorhanden ist, wie eine Spalte in einem dataframe. Wenn ich versuche, bekomme ich String Index out of bounds Ausnahme. Mein

apache-spark dataframe spark-dataframe

Wie zu Lesen csv in sparkR ver 1.4?

3 Antworten

Als eine neue version von spark (1.4) wurde veröffentlicht schien es zu sein, ein schönes frontend interfeace zu spark aus R Paket namens sparkR. Auf der Dokumentations-Seite für die spark R es ist ein Befehl, der ermöglicht,

apache-spark apache-spark-sql csv r sparkr

Reinigung Spark-history-logs

1 Antworten

Wir haben lange läuft EMR-cluster, in dem wir unterbreiten Spark-jobs. Ich sehe, dass im Laufe der Zeit die HDFS füllt sich mit der Spark application-logs, die manchmal macht ein host ungesund wie angezeigt von EMR/Garn (?). Läuft

apache-spark

Wie fügen Sie den Namen der Quelldatei für jede Zeile in der Funke?

2 Antworten

Ich bin neu zu entfachen, und ich versuche, fügen Sie eine Spalte für jede Eingabe die Zeile mit dem Dateinamen, dass es kommt. Habe ich andere gesehen, fragt eine ähnliche Frage, aber Ihre Antworten verwendet wholeTextFile, aber

apache-spark scala

Das verbinden von zwei RDD[String] -Funke-Scala

1 Antworten

Habe ich zwei RDDS : rdd1 [String,String,String]: Name, Address, Zipcode rdd2 [String,String,String]: Name, Address, Landmark Ich versuche zu join diese 2 RDDs mit der Funktion : rdd1.join(rdd2) Aber ich erhalte eine Fehlermeldung : error: value fullOuterJoin is

apache-spark join rdd scala string

spark-Programm java.lang.OutOfMemoryError: Direkte Pufferspeicher

1 Antworten

Ich bin mit folgenden Laufzeit-spark-Konfiguration Werte spark-submit --executor-Speicher 8G --Funken.Garn.executor.memoryOverhead 2G aber noch erhöhen folgenden out-of-memory-Fehler: Ich habe eine pairRDD mit 8362269460 Linien und die partition, die Größe ist 128 .Es heben Sie diese Fehlermeldung, wenn pairRDD.groupByKey.saveAsTextFile

apache-spark java out-of-memory

Was tun WARNEN Meldungen beim starten Funke-shell?

2 Antworten

Beim starten meines spark-shell ich hatte ein paar WARN Nachrichten. Aber ich kann Sie nicht verstehen. Gibt es keine wichtigen Probleme, die ich beachten sollte? Oder gibt es eine Konfiguration, die ich verpasst? Oder diese WARN Meldungen

apache-spark scala

Spark-reichen nicht importieren SparkContext

1 Antworten

Bin ich mit Spark 1.4.1 auf meinem lokalen Mac laptop und bin in der Lage zu verwenden pyspark interaktiv, ohne Probleme. Funke wurde durch Homebrew installiert und ich bin mit Anaconda Python. Allerdings, sobald ich versuche, mit

anaconda apache-spark pyspark python

Spark AttributeError: 'DataFrame' - Objekt hat kein Attribut 'weekofyear'

2 Antworten

Muss ich bekommen die Nummer der Woche des Jahres from pyspark.sql.functions import weekofyear dt =sqlContext.createDataFrame([('2015-04-08',)], ['a']) dt = dt.weekofyear(dt.a).alias('week') dt.show() Aber bekam ich diese Fehlermeldung:AttributeError: 'DataFrame' - Objekt hat kein Attribut 'weekofyear' Irgendeine Idee? Dank InformationsquelleAutor newleaf

apache-spark dataframe pyspark python

How to create schema (StructType) mit einem oder mehreren StructTypes?

2 Antworten

Ich versuche zu erstellen StructType in einem anderen StructType, aber es kann nur zum hinzufügen eines StructField. Ich finde keine Methode zum hinzufügen von StructType zu. Wie erstellen StructType - schema für die folgenden string-Darstellung? struct<abc:struct<name:string>,pqr:struct<address:string>> InformationsquelleAutor

apache-spark apache-spark-sql scala

pyspark Fehler: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

1 Antworten

Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten

apache-spark apache-spark-2.0 spark-dataframe

Fügen Sie eine neue Zeile an eine text-Datei in Spark

3 Antworten

Ich habe gelesen, der text-Datei in Spark mit dem Befehl val data = sc.textFile("/path/to/my/file/part-0000[0-4]") Möchte ich hinzufügen, eine neue Zeile als header meiner Datei. Gibt es eine Möglichkeit, das zu tun, ohne sich die RDD in ein

apache-spark scala

Wie "Lookup" - Betrieb auf Spark dataframes gegeben mehrere Bedingungen

2 Antworten

Ich bin ein Neuling auf Spark (Meine version ist die 1.6.0) und jetzt versuche ich das problem zu lösen, die unten gegeben werden: Angenommen, es gibt zwei Quellcode-Dateien: Die erste (Eine für Kurzschluß) ist eine große, eine

apache-spark apache-spark-sql dataframe lookup scala

Dataframe transpose mit pyspark in Apache Spark

1 Antworten

Ich habe einen dataframe df haben folgende Struktur: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-----+-----+-------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...|

apache-spark dataframe pyspark python transpose

Spark 2.3.0 netty version Problem: NoSuchMethod io.netty.Puffer.PooledByteBufAllocator.(Metrisch)

2 Antworten

Ich gerade aktualisiert meine spark-Projekt von 2.2.1 auf 2.3.0 zu finden, die Versionierung Ausnahme unten. Ich habe Abhängigkeiten auf der Funke-cassandra-Anschluss.2.0.7 und cassandra-driver-Kern.3.4.0 von datastax, die wiederum Abhängigkeiten auf netty 4.x in der Erwägung, dass spark 2.3.0

apache-spark cassandra netty

'Liste' - Objekt hat kein Attribut 'anzeigen'

1 Antworten

Ich weiß, es ist Ursache, dass map ist eine Funktion und keine Methode der Liste. Aber gibt es eine Möglichkeit, ich kann die map-Funktion zum übergeben von Daten an die Funktion aufgerufen, in anzeigen. Hier ist mein

apache-spark pyspark rdd

Spark 1.5.2: org.apache.spark.sql.AnalysisException: nicht-operator 'Union;

3 Antworten

Habe ich zwei dataframes df1 und df2. Beide haben das folgende schema: |-- ts: long (nullable = true) |-- id: integer (nullable = true) |-- managers: array (nullable = true) | |-- element: string (containsNull = true)

apache-spark

DataFrame filtern, basierend auf der zweiten Dataframe

2 Antworten

Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

apache-spark apache-spark-sql dataframe java spark-dataframe

Fügen Sie die Anzahl der Tage, die Spalte Datum Spalte im gleichen dataframe für Spark-Scala-App

2 Antworten

Ich habe eine dataframe df von columns ("id", "current_date", "days") und ich bin versucht hinzuzufügen, die die "days" zu "current_date" und erstellen Sie eine neue dataframe mit neuen column genannt "new_date" mit spark-scala-Funktion date_add() val newDF =

apache-spark dataframe dateadd scala