Tag: apache-spark
Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.
2
Antworten
Habe ich das unter spark-word-count-Programm : package com.sample.spark; import java.util.Arrays; import java.util.List; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.spark.api.java.*; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFlatMapFunction; import org.apache.spark.api.java.function.PairFunction; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import scala.Tuple2; public class SparkWordCount
2
Antworten
Immer die folgende Fehlermeldung mit Bezug auf den container, während die Abgabe einer spark-Applikation zu GARN. Die HADOOP(2.7.3)/SPARK (2.1) - Umgebung ausgeführt wird, ein pseudo-distributed mode in einem single-node-cluster. Die Anwendung funktioniert perfekt, wenn gemacht, um die
4
Antworten
Ich das Ziel, mich zu bewerben, ein kmeans-clustering-Algorithmus, um einen sehr großen Datensatz, mit Funken (1.3.1) MLLib. Habe ich aufgerufen, die Daten aus HDFS mit einem hiveContext von Spark und möchte schließlich, um ihn wieder dort Weg
3
Antworten
Habe ich dieses: val tokenFreq = reverseKey.countByKey //tokenFreq: scala.collection.Map[String,Long] = Map(ABIGAIL -> 3,... und ich wollen speichern Sie die tokenFreq das Ergebnis in eine text-Datei. Habe ich versucht zu verwenden saveAsTextFile, aber er sagt: Fehler: Wert saveAsTextFile
2
Antworten
spark-submit ermöglicht es uns, übergeben Sie die Kerberos-Anmeldeinformationen über die --keytab und --principal Optionen. Wenn ich versuche, fügen Sie diese über addSparkArg("--keytab",keytab) bekomme ich einen '--keytab' does not expect a value Fehler - ich nehme an, diese
2
Antworten
Gibt es Auswirkungen auf die Leistung, wenn ich collectAsMap auf meine RDD statt rdd.sammeln().toMap ? Ich habe einen Schlüssel-Wert rdd und ich konvertieren möchten, um HashMap so weit ich weiß, collect() nicht effizient auf große Datensätze, wie
1
Antworten
Verwende ich folgende Klasse erstellen bean von Spark Encoder Class OuterClass implements Serializable { int id; ArrayList<InnerClass> listofInner; public int getId() { return id; } public void setId (int num) { this.id = num; } public ArrayList<InnerClass>
1
Antworten
Ich bin mit pySpark zu zählen, Elemente in eine Token-RDD. Dies ist eines der Elemente: ('b00004tkvy', ['noah', 'ark', 'activity', 'center', 'jewel', 'case', 'ages', '3', '8', 'victory', 'multimedia']) Muss ich die Anzahl der Elemente in der voll RDD.
2
Antworten
Ich möchte erstellen Sie eine RDD von key, value Paare, wo jeder Schlüssel hätte einen eindeutigen Wert. Der Zweck ist, zu "erinnern" Schlüssel-Indizes für später verwenden, da die Tasten möglicherweise gemischt, um die Partitionen, und im Grunde
1
Antworten
Was ist der beste Weg, um Schlüssel-Wert-Paare aus einem HDFS-Sequenz-Datei? Der Grund, warum ich Frage, ich habe zum Sortieren einer Sequenz-Datei. Die sortByKey Methode ist nicht verfügbar, es sei denn, Ihr RDD ist in der form von
2
Antworten
Ich mag Spark-Datasets als Sie mir geben-Analyse von Fehlern und syntax Fehler bei der Kompilierung und mir auch erlauben zu arbeiten, mit Getter statt hart-codierten Namen/Nummern. Die meisten Berechnungen können durchgeführt werden mit Dataset ' s high-level-APIs.
3
Antworten
Ich bin laden Sie mehrere Dateien in eine JavaRDD mit JavaRDD<String> allLines = sc.textFile(hdfs://path/*.csv); Nach dem laden der Dateien, die ich ändern jeder Datensatz und wollen, um Sie zu speichern. Allerdings muss ich auch speichern Sie die
1
Antworten
Ich bin Parsen einer json-Datei in SparkSQL in JAVA und ich muss in der Lage sein, um Zugriff auf die Koordinaten, die sind wieder in, was scheint, ein WrappedArray von WrappedArrays. Hier ist der code: df.registerTempTable("test_articles"); sql
1
Antworten
In einem DataFrame-Objekt in Apache Spark (ich bin mit dem Scala-Schnittstelle), wenn ich mich Durchlaufen der Zeilen-Objekte, gibt es eine Möglichkeit, zu extrahieren Struktur der Werte name? Ich bin mit dem folgenden code zu extrahieren, die mit
1
Antworten
Was ist der Unterschied zwischen reduce vs. fold im Hinblick auf Ihre technische Umsetzung? Ich verstehe, dass Sie unterscheiden sich durch Ihre Signatur als fold akzeptiert zusätzliche parameter (D. H. Anfangswert), die Hinzugefügt wird jede partition Ausgang.
2
Antworten
Hallo, ich habe eine Menge von Bildern (untere Millionen), die ich tun müssen, Einstufung auf. Ich bin mit Funken und es geschafft zu Lesen, in der alle Bilder im format von (filename1, content1), (filename2, content2) ... in
2
Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',
1
Antworten
Ich Plane, verwenden Sie die Lineare Regression in der Funke. Um loszulegen, ich habe das Beispiel aus der offiziellen Dokumentation (die finden Sie hier) Fand ich auch diese Frage auf stackoverflow, die im wesentlichen die gleiche Frage
2
Antworten
Habe ich komprimiert eine Datei mit python-bissig und steckte es in meine hdfs-Speicher. Ich versuche jetzt, es zu Lesen in wie so aber bekomme ich folgenden traceback. Ich kann nicht finden, ein Beispiel, wie die Datei zu
3
Antworten
Ich bin ganz neu zu entfachen, und ich bin versucht zu implementieren iterative Algorithmus für clustering (expectation-maximization) mit Schwerpunkt vertreten durch Markov-Modell. Also muss ich tun, Iterationen und schließt. Einem problem, das ich erlebe ist, dass die
3
Antworten
Fange ich mit PySpark und ich habe Probleme mit dem erstellen von DataFrames mit verschachtelten Objekten. Dies ist mein Beispiel. Ich habe Benutzer. $ cat user.json {"id":1,"name":"UserA"} {"id":2,"name":"UserB"} Nutzer haben Aufträge. $ cat order.json {"id":1,"price":202.30,"userid":1} {"id":2,"price":343.99,"userid":1} {"id":3,"price":399.99,"userid":2}
4
Antworten
Ich versuche zu sparen das Spark-streaming-Ausgang zu einer Datei in HDFS. Gerade jetzt, es ist nicht speichern Sie eine beliebige Datei. Hier ist mein code : StreamingExamples.setStreamingLogLevels(); SparkConf sparkConf = new SparkConf().setAppName("MyTestCOunt"); JavaStreamingContext ssc = new JavaStreamingContext(sparkConf,
3
Antworten
Ich bin sehr neu für Scala und Funken, also bitte verzeihen Sie mir, wenn ich werde über dieses komplett falsch. Nach der Aufnahme in eine csv-Datei, Filterung und Zuordnung; ich habe eine RDD, dass ist ein Haufen
2
Antworten
Habe ich über das glom() Methode auf RDD. Gemäß der Dokumentation Rückkehr eine RDD erstellt durch Koaleszenz alle Elemente innerhalb jeder partition in ein array Tut glom schieben Sie die Daten auf die Partitionen, oder kommt es
1
Antworten
cancerdetector@cluster-cancerdetector-m:~/SparkBWA/build$ spark-submit --class SparkBWA --master yarn-cluster --deploy-mode cluster --conf spark.yarn.jar=hdfs:///user/spark/spark-assembly.jar --driver-memory 1500m --executor-memory 1500m --executor-cores 1 --archives ./bwa.zip --verbose ./SparkBWA.jar -algorithm mem -reads paired -index /Data/HumanBase/hg38 -partitions 32 ERR000589_1.filt.fastq ERR000589_2.filt.fastqhb Output_ERR000589 Using properties file: /usr/lib/spark/conf/spark-defaults.conf Adding default
1
Antworten
Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good
1
Antworten
Ich habe Probleme versuchen, einen Antrag zu stellen (job) zu Funken (1.0.0) cluster, die ich bereits master und befestigt ein Arbeiter (oder zumindest das ist, was die WebUI sagt) nach dieser Anleitung http://spark.apache.org/docs/latest/spark-standalone.html mit einem pre-builded version,
1
Antworten
Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die
6
Antworten
Ich versuche zu schaffen, eine SparkContext in einem Intellij 14 Scala Arbeitsblatt. hier sind meine Abhängigkeiten name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" //for working with Spark API libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.0"
1
Antworten
Wenn ich erhöhen Sie die Modell-Größe meiner word2vec Modell ich fange an, diese Art von Ausnahme in meinen melden: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 6 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:542) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:538) at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
2
Antworten
Ich habe einen dataframe df genannt mit Spalte mit dem Feld "employee_id". Ich bin dabei: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query) Aber immer Folgendes Problem.
2
Antworten
Habe ich das heutige Datum als string. Ich brauche, um zu verketten, es mit einem Zeit-Wert, der vorhanden ist, wie eine Spalte in einem dataframe. Wenn ich versuche, bekomme ich String Index out of bounds Ausnahme. Mein
3
Antworten
Als eine neue version von spark (1.4) wurde veröffentlicht schien es zu sein, ein schönes frontend interfeace zu spark aus R Paket namens sparkR. Auf der Dokumentations-Seite für die spark R es ist ein Befehl, der ermöglicht,
1
Antworten
Wir haben lange läuft EMR-cluster, in dem wir unterbreiten Spark-jobs. Ich sehe, dass im Laufe der Zeit die HDFS füllt sich mit der Spark application-logs, die manchmal macht ein host ungesund wie angezeigt von EMR/Garn (?). Läuft
2
Antworten
Ich bin neu zu entfachen, und ich versuche, fügen Sie eine Spalte für jede Eingabe die Zeile mit dem Dateinamen, dass es kommt. Habe ich andere gesehen, fragt eine ähnliche Frage, aber Ihre Antworten verwendet wholeTextFile, aber
1
Antworten
Habe ich zwei RDDS : rdd1 [String,String,String]: Name, Address, Zipcode rdd2 [String,String,String]: Name, Address, Landmark Ich versuche zu join diese 2 RDDs mit der Funktion : rdd1.join(rdd2) Aber ich erhalte eine Fehlermeldung : error: value fullOuterJoin is
1
Antworten
Ich bin mit folgenden Laufzeit-spark-Konfiguration Werte spark-submit --executor-Speicher 8G --Funken.Garn.executor.memoryOverhead 2G aber noch erhöhen folgenden out-of-memory-Fehler: Ich habe eine pairRDD mit 8362269460 Linien und die partition, die Größe ist 128 .Es heben Sie diese Fehlermeldung, wenn pairRDD.groupByKey.saveAsTextFile
2
Antworten
Beim starten meines spark-shell ich hatte ein paar WARN Nachrichten. Aber ich kann Sie nicht verstehen. Gibt es keine wichtigen Probleme, die ich beachten sollte? Oder gibt es eine Konfiguration, die ich verpasst? Oder diese WARN Meldungen
1
Antworten
Bin ich mit Spark 1.4.1 auf meinem lokalen Mac laptop und bin in der Lage zu verwenden pyspark interaktiv, ohne Probleme. Funke wurde durch Homebrew installiert und ich bin mit Anaconda Python. Allerdings, sobald ich versuche, mit
2
Antworten
Muss ich bekommen die Nummer der Woche des Jahres from pyspark.sql.functions import weekofyear dt =sqlContext.createDataFrame([('2015-04-08',)], ['a']) dt = dt.weekofyear(dt.a).alias('week') dt.show() Aber bekam ich diese Fehlermeldung:AttributeError: 'DataFrame' - Objekt hat kein Attribut 'weekofyear' Irgendeine Idee? Dank InformationsquelleAutor newleaf
2
Antworten
Ich versuche zu erstellen StructType in einem anderen StructType, aber es kann nur zum hinzufügen eines StructField. Ich finde keine Methode zum hinzufügen von StructType zu. Wie erstellen StructType - schema für die folgenden string-Darstellung? struct<abc:struct<name:string>,pqr:struct<address:string>> InformationsquelleAutor
1
Antworten
Ich bin mit pyspark 2.0 erstellen Sie ein DataFrame-Objekt durch das Lesen einer csv-Verwendung: data = spark.read.csv('data.csv', header=True) Ich finde die Art der Daten, indem type(data) Das Ergebnis ist pyspark.sql.dataframe.DataFrame Ich versuche zu konvertieren, die einige Spalten
3
Antworten
Ich habe gelesen, der text-Datei in Spark mit dem Befehl val data = sc.textFile("/path/to/my/file/part-0000[0-4]") Möchte ich hinzufügen, eine neue Zeile als header meiner Datei. Gibt es eine Möglichkeit, das zu tun, ohne sich die RDD in ein
2
Antworten
Ich bin ein Neuling auf Spark (Meine version ist die 1.6.0) und jetzt versuche ich das problem zu lösen, die unten gegeben werden: Angenommen, es gibt zwei Quellcode-Dateien: Die erste (Eine für Kurzschluß) ist eine große, eine
1
Antworten
Ich habe einen dataframe df haben folgende Struktur: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-----+-----+-------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...|
2
Antworten
Ich gerade aktualisiert meine spark-Projekt von 2.2.1 auf 2.3.0 zu finden, die Versionierung Ausnahme unten. Ich habe Abhängigkeiten auf der Funke-cassandra-Anschluss.2.0.7 und cassandra-driver-Kern.3.4.0 von datastax, die wiederum Abhängigkeiten auf netty 4.x in der Erwägung, dass spark 2.3.0
1
Antworten
Ich weiß, es ist Ursache, dass map ist eine Funktion und keine Methode der Liste. Aber gibt es eine Möglichkeit, ich kann die map-Funktion zum übergeben von Daten an die Funktion aufgerufen, in anzeigen. Hier ist mein
3
Antworten
Habe ich zwei dataframes df1 und df2. Beide haben das folgende schema: |-- ts: long (nullable = true) |-- id: integer (nullable = true) |-- managers: array (nullable = true) | |-- element: string (containsNull = true)
2
Antworten
Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil
2
Antworten
Ich habe eine dataframe df von columns ("id", "current_date", "days") und ich bin versucht hinzuzufügen, die die "days" zu "current_date" und erstellen Sie eine neue dataframe mit neuen column genannt "new_date" mit spark-scala-Funktion date_add() val newDF =