Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Wie definiere ich Partitionierung von DataFrame?

Anzahl der Antworten 5 Antworten
Habe ich angefangen mit Spark SQL und DataFrames in Spark 1.4.0. Ich bin zu wollen, um eine benutzerdefinierte Partitionierer auf DataFrames, in der Scala, aber nicht zu sehen, wie dies zu tun. Einem der Daten-Tabellen arbeite ich

Geist geblasen: RDD.zip () -Methode

Anzahl der Antworten 2 Antworten
Ich nur entdeckt die RDD.zip() Methode und ich kann mir nicht vorstellen, was seine Vertrag sein könnte. Verstehe ich, was es hatnatürlich. Jedoch, es war schon immer mein Verständnis, dass die Reihenfolge der Elemente in einem RDD

Wie stelle ich die Treiber-Python-Version in Spark ein?

Anzahl der Antworten 12 Antworten
Ich bin mit der Funke 1.4.0-rc2 so kann ich mit python 3 mit spark. Wenn ich export PYSPARK_PYTHON=python3 meine .bashrc-Datei, die ich ausführen kann, spark interaktiv mit python 3. Allerdings, wenn ich laufen will ein eigenständiges Programm

Mac Spark-Shell Fehler beim Initialisieren von SparkContext

Anzahl der Antworten 8 Antworten
Habe versucht zu starten, Funke 1.6.0 (Funke-1.6.0-bin-hadoop2.4) auf Mac OS Yosemite 10.10.5 mit "./bin/spark-shell". Er hat den Fehler unten. Ich habe auch versucht zu installieren unterschiedliche Versionen der Funke aber alle haben den gleichen Fehler. Dies ist

Wie erstellt man einen leeren Datenrahmen mit einem bestimmten Schema?

Anzahl der Antworten 6 Antworten
Ich will auf DataFrame mit einem angegebenen schema in Scala. Ich habe versucht, zu verwenden JSON Lesen (ich meine die Lektüre leere Datei), aber ich glaube nicht, dass das die beste Praxis. InformationsquelleAutor der Frage user1735076 |

Apache Spark: Teilen RDD RDD in mehrere RDDs mit Schlüssel, um Werte zu speichern

Anzahl der Antworten 3 Antworten
Bin ich mit Spark 1.0.1 Prozess eine große Menge von Daten. Jede Zeile enthält eine ID-Nummer, einige mit doppelten IDs. Ich will sparen Sie alle Zeilen mit der gleichen ID-Nummer in der gleichen Lage, aber ich habe

Was bedeutet "Stage Skipped" in der Apache Spark-Webbenutzeroberfläche?

Anzahl der Antworten 1 Antworten
Aus meiner Funke UI. Was bedeutet es übersprungen? InformationsquelleAutor der Frage Aravind R. Yarram | 2016-01-03

Wie erstellt man einen korrekten Datenrahmen für die Klassifizierung in Spark ML?

Anzahl der Antworten 3 Antworten
Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen

FetchFailedException oder MetadataFetchFailedException bei der Verarbeitung großer Datenmengen

Anzahl der Antworten 4 Antworten
Wenn ich das Parsen von code-mit 1 GB-dataset, die es vollendet, ohne irgendwelche Fehler. Aber, wenn ich Versuch 25 gb an Daten an eine Zeit, die ich unter Fehler. Ich versuche zu verstehen wie kann ich vermeiden,

Was sind Broadcast-Variablen? Welche Probleme lösen sie?

Anzahl der Antworten 1 Antworten
Werde ich über Funke Programmieren Anleitung, die sagt: Broadcast-Variablen erlauben es dem Programmierer, um eine schreibgeschützte variable zwischengespeichert wird auf jeder Maschine, statt dem Versand eine Kopie mit Aufgaben. Unter Berücksichtigung der oben, was sind die Anwendungsfälle,

Wie exportiert man einen Tabellen-Datenrahmen in Pyspark zu CSV?

Anzahl der Antworten 5 Antworten
Bin ich mit spark-1.3.1 (pyspark) und ich haben generiert eine Tabelle mit einer SQL-Abfrage. Ich habe jetzt ein Objekt, das ist ein DataFrame. Ich möchte für den export dieses DataFrame-Objekt (ich nannte es "Tabelle") in eine csv-Datei,

Wie benutzt man die JDBC-Quelle, um Daten in (Py) Spark zu schreiben und zu lesen?

Anzahl der Antworten 3 Antworten
Dem Ziel diese Frage ist zu dokumentieren: Schritte zum Lesen und schreiben von Daten unter Verwendung von JDBC-verbindungen in PySpark mögliche Probleme mit JDBC-Quellen und Lösungen kennen Mit kleinen änderungen sollten diese Methoden arbeiten mit anderen unterstützten

So lesen Sie Eingaben von S3 in einer Spark Streaming EC2-Clusteranwendung

Anzahl der Antworten 8 Antworten
Ich versuche zu machen meiner Spark-Streaming-Anwendung, Lesen seinen input von einer S3-Verzeichnis, aber ich bekomme immer diese exception nach dem starten mit spark-submit-Skript: Exception in thread "main" java.lang.IllegalArgumentException: AWS Access Key ID and Secret Access Key must

Probleme beim Erstellen einer einfachen SparkSQL-Anwendung

Anzahl der Antworten 3 Antworten
Dies ist ein ziemlich noob Frage. Ich versuche zu lernen über SparkSQL. Ich verfolge das hier beschriebene Beispiel: http://spark.apache.org/docs/1.0.0/sql-programming-guide.html Funktioniert alles einwandfrei, in der Spark-shell, aber wenn ich versuche zu verwenden sbt, erstellen Sie eine batch-version, bekomme

Gibt es eine bessere Möglichkeit, den gesamten Spark SQL DataFrame anzuzeigen?

Anzahl der Antworten 6 Antworten
Möchte ich das ganze Apache Spark SQL DataFrame mit der Scala-API. Ich kann die show() Methode: myDataFrame.show(Int.MaxValue) Gibt es eine bessere Art der Darstellung einer gesamten DataFrame als mit Int.MaxValue? InformationsquelleAutor der Frage Yuri Brovman | 2015-05-15

Was ist Garn-Client-Modus in Spark?

Anzahl der Antworten 6 Antworten
Apache Spark hat vor kurzem aktualisiert und die version 0.8.1, in denen yarn-client - Modus zur Verfügung. Meine Frage ist, was tut Garn-client-Modus gemeint ist? In der Dokumentation heißt es: With yarn-client mode, the application will be

Welche Operationen behalten die RDD-Reihenfolge bei?

Anzahl der Antworten 1 Antworten
RDD hat eine sinnvolle (im Gegensatz zu einigen zufälliger Reihenfolge, die von der Speicher-Modell) um, wenn es verarbeitet wurde, durch sortBy()wie in diesem Antwort. Nun, die Vorgänge bewahren , um? E. g., ist es garantiertdass (nach a.sortBy())

Wie füge ich einem Spark DataFrame (mit PySpark) eine neue Spalte hinzu?

Anzahl der Antworten 6 Antworten
Ich habe eine Spark-DataFrame (mit PySpark 1.5.1) und würde gerne eine neue Spalte hinzufügen. Ich habe versucht, die folgenden ohne Erfolg: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

Wie man eine Sammlung mit Spark / Scala flacht?

Anzahl der Antworten 2 Antworten
In Scala kann ich glätten einer Sammlung : val array = Array(List("1,2,3").iterator,List("1,4,5").iterator) //> array : Array[Iterator[String]] = Array(non-empty iterator, non-empty itera //| tor) array.toList.flatten //> res0: List[String] = List(1,2,3, 1,4,5) Aber wie kann ich das durchführen, ähnlich

Wie loggt man log4j zum lokalen Dateisystem innerhalb einer Spark-Anwendung, die auf YARN läuft?

Anzahl der Antworten 5 Antworten
Baue ich ein Apache Spark Streaming-Anwendung und es nicht schaffen, log in eine Datei auf dem lokalen Dateisystem wenn es läuft auf GARN. Wie können Sie diese erreichen? Ich habe log4.properties - Datei, so dass Sie kann

Geplanten Spark-Job ausführen

Anzahl der Antworten 5 Antworten
Ich habe eine Spark-job das liest eine Quell-Tabelle hat eine Anzahl von Karte /reduzieren /reduce-Operationen und speichert die Ergebnisse in eine separate Tabelle verwenden wir für die Berichterstattung. Derzeit wird diese Arbeit manuell ausgeführt wird, mithilfe der

Wie ändert man die Spaltentypen in DatFrame von Spark SQL?

Anzahl der Antworten 16 Antworten
Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |--

Wie konvertiere ich CSV-Datei in rdd

Anzahl der Antworten 12 Antworten
Ich bin neu zu entfachen. Ich möchte einige Operationen auf bestimmten Daten in einer CSV-Datensatz. Ich versuche zu Lesen, eine CSV-Datei aus und konvertieren Sie es zu RDD. Meine weitere Tätigkeit basiert auf die überschrift in der

Wie man Element durch Index in Spark RDD (Java) erhält

Anzahl der Antworten 3 Antworten
Ich kenne die Methode rdd.ersten (), die gibt mir das erste element in einer RDD. Außerdem gibt es noch die Methode rdd.nehmen(num), Die mir die ersten "num" - Elementen. Aber gibt es nicht eine Möglichkeit, um ein

Ändern Sie Executor Memory (und andere Konfigurationen) für Spark Shell

Anzahl der Antworten 3 Antworten
So ändern executor-Speicher (und anderen configs von Apache Spark Shell? In allem würde ich mag zu geben, Wohnungen zu Funke-shell, wie -Dspark-Kerne-max=12, wenn ich starten Sie es so, dass meine jobs in der Funke-shell wird die Verwendung

Apache Spark: Die Anzahl der Cores im Vergleich zur Anzahl der Executoren

Anzahl der Antworten 7 Antworten
Ich versuche zu verstehen, das Verhältnis der Anzahl der Kerne und der Anzahl der Vollzieher, wenn ein Spark-job-auf-GARN. Die test-Umgebung ist wie folgt: Anzahl der Daten-Knoten: 3 Daten-Knoten-Maschine spec: CPU: Core i7-4790 (# of cores: 4, Anzahl

Spark: Wie man count (distinct (value)) in Dataframe-APIs übersetzt

Anzahl der Antworten 1 Antworten
Ich versuche vergleichen verschiedene Möglichkeiten der Aggregation meine Daten. Dies ist mein input-Daten für 2 Elemente (Seite,Besucher): (PAG1,V1) (PAG1,V1) (PAG2,V1) (PAG2,V2) (PAG2,V1) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG2,V2) (PAG1,V3) Arbeiten mit einem SQL-Befehl in Spark SQL mit

Wie drucke ich den Inhalt von RDD?

Anzahl der Antworten 8 Antworten
Ich bin Versuch zu drucken den Inhalt einer Sammlung an die Funke-Konsole. Ich habe ein Typ: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Und ich den Befehl: scala> linesWithSessionId.map(line => println(line)) Aber dies ist gedruckt : res1: org.apache.spark.rdd.RDD[Unit] = MappedRDD[4]

Spark mit Python: Wie löst man die Stufe x enthält eine sehr große Aufgabe (xxx KB). Die empfohlene maximale Taskgröße beträgt 100 KB

Anzahl der Antworten 3 Antworten
Ich habe gerade die python-Liste von range(1,100000). Mit SparkContext fertig die folgenden Schritte aus: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, 1), (2,

Ist es möglich, die aktuellen Einstellungen für den Funkenkontext in PySpark abzurufen?

Anzahl der Antworten 8 Antworten
Ich versuche, den Pfad zu spark.worker.dir für die aktuelle sparkcontext. Wenn ich explizit als config param lese ich Sie wieder aus SparkConfaber es ist trotzdem Zugriff auf die vollständige config (inklusive aller Standardwerte) mit PySpark? InformationsquelleAutor der

Wie definieren und verwenden Sie eine benutzerdefinierte Aggregatfunktion in Spark SQL?

Anzahl der Antworten 1 Antworten
Ich weiß, wie man schreiben Sie eine UDF-Datei in Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) Kann ich etwas ähnliches tun zu definieren, die eine Aggregatfunktion? Wie wird

wie man einen Nullwert aus dem Spark-Datenframe herausfiltert

Anzahl der Antworten 8 Antworten
Erstellte ich einen dataframe in der Funke mit dem folgenden schema: root |-- user_id: long (nullable = false) |-- event_id: long (nullable = false) |-- invited: integer (nullable = false) |-- day_diff: long (nullable = true) |--

Was sind Workers, Executors, Cores im Spark Standalone-Cluster?

Anzahl der Antworten 1 Antworten
Lese ich Cluster-Modus Im Überblick und ich kann immer noch nicht verstehen, die verschiedenen Prozesse in der Funke Standalone-cluster und der Parallelität. Arbeiter eines JVM-Prozesses oder nicht? Ich lief die bin\start-slave.sh und festgestellt, dass es hervorgebracht hat,

Ruft die aktuelle Anzahl der Partitionen eines DataFrames ab

Anzahl der Antworten 3 Antworten
Gibt es eine Möglichkeit die aktuelle Anzahl der Partitionen von einem DataFrame? Ich habe in der DataFrame javadoc (spark 1.6) und nicht eine Methode gefunden, oder bin ich gerade verpasst? (Im Falle von JavaRDD es gibt eine

Kann Apache Funke ohne Hadoop laufen?

Anzahl der Antworten 8 Antworten
Gibt es irgendwelche Abhängigkeiten zwischen Funke und Hadoop? Wenn nicht, gibt es irgendwelche Funktionen, die ich vermissen werde, wenn ich laufen Funke ohne Hadoop? InformationsquelleAutor der Frage naveen marri | 2015-08-15

Fügen Sie dem Datenframe eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

Anzahl der Antworten 1 Antworten
Frage ich mich, wie ich eine der folgenden Spark (Pyspark) Ursprünglichen Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ Resultierenden Dataframe: +--+---+-------+ |id|num|new_Col| +--+---+-------+ |4 |9.0| 7.0 | +--+---+-------+

Erstellen Sie einen neuen Datenrahmen mit leeren Feldwerten

Anzahl der Antworten 1 Antworten
Ich bin erstellen Sie ein neues Dataframe von einer vorhandenen dataframe, müssen aber hinzufügen neue Spalte ("Feld1" im code unten) in dieser neuen DF. Wie mache ich das? Arbeiten-Beispiel code-Beispiel wird geschätzt. val edwDf = omniDataFrame .withColumn("field1",

Spark submit mehrere Gläser im Klassenpfad hinzufügen

Anzahl der Antworten 6 Antworten
Ich versuche zu laufen, einen spark-Programm, wo ich mehrere jar-Dateien, wenn ich hatte nur ein Glas ich bin nicht in der Lage laufen. Möchte ich hinzufügen, dass sowohl die jar-Dateien, die im gleichen Ort. Ich habe versucht,

Spark - foreach Vs foreachPartitions Wann zu verwenden Was?

Anzahl der Antworten 5 Antworten
Ich würde gerne wissen, ob die foreachPartitions wird zu besserer Leistung führt, aufgrund einer höheren Ebene der Parallelität ist, im Vergleich zu den foreach - Methode unter Berücksichtigung der Fall, in denen ich bin, die durch einen

Wie deaktiviere ich die INFO-Anmeldung in Spark?

Anzahl der Antworten 12 Antworten
Installierte ich die Funke mit der AWS-EC2-Anleitung, und ich kann das Programm starten gut mit der bin/pyspark Skript zu bekommen, um die spark-Eingabeaufforderung und können auch die Quick-Start-quide erfolgreich. Aber, ich kann nicht für das Leben von

So legen Sie die Masteradresse für Spark-Beispiele über die Befehlszeile fest

Anzahl der Antworten 5 Antworten
HINWEIS: Sie Autor sucht nach Antworten, um die Spark-Master beim laufen Spark Beispiele beinhaltet, dass keine änderungen an der source-code, sondern nur Optionen, die getan werden kann von der Befehl-Linie, wenn überhaupt möglich. Betrachten wir die run

Wie reduziert man die Ausführlichkeit der Laufzeitausgabe von Spark?

Anzahl der Antworten 4 Antworten
Wie reduzieren Sie die Menge der trace-info-der Funke-Laufzeit produziert? Standard ist auch die ausführliche, So deaktivieren Sie es, und schalten Sie es wenn ich Sie brauche. Dank Verbose-Modus scala> val la = sc.parallelize(List(12,4,5,3,4,4,6,781)) scala> la.collect 15/01/28 09:57:24

Erstellen Sie Spark DataFrame. Schema für type kann nicht abgeleitet werden: & lt; type 'float' & gt;

Anzahl der Antworten 1 Antworten
Könnte mir jemand helfen dieses problem zu lösen, habe ich mit spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =

Spark Kill laufende Anwendung

Anzahl der Antworten 2 Antworten
Ich eine Funke Anwendung, wo es nimmt alle Kerne, wo meine anderen Anwendungen nicht zugewiesen werden, eine beliebige Ressource. Ich habe einige schnelle Forschung und Menschen vorgeschlagen, mit GARN zu töten oder /bin/Funke-Klasse zu töten, auf den

Lokales Lesen von S3-Dateien über Spark (oder besser: pyspark)

Anzahl der Antworten 5 Antworten
Ich Lesen möchte eine S3-Datei von meinem (lokalen) Maschine, durch Spark (pyspark, wirklich). Nun, ich halte immer Authentifizierung Fehler wie java.lang.IllegalArgumentException: AWS Access Key ID und Secret Access Key angegeben werden müssen, Benutzername oder Passwort (jeweils) eine

Warum gibt ./bin/spark-shell WARN NativeCodeLoader aus: Kann die native-hadoop-Bibliothek für Ihre Plattform nicht geladen werden?

Anzahl der Antworten 2 Antworten
Auf Mac OS X, den ich kompiliert habe, Funken aus den Quellen mit dem folgenden Befehl: jacek:~/oss/spark $ SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true SPARK_HIVE=true SPARK_GANGLIA_LGPL=true xsbt ... [info] Set current project to root (in build file:/Users/jacek/oss/spark/) > ; clean ;

Wie kann verhindert werden, dass Spark Executors verloren gehen, wenn der YARN-Client-Modus verwendet wird?

Anzahl der Antworten 2 Antworten
Hallo ich habe eine Spark-job, die gut läuft lokal mit weniger Daten, aber wenn ich planen es am GARN ausführen, ich erhalte immer die folgende FEHLERMELDUNG und langsam alle Vollzieher wird entfernt von UI und mein job

SparkSQL vs Hive on Spark - Unterschied und Vor- und Nachteile?

Anzahl der Antworten 4 Antworten
SparkSQL CLI-intern verwendet, HiveQL und im Falle Hive on spark(HIVE-7292) , hive verwendet Funke als backend-engine. Kann jemand werfen etwas mehr Licht, wie genau diese beiden Fälle sind Verschieden und vor-und Nachteile der beiden Ansätze? InformationsquelleAutor der

Filterung eines Pyspark DataFrame mit SQL-ähnlicher IN-Klausel

Anzahl der Antworten 3 Antworten
Gefiltert werden soll, ein Pyspark DataFrame mit einer SQL-ähnlichen IN - Klausel, wie in sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a') wo a ist das Tupel (1, 2,

Apache Spark löscht temporäre Verzeichnisse nicht

Anzahl der Antworten 6 Antworten
Nach einer spark-Programm abgeschlossen ist, gibt es 3 temporäre Verzeichnisse bleiben im temp-Verzeichnis. Die Verzeichnis-Namen sind wie diese: spark-2e389487-40cc-4a82-a5c7-353c0feefbb7 Die Verzeichnisse leer sind. Und wenn die Funke das Programm läuft auf Windows, ein schmissiger DLL-Datei bleibt auch