Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Wie definiere ich Partitionierung von DataFrame?

5 Antworten

Habe ich angefangen mit Spark SQL und DataFrames in Spark 1.4.0. Ich bin zu wollen, um eine benutzerdefinierte Partitionierer auf DataFrames, in der Scala, aber nicht zu sehen, wie dies zu tun. Einem der Daten-Tabellen arbeite ich

Geist geblasen: RDD.zip () -Methode

2 Antworten

Ich nur entdeckt die RDD.zip() Methode und ich kann mir nicht vorstellen, was seine Vertrag sein könnte. Verstehe ich, was es hatnatürlich. Jedoch, es war schon immer mein Verständnis, dass die Reihenfolge der Elemente in einem RDD

apache-spark

Wie stelle ich die Treiber-Python-Version in Spark ein?

12 Antworten

Ich bin mit der Funke 1.4.0-rc2 so kann ich mit python 3 mit spark. Wenn ich export PYSPARK_PYTHON=python3 meine .bashrc-Datei, die ich ausführen kann, spark interaktiv mit python 3. Allerdings, wenn ich laufen will ein eigenständiges Programm

apache-spark pyspark

Mac Spark-Shell Fehler beim Initialisieren von SparkContext

8 Antworten

Habe versucht zu starten, Funke 1.6.0 (Funke-1.6.0-bin-hadoop2.4) auf Mac OS Yosemite 10.10.5 mit "./bin/spark-shell". Er hat den Fehler unten. Ich habe auch versucht zu installieren unterschiedliche Versionen der Funke aber alle haben den gleichen Fehler. Dies ist

apache-spark

Wie erstellt man einen leeren Datenrahmen mit einem bestimmten Schema?

6 Antworten

Ich will auf DataFrame mit einem angegebenen schema in Scala. Ich habe versucht, zu verwenden JSON Lesen (ich meine die Lektüre leere Datei), aber ich glaube nicht, dass das die beste Praxis. InformationsquelleAutor der Frage user1735076 |

apache-spark apache-spark-sql dataframe scala

Apache Spark: Teilen RDD RDD in mehrere RDDs mit Schlüssel, um Werte zu speichern

3 Antworten

Bin ich mit Spark 1.0.1 Prozess eine große Menge von Daten. Jede Zeile enthält eine ID-Nummer, einige mit doppelten IDs. Ich will sparen Sie alle Zeilen mit der gleichen ID-Nummer in der gleichen Lage, aber ich habe

apache-spark filter rdd

Was bedeutet "Stage Skipped" in der Apache Spark-Webbenutzeroberfläche?

1 Antworten

Aus meiner Funke UI. Was bedeutet es übersprungen? InformationsquelleAutor der Frage Aravind R. Yarram | 2016-01-03

apache-spark rdd

Wie erstellt man einen korrekten Datenrahmen für die Klassifizierung in Spark ML?

3 Antworten

Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen

apache-spark apache-spark-mllib apache-spark-sql scala

FetchFailedException oder MetadataFetchFailedException bei der Verarbeitung großer Datenmengen

4 Antworten

Wenn ich das Parsen von code-mit 1 GB-dataset, die es vollendet, ohne irgendwelche Fehler. Aber, wenn ich Versuch 25 gb an Daten an eine Zeit, die ich unter Fehler. Ich versuche zu verstehen wie kann ich vermeiden,

apache-spark yarn

Was sind Broadcast-Variablen? Welche Probleme lösen sie?

1 Antworten

Werde ich über Funke Programmieren Anleitung, die sagt: Broadcast-Variablen erlauben es dem Programmierer, um eine schreibgeschützte variable zwischengespeichert wird auf jeder Maschine, statt dem Versand eine Kopie mit Aufgaben. Unter Berücksichtigung der oben, was sind die Anwendungsfälle,

apache-spark

Wie exportiert man einen Tabellen-Datenrahmen in Pyspark zu CSV?

5 Antworten

Bin ich mit spark-1.3.1 (pyspark) und ich haben generiert eine Tabelle mit einer SQL-Abfrage. Ich habe jetzt ein Objekt, das ist ein DataFrame. Ich möchte für den export dieses DataFrame-Objekt (ich nannte es "Tabelle") in eine csv-Datei,

apache-spark dataframe export-to-csv python sql

Wie benutzt man die JDBC-Quelle, um Daten in (Py) Spark zu schreiben und zu lesen?

3 Antworten

Dem Ziel diese Frage ist zu dokumentieren: Schritte zum Lesen und schreiben von Daten unter Verwendung von JDBC-verbindungen in PySpark mögliche Probleme mit JDBC-Quellen und Lösungen kennen Mit kleinen änderungen sollten diese Methoden arbeiten mit anderen unterstützten

apache-spark apache-spark-sql pyspark python scala

So lesen Sie Eingaben von S3 in einer Spark Streaming EC2-Clusteranwendung

8 Antworten

Ich versuche zu machen meiner Spark-Streaming-Anwendung, Lesen seinen input von einer S3-Verzeichnis, aber ich bekomme immer diese exception nach dem starten mit spark-submit-Skript: Exception in thread "main" java.lang.IllegalArgumentException: AWS Access Key ID and Secret Access Key must

amazon-ec2 amazon-s3 apache-spark

Probleme beim Erstellen einer einfachen SparkSQL-Anwendung

3 Antworten

Dies ist ein ziemlich noob Frage. Ich versuche zu lernen über SparkSQL. Ich verfolge das hier beschriebene Beispiel: http://spark.apache.org/docs/1.0.0/sql-programming-guide.html Funktioniert alles einwandfrei, in der Spark-shell, aber wenn ich versuche zu verwenden sbt, erstellen Sie eine batch-version, bekomme

apache-spark sbt

Gibt es eine bessere Möglichkeit, den gesamten Spark SQL DataFrame anzuzeigen?

6 Antworten

Möchte ich das ganze Apache Spark SQL DataFrame mit der Scala-API. Ich kann die show() Methode: myDataFrame.show(Int.MaxValue) Gibt es eine bessere Art der Darstellung einer gesamten DataFrame als mit Int.MaxValue? InformationsquelleAutor der Frage Yuri Brovman | 2015-05-15

apache-spark apache-spark-sql scala

Was ist Garn-Client-Modus in Spark?

6 Antworten

Apache Spark hat vor kurzem aktualisiert und die version 0.8.1, in denen yarn-client - Modus zur Verfügung. Meine Frage ist, was tut Garn-client-Modus gemeint ist? In der Dokumentation heißt es: With yarn-client mode, the application will be

apache-spark yarn

Welche Operationen behalten die RDD-Reihenfolge bei?

1 Antworten

RDD hat eine sinnvolle (im Gegensatz zu einigen zufälliger Reihenfolge, die von der Speicher-Modell) um, wenn es verarbeitet wurde, durch sortBy()wie in diesem Antwort. Nun, die Vorgänge bewahren , um? E. g., ist es garantiertdass (nach a.sortBy())

apache-spark rdd

Wie füge ich einem Spark DataFrame (mit PySpark) eine neue Spalte hinzu?

6 Antworten

Ich habe eine Spark-DataFrame (mit PySpark 1.5.1) und würde gerne eine neue Spalte hinzufügen. Ich habe versucht, die folgenden ohne Erfolg: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

apache-spark apache-spark-sql pyspark python spark-dataframe

Wie man eine Sammlung mit Spark / Scala flacht?

2 Antworten

In Scala kann ich glätten einer Sammlung : val array = Array(List("1,2,3").iterator,List("1,4,5").iterator) //> array : Array[Iterator[String]] = Array(non-empty iterator, non-empty itera //| tor) array.toList.flatten //> res0: List[String] = List(1,2,3, 1,4,5) Aber wie kann ich das durchführen, ähnlich

apache-spark scala

Wie loggt man log4j zum lokalen Dateisystem innerhalb einer Spark-Anwendung, die auf YARN läuft?

5 Antworten

Baue ich ein Apache Spark Streaming-Anwendung und es nicht schaffen, log in eine Datei auf dem lokalen Dateisystem wenn es läuft auf GARN. Wie können Sie diese erreichen? Ich habe log4.properties - Datei, so dass Sie kann

apache-spark log4j logging yarn

Geplanten Spark-Job ausführen

5 Antworten

Ich habe eine Spark-job das liest eine Quell-Tabelle hat eine Anzahl von Karte /reduzieren /reduce-Operationen und speichert die Ergebnisse in eine separate Tabelle verwenden wir für die Berichterstattung. Derzeit wird diese Arbeit manuell ausgeführt wird, mithilfe der

apache-spark

Wie ändert man die Spaltentypen in DatFrame von Spark SQL?

16 Antworten

Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |--

apache-spark apache-spark-sql scala

Wie konvertiere ich CSV-Datei in rdd

12 Antworten

Ich bin neu zu entfachen. Ich möchte einige Operationen auf bestimmten Daten in einer CSV-Datensatz. Ich versuche zu Lesen, eine CSV-Datei aus und konvertieren Sie es zu RDD. Meine weitere Tätigkeit basiert auf die überschrift in der

apache-spark scala

Wie man Element durch Index in Spark RDD (Java) erhält

3 Antworten

Ich kenne die Methode rdd.ersten (), die gibt mir das erste element in einer RDD. Außerdem gibt es noch die Methode rdd.nehmen(num), Die mir die ersten "num" - Elementen. Aber gibt es nicht eine Möglichkeit, um ein

apache-spark java rdd

Ändern Sie Executor Memory (und andere Konfigurationen) für Spark Shell

3 Antworten

So ändern executor-Speicher (und anderen configs von Apache Spark Shell? In allem würde ich mag zu geben, Wohnungen zu Funke-shell, wie -Dspark-Kerne-max=12, wenn ich starten Sie es so, dass meine jobs in der Funke-shell wird die Verwendung

apache-spark

Apache Spark: Die Anzahl der Cores im Vergleich zur Anzahl der Executoren

7 Antworten

Ich versuche zu verstehen, das Verhältnis der Anzahl der Kerne und der Anzahl der Vollzieher, wenn ein Spark-job-auf-GARN. Die test-Umgebung ist wie folgt: Anzahl der Daten-Knoten: 3 Daten-Knoten-Maschine spec: CPU: Core i7-4790 (# of cores: 4, Anzahl

apache-spark hadoop yarn

Spark: Wie man count (distinct (value)) in Dataframe-APIs übersetzt

1 Antworten

Ich versuche vergleichen verschiedene Möglichkeiten der Aggregation meine Daten. Dies ist mein input-Daten für 2 Elemente (Seite,Besucher): (PAG1,V1) (PAG1,V1) (PAG2,V1) (PAG2,V2) (PAG2,V1) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG2,V2) (PAG1,V3) Arbeiten mit einem SQL-Befehl in Spark SQL mit

apache-spark apache-spark-sql count dataframe distinct

Wie drucke ich den Inhalt von RDD?

8 Antworten

Ich bin Versuch zu drucken den Inhalt einer Sammlung an die Funke-Konsole. Ich habe ein Typ: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Und ich den Befehl: scala> linesWithSessionId.map(line => println(line)) Aber dies ist gedruckt : res1: org.apache.spark.rdd.RDD[Unit] = MappedRDD[4]

apache-spark scala

Spark mit Python: Wie löst man die Stufe x enthält eine sehr große Aufgabe (xxx KB). Die empfohlene maximale Taskgröße beträgt 100 KB

3 Antworten

Ich habe gerade die python-Liste von range(1,100000). Mit SparkContext fertig die folgenden Schritte aus: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, 1), (2,

apache-spark spark-streaming

Ist es möglich, die aktuellen Einstellungen für den Funkenkontext in PySpark abzurufen?

8 Antworten

Ich versuche, den Pfad zu spark.worker.dir für die aktuelle sparkcontext. Wenn ich explizit als config param lese ich Sie wieder aus SparkConfaber es ist trotzdem Zugriff auf die vollständige config (inklusive aller Standardwerte) mit PySpark? InformationsquelleAutor der

apache-spark config pyspark

Wie definieren und verwenden Sie eine benutzerdefinierte Aggregatfunktion in Spark SQL?

1 Antworten

Ich weiß, wie man schreiben Sie eine UDF-Datei in Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) Kann ich etwas ähnliches tun zu definieren, die eine Aggregatfunktion? Wie wird

apache-spark apache-spark-sql scala

wie man einen Nullwert aus dem Spark-Datenframe herausfiltert

8 Antworten

apache-spark apache-spark-sql scala spark-dataframe

Was sind Workers, Executors, Cores im Spark Standalone-Cluster?

1 Antworten

Lese ich Cluster-Modus Im Überblick und ich kann immer noch nicht verstehen, die verschiedenen Prozesse in der Funke Standalone-cluster und der Parallelität. Arbeiter eines JVM-Prozesses oder nicht? Ich lief die bin\start-slave.sh und festgestellt, dass es hervorgebracht hat,

apache-spark distributed-computing

Ruft die aktuelle Anzahl der Partitionen eines DataFrames ab

3 Antworten

Gibt es eine Möglichkeit die aktuelle Anzahl der Partitionen von einem DataFrame? Ich habe in der DataFrame javadoc (spark 1.6) und nicht eine Methode gefunden, oder bin ich gerade verpasst? (Im Falle von JavaRDD es gibt eine

apache-spark spark-dataframe

Kann Apache Funke ohne Hadoop laufen?

8 Antworten

Gibt es irgendwelche Abhängigkeiten zwischen Funke und Hadoop? Wenn nicht, gibt es irgendwelche Funktionen, die ich vermissen werde, wenn ich laufen Funke ohne Hadoop? InformationsquelleAutor der Frage naveen marri | 2015-08-15

amazon-s3 apache-spark hadoop mapreduce mesos

Fügen Sie dem Datenframe eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

1 Antworten

Frage ich mich, wie ich eine der folgenden Spark (Pyspark) Ursprünglichen Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ Resultierenden Dataframe: +--+---+-------+ |id|num|new_Col| +--+---+-------+ |4 |9.0| 7.0 | +--+---+-------+

apache-spark apache-spark-sql pyspark python spark-dataframe

Erstellen Sie einen neuen Datenrahmen mit leeren Feldwerten

1 Antworten

Ich bin erstellen Sie ein neues Dataframe von einer vorhandenen dataframe, müssen aber hinzufügen neue Spalte ("Feld1" im code unten) in dieser neuen DF. Wie mache ich das? Arbeiten-Beispiel code-Beispiel wird geschätzt. val edwDf = omniDataFrame .withColumn("field1",

apache-spark apache-spark-sql scala spark-dataframe

Spark submit mehrere Gläser im Klassenpfad hinzufügen

6 Antworten

Ich versuche zu laufen, einen spark-Programm, wo ich mehrere jar-Dateien, wenn ich hatte nur ein Glas ich bin nicht in der Lage laufen. Möchte ich hinzufügen, dass sowohl die jar-Dateien, die im gleichen Ort. Ich habe versucht,

apache-spark classpath submit

Spark - foreach Vs foreachPartitions Wann zu verwenden Was?

5 Antworten

Ich würde gerne wissen, ob die foreachPartitions wird zu besserer Leistung führt, aufgrund einer höheren Ebene der Parallelität ist, im Vergleich zu den foreach - Methode unter Berücksichtigung der Fall, in denen ich bin, die durch einen

apache-spark foreach java scala

Wie deaktiviere ich die INFO-Anmeldung in Spark?

12 Antworten

Installierte ich die Funke mit der AWS-EC2-Anleitung, und ich kann das Programm starten gut mit der bin/pyspark Skript zu bekommen, um die spark-Eingabeaufforderung und können auch die Quick-Start-quide erfolgreich. Aber, ich kann nicht für das Leben von

apache-spark hadoop pyspark python yarn

So legen Sie die Masteradresse für Spark-Beispiele über die Befehlszeile fest

5 Antworten

HINWEIS: Sie Autor sucht nach Antworten, um die Spark-Master beim laufen Spark Beispiele beinhaltet, dass keine änderungen an der source-code, sondern nur Optionen, die getan werden kann von der Befehl-Linie, wenn überhaupt möglich. Betrachten wir die run

apache-spark intellij-idea

Wie reduziert man die Ausführlichkeit der Laufzeitausgabe von Spark?

4 Antworten

Wie reduzieren Sie die Menge der trace-info-der Funke-Laufzeit produziert? Standard ist auch die ausführliche, So deaktivieren Sie es, und schalten Sie es wenn ich Sie brauche. Dank Verbose-Modus scala> val la = sc.parallelize(List(12,4,5,3,4,4,6,781)) scala> la.collect 15/01/28 09:57:24

apache-spark scala

Erstellen Sie Spark DataFrame. Schema für type kann nicht abgeleitet werden: & lt; type 'float' & gt;

1 Antworten

Könnte mir jemand helfen dieses problem zu lösen, habe ich mit spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =

apache-spark apache-spark-sql pyspark python python-2.7

Spark Kill laufende Anwendung

2 Antworten

Ich eine Funke Anwendung, wo es nimmt alle Kerne, wo meine anderen Anwendungen nicht zugewiesen werden, eine beliebige Ressource. Ich habe einige schnelle Forschung und Menschen vorgeschlagen, mit GARN zu töten oder /bin/Funke-Klasse zu töten, auf den

apache-spark pyspark yarn

Lokales Lesen von S3-Dateien über Spark (oder besser: pyspark)

5 Antworten

Ich Lesen möchte eine S3-Datei von meinem (lokalen) Maschine, durch Spark (pyspark, wirklich). Nun, ich halte immer Authentifizierung Fehler wie java.lang.IllegalArgumentException: AWS Access Key ID und Secret Access Key angegeben werden müssen, Benutzername oder Passwort (jeweils) eine

amazon-s3 apache-spark authentication credentials pyspark

Warum gibt ./bin/spark-shell WARN NativeCodeLoader aus: Kann die native-hadoop-Bibliothek für Ihre Plattform nicht geladen werden?

2 Antworten

Auf Mac OS X, den ich kompiliert habe, Funken aus den Quellen mit dem folgenden Befehl: jacek:~/oss/spark $ SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true SPARK_HIVE=true SPARK_GANGLIA_LGPL=true xsbt ... [info] Set current project to root (in build file:/Users/jacek/oss/spark/) > ; clean ;

apache-spark hadoop

Wie kann verhindert werden, dass Spark Executors verloren gehen, wenn der YARN-Client-Modus verwendet wird?

2 Antworten

Hallo ich habe eine Spark-job, die gut läuft lokal mit weniger Daten, aber wenn ich planen es am GARN ausführen, ich erhalte immer die folgende FEHLERMELDUNG und langsam alle Vollzieher wird entfernt von UI und mein job

apache-spark yarn

SparkSQL vs Hive on Spark - Unterschied und Vor- und Nachteile?

4 Antworten

SparkSQL CLI-intern verwendet, HiveQL und im Falle Hive on spark(HIVE-7292) , hive verwendet Funke als backend-engine. Kann jemand werfen etwas mehr Licht, wie genau diese beiden Fälle sind Verschieden und vor-und Nachteile der beiden Ansätze? InformationsquelleAutor der

apache-spark hadoop hive

Filterung eines Pyspark DataFrame mit SQL-ähnlicher IN-Klausel

3 Antworten

Gefiltert werden soll, ein Pyspark DataFrame mit einer SQL-ähnlichen IN - Klausel, wie in sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a') wo a ist das Tupel (1, 2,

apache-spark dataframe pyspark python sql

Apache Spark löscht temporäre Verzeichnisse nicht

6 Antworten

Nach einer spark-Programm abgeschlossen ist, gibt es 3 temporäre Verzeichnisse bleiben im temp-Verzeichnis. Die Verzeichnis-Namen sind wie diese: spark-2e389487-40cc-4a82-a5c7-353c0feefbb7 Die Verzeichnisse leer sind. Und wenn die Funke das Programm läuft auf Windows, ein schmissiger DLL-Datei bleibt auch

apache-spark