Tag: apache-spark
Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.
5
Antworten
Habe ich angefangen mit Spark SQL und DataFrames in Spark 1.4.0. Ich bin zu wollen, um eine benutzerdefinierte Partitionierer auf DataFrames, in der Scala, aber nicht zu sehen, wie dies zu tun. Einem der Daten-Tabellen arbeite ich
2
Antworten
Ich nur entdeckt die RDD.zip() Methode und ich kann mir nicht vorstellen, was seine Vertrag sein könnte. Verstehe ich, was es hatnatürlich. Jedoch, es war schon immer mein Verständnis, dass die Reihenfolge der Elemente in einem RDD
12
Antworten
Ich bin mit der Funke 1.4.0-rc2 so kann ich mit python 3 mit spark. Wenn ich export PYSPARK_PYTHON=python3 meine .bashrc-Datei, die ich ausführen kann, spark interaktiv mit python 3. Allerdings, wenn ich laufen will ein eigenständiges Programm
8
Antworten
Habe versucht zu starten, Funke 1.6.0 (Funke-1.6.0-bin-hadoop2.4) auf Mac OS Yosemite 10.10.5 mit "./bin/spark-shell". Er hat den Fehler unten. Ich habe auch versucht zu installieren unterschiedliche Versionen der Funke aber alle haben den gleichen Fehler. Dies ist
6
Antworten
Ich will auf DataFrame mit einem angegebenen schema in Scala. Ich habe versucht, zu verwenden JSON Lesen (ich meine die Lektüre leere Datei), aber ich glaube nicht, dass das die beste Praxis. InformationsquelleAutor der Frage user1735076 |
3
Antworten
Bin ich mit Spark 1.0.1 Prozess eine große Menge von Daten. Jede Zeile enthält eine ID-Nummer, einige mit doppelten IDs. Ich will sparen Sie alle Zeilen mit der gleichen ID-Nummer in der gleichen Lage, aber ich habe
1
Antworten
Aus meiner Funke UI. Was bedeutet es übersprungen? InformationsquelleAutor der Frage Aravind R. Yarram | 2016-01-03
3
Antworten
Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen
4
Antworten
Wenn ich das Parsen von code-mit 1 GB-dataset, die es vollendet, ohne irgendwelche Fehler. Aber, wenn ich Versuch 25 gb an Daten an eine Zeit, die ich unter Fehler. Ich versuche zu verstehen wie kann ich vermeiden,
1
Antworten
Werde ich über Funke Programmieren Anleitung, die sagt: Broadcast-Variablen erlauben es dem Programmierer, um eine schreibgeschützte variable zwischengespeichert wird auf jeder Maschine, statt dem Versand eine Kopie mit Aufgaben. Unter Berücksichtigung der oben, was sind die Anwendungsfälle,
5
Antworten
Bin ich mit spark-1.3.1 (pyspark) und ich haben generiert eine Tabelle mit einer SQL-Abfrage. Ich habe jetzt ein Objekt, das ist ein DataFrame. Ich möchte für den export dieses DataFrame-Objekt (ich nannte es "Tabelle") in eine csv-Datei,
3
Antworten
Dem Ziel diese Frage ist zu dokumentieren: Schritte zum Lesen und schreiben von Daten unter Verwendung von JDBC-verbindungen in PySpark mögliche Probleme mit JDBC-Quellen und Lösungen kennen Mit kleinen änderungen sollten diese Methoden arbeiten mit anderen unterstützten
8
Antworten
Ich versuche zu machen meiner Spark-Streaming-Anwendung, Lesen seinen input von einer S3-Verzeichnis, aber ich bekomme immer diese exception nach dem starten mit spark-submit-Skript: Exception in thread "main" java.lang.IllegalArgumentException: AWS Access Key ID and Secret Access Key must
3
Antworten
Dies ist ein ziemlich noob Frage. Ich versuche zu lernen über SparkSQL. Ich verfolge das hier beschriebene Beispiel: http://spark.apache.org/docs/1.0.0/sql-programming-guide.html Funktioniert alles einwandfrei, in der Spark-shell, aber wenn ich versuche zu verwenden sbt, erstellen Sie eine batch-version, bekomme
6
Antworten
Möchte ich das ganze Apache Spark SQL DataFrame mit der Scala-API. Ich kann die show() Methode: myDataFrame.show(Int.MaxValue) Gibt es eine bessere Art der Darstellung einer gesamten DataFrame als mit Int.MaxValue? InformationsquelleAutor der Frage Yuri Brovman | 2015-05-15
6
Antworten
Apache Spark hat vor kurzem aktualisiert und die version 0.8.1, in denen yarn-client - Modus zur Verfügung. Meine Frage ist, was tut Garn-client-Modus gemeint ist? In der Dokumentation heißt es: With yarn-client mode, the application will be
1
Antworten
RDD hat eine sinnvolle (im Gegensatz zu einigen zufälliger Reihenfolge, die von der Speicher-Modell) um, wenn es verarbeitet wurde, durch sortBy()wie in diesem Antwort. Nun, die Vorgänge bewahren , um? E. g., ist es garantiertdass (nach a.sortBy())
6
Antworten
Ich habe eine Spark-DataFrame (mit PySpark 1.5.1) und würde gerne eine neue Spalte hinzufügen. Ich habe versucht, die folgenden ohne Erfolg: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col'])
2
Antworten
In Scala kann ich glätten einer Sammlung : val array = Array(List("1,2,3").iterator,List("1,4,5").iterator) //> array : Array[Iterator[String]] = Array(non-empty iterator, non-empty itera //| tor) array.toList.flatten //> res0: List[String] = List(1,2,3, 1,4,5) Aber wie kann ich das durchführen, ähnlich
5
Antworten
Baue ich ein Apache Spark Streaming-Anwendung und es nicht schaffen, log in eine Datei auf dem lokalen Dateisystem wenn es läuft auf GARN. Wie können Sie diese erreichen? Ich habe log4.properties - Datei, so dass Sie kann
5
Antworten
Ich habe eine Spark-job das liest eine Quell-Tabelle hat eine Anzahl von Karte /reduzieren /reduce-Operationen und speichert die Ergebnisse in eine separate Tabelle verwenden wir für die Berichterstattung. Derzeit wird diese Arbeit manuell ausgeführt wird, mithilfe der
16
Antworten
Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |--
12
Antworten
Ich bin neu zu entfachen. Ich möchte einige Operationen auf bestimmten Daten in einer CSV-Datensatz. Ich versuche zu Lesen, eine CSV-Datei aus und konvertieren Sie es zu RDD. Meine weitere Tätigkeit basiert auf die überschrift in der
3
Antworten
Ich kenne die Methode rdd.ersten (), die gibt mir das erste element in einer RDD. Außerdem gibt es noch die Methode rdd.nehmen(num), Die mir die ersten "num" - Elementen. Aber gibt es nicht eine Möglichkeit, um ein
3
Antworten
So ändern executor-Speicher (und anderen configs von Apache Spark Shell? In allem würde ich mag zu geben, Wohnungen zu Funke-shell, wie -Dspark-Kerne-max=12, wenn ich starten Sie es so, dass meine jobs in der Funke-shell wird die Verwendung
7
Antworten
Ich versuche zu verstehen, das Verhältnis der Anzahl der Kerne und der Anzahl der Vollzieher, wenn ein Spark-job-auf-GARN. Die test-Umgebung ist wie folgt: Anzahl der Daten-Knoten: 3 Daten-Knoten-Maschine spec: CPU: Core i7-4790 (# of cores: 4, Anzahl
1
Antworten
Ich versuche vergleichen verschiedene Möglichkeiten der Aggregation meine Daten. Dies ist mein input-Daten für 2 Elemente (Seite,Besucher): (PAG1,V1) (PAG1,V1) (PAG2,V1) (PAG2,V2) (PAG2,V1) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG1,V2) (PAG1,V1) (PAG2,V2) (PAG1,V3) Arbeiten mit einem SQL-Befehl in Spark SQL mit
8
Antworten
Ich bin Versuch zu drucken den Inhalt einer Sammlung an die Funke-Konsole. Ich habe ein Typ: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Und ich den Befehl: scala> linesWithSessionId.map(line => println(line)) Aber dies ist gedruckt : res1: org.apache.spark.rdd.RDD[Unit] = MappedRDD[4]
3
Antworten
Ich habe gerade die python-Liste von range(1,100000). Mit SparkContext fertig die folgenden Schritte aus: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, 1), (2,
8
Antworten
Ich versuche, den Pfad zu spark.worker.dir für die aktuelle sparkcontext. Wenn ich explizit als config param lese ich Sie wieder aus SparkConfaber es ist trotzdem Zugriff auf die vollständige config (inklusive aller Standardwerte) mit PySpark? InformationsquelleAutor der
1
Antworten
Ich weiß, wie man schreiben Sie eine UDF-Datei in Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) Kann ich etwas ähnliches tun zu definieren, die eine Aggregatfunktion? Wie wird
8
Antworten
Erstellte ich einen dataframe in der Funke mit dem folgenden schema: root |-- user_id: long (nullable = false) |-- event_id: long (nullable = false) |-- invited: integer (nullable = false) |-- day_diff: long (nullable = true) |--
1
Antworten
Lese ich Cluster-Modus Im Überblick und ich kann immer noch nicht verstehen, die verschiedenen Prozesse in der Funke Standalone-cluster und der Parallelität. Arbeiter eines JVM-Prozesses oder nicht? Ich lief die bin\start-slave.sh und festgestellt, dass es hervorgebracht hat,
3
Antworten
Gibt es eine Möglichkeit die aktuelle Anzahl der Partitionen von einem DataFrame? Ich habe in der DataFrame javadoc (spark 1.6) und nicht eine Methode gefunden, oder bin ich gerade verpasst? (Im Falle von JavaRDD es gibt eine
8
Antworten
Gibt es irgendwelche Abhängigkeiten zwischen Funke und Hadoop? Wenn nicht, gibt es irgendwelche Funktionen, die ich vermissen werde, wenn ich laufen Funke ohne Hadoop? InformationsquelleAutor der Frage naveen marri | 2015-08-15
1
Antworten
Frage ich mich, wie ich eine der folgenden Spark (Pyspark) Ursprünglichen Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ Resultierenden Dataframe: +--+---+-------+ |id|num|new_Col| +--+---+-------+ |4 |9.0| 7.0 | +--+---+-------+
1
Antworten
Ich bin erstellen Sie ein neues Dataframe von einer vorhandenen dataframe, müssen aber hinzufügen neue Spalte ("Feld1" im code unten) in dieser neuen DF. Wie mache ich das? Arbeiten-Beispiel code-Beispiel wird geschätzt. val edwDf = omniDataFrame .withColumn("field1",
6
Antworten
Ich versuche zu laufen, einen spark-Programm, wo ich mehrere jar-Dateien, wenn ich hatte nur ein Glas ich bin nicht in der Lage laufen. Möchte ich hinzufügen, dass sowohl die jar-Dateien, die im gleichen Ort. Ich habe versucht,
5
Antworten
Ich würde gerne wissen, ob die foreachPartitions wird zu besserer Leistung führt, aufgrund einer höheren Ebene der Parallelität ist, im Vergleich zu den foreach - Methode unter Berücksichtigung der Fall, in denen ich bin, die durch einen
12
Antworten
Installierte ich die Funke mit der AWS-EC2-Anleitung, und ich kann das Programm starten gut mit der bin/pyspark Skript zu bekommen, um die spark-Eingabeaufforderung und können auch die Quick-Start-quide erfolgreich. Aber, ich kann nicht für das Leben von
5
Antworten
HINWEIS: Sie Autor sucht nach Antworten, um die Spark-Master beim laufen Spark Beispiele beinhaltet, dass keine änderungen an der source-code, sondern nur Optionen, die getan werden kann von der Befehl-Linie, wenn überhaupt möglich. Betrachten wir die run
4
Antworten
Wie reduzieren Sie die Menge der trace-info-der Funke-Laufzeit produziert? Standard ist auch die ausführliche, So deaktivieren Sie es, und schalten Sie es wenn ich Sie brauche. Dank Verbose-Modus scala> val la = sc.parallelize(List(12,4,5,3,4,4,6,781)) scala> la.collect 15/01/28 09:57:24
1
Antworten
Könnte mir jemand helfen dieses problem zu lösen, habe ich mit spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =
2
Antworten
Ich eine Funke Anwendung, wo es nimmt alle Kerne, wo meine anderen Anwendungen nicht zugewiesen werden, eine beliebige Ressource. Ich habe einige schnelle Forschung und Menschen vorgeschlagen, mit GARN zu töten oder /bin/Funke-Klasse zu töten, auf den
5
Antworten
Ich Lesen möchte eine S3-Datei von meinem (lokalen) Maschine, durch Spark (pyspark, wirklich). Nun, ich halte immer Authentifizierung Fehler wie java.lang.IllegalArgumentException: AWS Access Key ID und Secret Access Key angegeben werden müssen, Benutzername oder Passwort (jeweils) eine
2
Antworten
Auf Mac OS X, den ich kompiliert habe, Funken aus den Quellen mit dem folgenden Befehl: jacek:~/oss/spark $ SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true SPARK_HIVE=true SPARK_GANGLIA_LGPL=true xsbt ... [info] Set current project to root (in build file:/Users/jacek/oss/spark/) > ; clean ;
2
Antworten
Hallo ich habe eine Spark-job, die gut läuft lokal mit weniger Daten, aber wenn ich planen es am GARN ausführen, ich erhalte immer die folgende FEHLERMELDUNG und langsam alle Vollzieher wird entfernt von UI und mein job
4
Antworten
SparkSQL CLI-intern verwendet, HiveQL und im Falle Hive on spark(HIVE-7292) , hive verwendet Funke als backend-engine. Kann jemand werfen etwas mehr Licht, wie genau diese beiden Fälle sind Verschieden und vor-und Nachteile der beiden Ansätze? InformationsquelleAutor der
3
Antworten
Gefiltert werden soll, ein Pyspark DataFrame mit einer SQL-ähnlichen IN - Klausel, wie in sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a') wo a ist das Tupel (1, 2,
6
Antworten
Nach einer spark-Programm abgeschlossen ist, gibt es 3 temporäre Verzeichnisse bleiben im temp-Verzeichnis. Die Verzeichnis-Namen sind wie diese: spark-2e389487-40cc-4a82-a5c7-353c0feefbb7 Die Verzeichnisse leer sind. Und wenn die Funke das Programm läuft auf Windows, ein schmissiger DLL-Datei bleibt auch