Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Dataframe transpose mit pyspark in Apache Spark

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe df haben folgende Struktur: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-----+-----+-------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...|

Spark 2.3.0 netty version Problem: NoSuchMethod io.netty.Puffer.PooledByteBufAllocator.(Metrisch)

Anzahl der Antworten 2 Antworten
Ich gerade aktualisiert meine spark-Projekt von 2.2.1 auf 2.3.0 zu finden, die Versionierung Ausnahme unten. Ich habe Abhängigkeiten auf der Funke-cassandra-Anschluss.2.0.7 und cassandra-driver-Kern.3.4.0 von datastax, die wiederum Abhängigkeiten auf netty 4.x in der Erwägung, dass spark 2.3.0

'Liste' - Objekt hat kein Attribut 'anzeigen'

Anzahl der Antworten 1 Antworten
Ich weiß, es ist Ursache, dass map ist eine Funktion und keine Methode der Liste. Aber gibt es eine Möglichkeit, ich kann die map-Funktion zum übergeben von Daten an die Funktion aufgerufen, in anzeigen. Hier ist mein

Spark 1.5.2: org.apache.spark.sql.AnalysisException: nicht-operator 'Union;

Anzahl der Antworten 3 Antworten
Habe ich zwei dataframes df1 und df2. Beide haben das folgende schema: |-- ts: long (nullable = true) |-- id: integer (nullable = true) |-- managers: array (nullable = true) | |-- element: string (containsNull = true)

DataFrame filtern, basierend auf der zweiten Dataframe

Anzahl der Antworten 2 Antworten
Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie: df = sqlContext.createDataFrame(...); df1 = df.filter("value = 'abc'"); //[path, value] df2 = df.filter("value = 'qwe'"); //[path, value] Möchte ich filtern df1, wenn ein Teil

Fügen Sie die Anzahl der Tage, die Spalte Datum Spalte im gleichen dataframe für Spark-Scala-App

Anzahl der Antworten 2 Antworten
Ich habe eine dataframe df von columns ("id", "current_date", "days") und ich bin versucht hinzuzufügen, die die "days" zu "current_date" und erstellen Sie eine neue dataframe mit neuen column genannt "new_date" mit spark-scala-Funktion date_add() val newDF =

Apache Spark wirft NullPointerException, wenn man auf fehlende feature

Anzahl der Antworten 2 Antworten
Habe ich ein bizarres Problem mit PySpark, wenn die Indizierung Spalte von strings an Funktionen. Hier ist mein tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen fehlenden Wert für 'x0'. Auf den ersten, ich

Holen Sie sich JavaSparkContext von einem SparkSession

Anzahl der Antworten 2 Antworten
Im bin mit einem SparkSession mein spark Anwendung, weil ich eine Menge von Funken-sql-Funktionen. Ich möchte die JavaSparkContexterstellen Sie eine RDD-aus einer Liste. Aber über die Session kann ich nur bekommen ein gewöhnlichen SparkContext. Gibt es eine

Spark spark-submit --Gläser Argumente will Komma-Liste, wie zu erklären, ein Verzeichnis der Gläser?

Anzahl der Antworten 2 Antworten
In Die Einreichung von Bewerbungen in der Funke docs, als der 1.6.0 und früher, es ist nicht klar, wie Sie angeben, die --Gläser argument, da es sich offenbar nicht um eine durch Doppelpunkte getrennte classpath nicht ein

How to set up sofort für läuft spark auf standalone-OS/X

Anzahl der Antworten 3 Antworten
Will ich tun, testen von Funke-Programme auf einem Mac. Spark läuft und meine Funke scala-Programm kompiliert: aber es ist eine Bibliothek (sofort.so???) Fehler zur Laufzeit: Exception in thread "main" java.lang.UnsatisfiedLinkError: no mesos in java.library.path at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1758) at

neu partitionieren() ist nicht auf RDD-partition Größe

Anzahl der Antworten 1 Antworten
Ich versuche, ändern Sie die Größe der partition einer RDD mit repartition () - Methode. Der Aufruf der Methode auf dem RDD gelingt, aber wenn ich explizit überprüfen Sie die Größe der partition mit partition.size-Eigenschaft des RDD,

Wie um die Karte struct im DataFrame zu Fall Klasse?

Anzahl der Antworten 3 Antworten
Irgendwann in meiner Anwendung habe ich einen DataFrame mit einem Struct-Feld erstellt von Fall Klasse. Jetzt möchte ich cast/anzeigen es wieder der Fall-Klasse Typ: import spark.implicits._ case class Location(lat: Double, lon: Double) scala> Seq((10, Location(35, 25)), (20,

GC overhead limit exceeded mit großen RDD[MatrixEntry] in Apache Spark

Anzahl der Antworten 1 Antworten
Ich habe eine csv-Datei gespeichert Daten des user-Element der dimension 6,365x214 , und ich finde user-user ähnlichkeit mithilfe columnSimilarities() von org.apache.spark.mllib.linalg.distributed.CoordinateMatrix. Mein code sieht wie folgt aus: import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.mllib.linalg.distributed.{RowMatrix, MatrixEntry, CoordinateMatrix} import org.apache.spark.rdd.RDD def

Funke - Gruppe, indem er mit dataframe syntax?

Anzahl der Antworten 2 Antworten
Was ist die syntax für eine groupby-unter Spark ohne sql/hiveContext? Ich weiß, dass ich tun kann, DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff") aber wie mache ich

Spark from_json - StructType und ArrayType

Anzahl der Antworten 2 Antworten
Ich habe einen Datensatz, der kommt, wie XML, und einer der Knoten enthält JSON. Spark liest dies in so einem StringType, so bin ich versucht zu verwenden from_json() zum konvertieren der JSON zu einem DataFrame. Ich bin

com.fasterxml.jackson.databind-Methode.JsonMappingException: Jackson-version ist zu alt 2.5.3

Anzahl der Antworten 2 Antworten
Mein OS ist OS X 10.11.6. Ich bin mit Spark 2.0, Zeppelin 0.6, Scala 2.11 Wenn ich diesen code ausführen im Zeppelin bekomme ich eine Ausnahme von Jackson. Wenn ich diesen code ausführen spark-shell - keine Ausnahme.

Apache Sofort-slave kann keine Verbindung zum master

Anzahl der Antworten 2 Antworten
Ich habe versucht, einrichten, apache sofort mit zwei Maschinen, eine als slave, das andere mit einem master und einem slave. Ich habe mit der mesosphäre Pakete für diese. Der slave-auf die master-Maschine (james-pc) verbindet feine, aber der

Ist Spark SQL UDAF (user defined aggregate-Funktion) verfügbar in der Python-API?

Anzahl der Antworten 1 Antworten
Als der Funke 1.5.0 scheint es möglich, eigene zu schreiben, UDAF für benutzerdefinierte Aggregationen auf DataFrames: Spark 1.5 DataFrame API-Highlights: Datum/Zeit/String-Handling, Zeit-Abständen, und UDAFs Es ist jedoch unklar ist mir, ob diese Funktionalität unterstützt wird, in die

Spark Abwärtskompatibilität 1.6 vs 2.0

Anzahl der Antworten 1 Antworten
Bin ich mit spark 1.4 code und nun wollen wir zu bewegen, um spark 2.0, und wenn ich Sie in der Dokumentation unten, es sind nur ein paar features, die sind abwärtskompatibel, bedeutet das, dass ich geändert

Was ist der Unterschied zwischen Apache Spark und Apache Apex?

Anzahl der Antworten 1 Antworten
Apache Apex - ist ein open-source-enterprise-grade unified stream-und batch-processing-Plattform. Es wird verwendet bei GE-Predix-Plattform für das Internet der Dinge. Was sind die wichtigsten Unterschiede zwischen diesen 2 Plattformen? Fragen Daten aus einer wissenschaftlichen Perspektive, wie unterscheidet es

Pyspark importieren .py-Datei nicht funktioniert

Anzahl der Antworten 1 Antworten
Mein Ziel ist so importieren Sie eine benutzerdefinierte .py-Datei in meine Funke Anwendung und rufen Sie einige der Funktionen innerhalb der Datei Hier ist, was ich versucht habe: Habe ich eine test-Datei namens Test.py, die wie folgt

Best practice zum erstellen SparkSession-Objekt in Scala zu verwenden, sowohl in unittest und Funken Einreichen

Anzahl der Antworten 4 Antworten
Ich habe versucht, schreiben Sie ein transform-Methode von DataFrame zu DataFrame. Und außerdem möchte ich es testen, indem scalatest. Wie Sie wissen, in Spark 2.x mit Scala-API können Sie erstellen SparkSession Objekt wie folgt: import org.apache.spark.sql.SparkSession val

Computing Rang einer Zeile

Anzahl der Antworten 1 Antworten
Ich möchte Ranges Benutzer-id basiert auf einem Feld. Für den gleichen Wert des Feldes, Rang sollte gleich sein. Dass Daten in Hive-Tabelle. z.B. user value a 5 b 10 c 5 d 6 Rank a - 1

Weiterhin im Speicher nicht in der Funke

Anzahl der Antworten 1 Antworten
Ich versuche das fortbestehen Funktion in der Funke zur Speicherung der Daten im Arbeitsspeicher und Berechnungen ausführen es. Ich bin unter der Annahme, dass die Speicherung der Daten im Speicher machen würde, die Berechnungen schneller für iterative

Iterieren scala wrappedArray? (Funke)

Anzahl der Antworten 1 Antworten
Ich die folgenden Operationen durchführen: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs = wordDocs.map(t => t(1)).collect() listDocs: Array [Any] = Array(WrappedArray(123, 234, 205876618, 456)) Meine Frage

Hive-metastore-Konfiguration mit derby

Anzahl der Antworten 4 Antworten
In RedHat-test-server habe ich installiert hadoop 2.7 und ich lief Hive ,Pig & Funke-out-Probleme .Aber wenn Sie versucht, Zugriff auf metastore von Hive von Spark ich habe Fehler, So dass ich dachte, der Umsetzung hive-site.xml(Nach dem extrahieren

spark sql current timestamp-Funktion

Anzahl der Antworten 1 Antworten
Gibt es eine sql-Funktion in spark sql, die wieder aktuellen Zeitstempel , beispielsweise im impala JETZT() ist die Funktion, welche zurückgibt aktuellen Zeitstempel gibt es ähnlich wie in spark sql ? Dank InformationsquelleAutor sri hari kali charan

Wie kann ich merge spark-Ergebnis-Dateien ohne neu partitionieren und copyMerge?

Anzahl der Antworten 3 Antworten
Verwende ich folgenden code: csv.saveAsTextFile(pathToResults, classOf[GzipCodec]) pathToResults Verzeichnis viele Dateien hat, wie Teil-0000, Teil-0001 usw. Die ich verwenden kann, FileUtil.copyMerge(), aber es ist wirklich langsam ist, ist es alle Dateien herunterladen, auf Fahrer-Programm und dann laden Sie

Wie man Zeilen von DF enthalten, dass der Wert None in pyspark (Funke)

Anzahl der Antworten 1 Antworten
Im Beispiel unten df.a == 1 Prädikat gibt richtige Ergebnis, sondern df.a == None gibt 0 zurück, wenn Sie zurückkehren sollte, 1. l = [[1], [1], [2], [2], [None]] df = sc.parallelize(l).toDF(['a']) df # DataFrame[a: bigint] df.collect()

Mit spark-submit,, was ist das Verhalten von den-total-executor-Kerne option?

Anzahl der Antworten 2 Antworten
Mir läuft ein spark-cluster über C++ - code, verpackt in python. Ich bin derzeit am testen der verschiedenen Konfigurationen von multi-threading-Optionen (auf Python-Ebene oder Spark-Ebene). Bin ich mit spark mit standalone binaries, die über einen HDFS-2.5.4-cluster. Der

java+spark: org.apache.spark.SparkException: Job abgebrochen: Aufgabe nicht serialisierbar: java.io.NotSerializableException

Anzahl der Antworten 3 Antworten
Ich bin neu zu entfachen, und versuchte, um das Beispiel auszuführen JavaSparkPi.java es läuft auch gut, aber da ich dies in einem anderen java-s kopiere ich alle Sachen vom main auf eine Methode in der Klasse und

Spark 1.6-Fehler beim suchen der winutils binary im hadoop binary-Pfad

Anzahl der Antworten 6 Antworten
Ich weiß, dass es einen sehr ähnlichen Beitrag zu diesem(Fehler beim suchen der winutils binary im hadoop binary-Pfad), allerdings habe ich versucht, jeden Schritt, der vorgeschlagen wurde, und der selbe Fehler immer noch angezeigt. Ich versuche, den

Hinzufügen von Jar zu eigenständigen pyspark

Anzahl der Antworten 5 Antworten
Starte ich eine pyspark Programm: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ python Und dem py-code: from pyspark import SparkContext, SparkConf SparkConf().setAppName("Example").setMaster("local[2]") sc = SparkContext(conf=conf) Wie füge ich jar-Abhängigkeiten, wie etwa die Databricks csv-jar? Über die Befehlszeile

Gruppe Funke dataframe nach Datum

Anzahl der Antworten 2 Antworten
Hab ich geladen ein DataFrame von einer SQL Server-Tabelle. Es sieht wie folgt aus: >>> df.show() +--------------------+----------+ | timestamp| Value | +--------------------+----------+ |2015-12-02 00:10:...| 652.8| |2015-12-02 00:20:...| 518.4| |2015-12-02 00:30:...| 524.6| |2015-12-02 00:40:...| 382.9| |2015-12-02 00:50:...| 461.6|

Spark-cache vs broadcast

Anzahl der Antworten 4 Antworten
Sieht es aus wie broadcast-Methode macht eine verteilte Kopie von RDD in meinem cluster. Auf der anderen Seite die Ausführung von cache () - Methode lädt einfach Daten im Speicher. Aber ich verstehe nicht, wie funktioniert zwischengespeichert

Holen Liste von Datentypen aus einem schema in Apache Spark

Anzahl der Antworten 3 Antworten
Ich habe den folgenden code in Spark-Python, um die Liste der Namen von dem schema eines DataFrame, welche gut funktioniert, aber wie bekomme ich die Liste der Datentypen? columnNames = df.schema.names Zum Beispiel, etwas wie: columnTypes =

Wie bekomme ich eine einzelne Spalte in der Funke?

Anzahl der Antworten 1 Antworten
Ich würde gerne eine Aktion durchführen, die auf eine einzelne Spalte. Leider, nachdem ich die Transformation, die Spalte, es ist jetzt nicht mehr Teil der dataframe es kam aber ein Column-Objekt. Als solche, es kann nicht gesammelt

java.io.IOException: Nein Dateisystem für die Regelung : hdfs

Anzahl der Antworten 3 Antworten
Ich bin mit Cloudera Quickstart VM CDH5.3.0 (in Bezug auf Pakete bündeln) und Funke 1.2.0 mit $SPARK_HOME=/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark und Absenden Spark-Anwendung mit dem Befehl ./bin/spark-submit --class <Spark_App_Main_Class_Name> --master spark://localhost.localdomain:7077 --deploy-mode client --executor-memory 4G ../apps/<Spark_App_Target_Jar_Name>.jar Spark_App_Main_Class_Name.scala import org.apache.spark.SparkContext import

Zum ausführen mehrerer jobs in einer Sparkcontext von separaten threads in PySpark?

Anzahl der Antworten 2 Antworten
Es versteht sich von Spark Dokumentation über Scheduling Innerhalb einer Anwendung: Innerhalb einer bestimmten Funke Anwendung (SparkContext-Instanz), die mehrere parallele jobs können gleichzeitig ausgeführt werden, wenn Sie eingereicht wurden aus separaten threads. Durch "job" in diesem Abschnitt,

Funke: Erhöhung der Anzahl von Partitionen, ohne dass ein shuffle?

Anzahl der Antworten 3 Antworten
Wenn die Verringerung der Anzahl von Partitionen kann man verwenden coalesce, das ist toll, weil es nicht zu einem shuffle-und scheint zu funktionieren sofort (keine zusätzliche job-Phase). Möchte ich das Gegenteil tun manchmal, aber repartition induziert einen

Schreiben Spark dataframe als CSV mit Partitionen

Anzahl der Antworten 1 Antworten
Ich versuche zu schreiben dataframe in spark zu einem HDFS-Lage, und ich erwarte, dass wenn ich hinzufüge, die partitionBy notation Funke partition erstellen (ähnlich wie beim schreiben in Parkett-format) Ordner in form von partition_column_name=partition_value ( ich.e partition_date=2016-05-03).

Wie join über mehrere Spalten in Pyspark?

Anzahl der Antworten 2 Antworten
Bin ich mit Spark 1.3 und würde gerne mitmachen auf mehreren Spalten über die python-Schnittstelle (SparkSQL) Folgende Werke: Ich zunächst registrieren Sie als temporäre Tabellen. numeric.registerTempTable("numeric") Ref.registerTempTable("Ref") test = numeric.join(Ref, numeric.ID == Ref.ID, joinType='inner') Ich würde nun

Was ist die version der library Funke unterstützt SparkSession

Anzahl der Antworten 2 Antworten
Code Spark mit SparkSession. import org.apache.spark.SparkConf import org.apache.spark.SparkContext val conf = SparkSession.builder .master("local") .appName("testing") .enableHiveSupport() //<- enable Hive support. .getOrCreate() Code pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.cms.spark</groupId> <artifactId>cms-spark</artifactId> <version>0.0.1-SNAPSHOT</version> <name>cms-spark</name> <pluginRepositories> <pluginRepository> <id>scala-tools.org</id> <name>Scala-tools Maven2

Wie man N-te Zeile der Funke RDD?

Anzahl der Antworten 3 Antworten
Angenommen ich habe ein RDD beliebiger Objekte. Ich möchte um die 10 (sagen) Zeile des RDD. Wie soll ich das tun? Eine Möglichkeit ist die Verwendung von rdd.nehmen Sie(n) und dann Zugriff auf das N-te element ist

Spark - Random Number Generation

Anzahl der Antworten 4 Antworten
Ich habe geschrieben eine Methode, die berücksichtigen muss, eine Zufallszahl zu simulieren, die eine Bernoulli-Verteilung. Ich bin mit random.nextDouble generiert eine Zahl zwischen 0 und 1 ist, dann macht meine Entscheidung basierend auf diesem Wert, da meine

Apache Spark — Weisen Sie das Ergebnis der UDF auf mehrere dataframe Spalten

Anzahl der Antworten 1 Antworten
Ich bin mit pyspark, laden eine große csv-Datei in einem dataframe mit Funken -, csv -, und als pre-processing Schritt, den ich anwenden müssen, eine Vielzahl von Operationen, um die verfügbaren Daten in einer der Spalten (enthält

Konvertieren Python-dictionary zu entfachen, DataFrame

Anzahl der Antworten 1 Antworten
Habe ich ein Python-dictionary : dic = { (u'aaa',u'bbb',u'ccc'):((0.3, 1.2, 1.3, 1.5), 1.4, 1), (u'kkk',u'ggg',u'ccc',u'sss'):((0.6, 1.2, 1.7, 1.5), 1.4, 2) } Ich umwandeln möchte dieses Wörterbuch zu entfachen, DataFrame mit den Spalten : ['key', 'val_1', 'val_2', 'val_3',

Wie gehen die externen Parameter durch Funken übermitteln

Anzahl der Antworten 2 Antworten
In meiner Anwendung, ich muss eine Verbindung zu der Datenbank, so dass ich übergeben zu müssen, IP-Adresse und den Namen der Datenbank, wenn die Anwendung eingereicht wird. Ich den Antrag wie folgt: : ./spark-submit --class class name

Spark Zeile JSON

Anzahl der Antworten 4 Antworten
Ich möchte eine JSON von einer Spark-v. 1.6 (mit scala) dataframe. Ich weiß, dass es die einfache Lösung zu tun df.toJSON. Allerdings ist mein problem etwas anders aussieht. Betrachten Sie zum Beispiel einen dataframe mit den folgenden

Funke: schreiben DataFrame als komprimierte JSON

Anzahl der Antworten 3 Antworten
Apache Spark DataFrameReader.json() verarbeiten kann gzipped JSONlines Dateien automatisch, aber es scheint nicht zu einem Weg, um DataFrameWriter.json() zu schreiben komprimiert JSONlines-Dateien. Die zusätzliche Netzwerk-I/O ist sehr teuer in der cloud. Gibt es einen Weg um dieses