Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

ausführen von Hive-Abfragen von Spark

Anzahl der Antworten 2 Antworten
Ich versuche, diesen code ausführen, werden in der Funke-shell: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("show tables") Nach der Ausführung der zweiten Zeile, ich bin immer eine Ausnahme: java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.- Treiber.getResults(Ljava/util/ArrayList;)Z bei org.apache.spark.sql.hive.HiveContext.runHive(HiveContext.scala:305) bei org.apache.spark.sql.hive.HiveContext.runSqlHive(HiveContext.scala:272) bei org.apache.spark.sql.hive.Ausführung.NativeCommand.sideEffectResult$lzycompute(NativeCommand.scala:35) bei

Accesing Hive-Tabellen in spark

Anzahl der Antworten 1 Antworten
Habe ich Hive 0.13 installation und eigene Datenbanken. Ich habe spark 1.1.0 einzelnen Knoten cluster gebaut mit mvn -hive-option. Ich möchte den Zugriff auf Tabellen in dieser Datenbank, in der spark-Anwendung mit hivecontext. Aber hivecontext ist immer

Spark ' s Spalte.isin-Funktion nicht Liste

Anzahl der Antworten 2 Antworten
Ich versuche heraus zu filtern und Zeilen aus meinem Spark Dataframe. val sequence = Seq(1,2,3,4,5) df.filter(df("column").isin(sequence)) Leider bekomme ich eine nicht unterstützte literal-Typ-Fehler java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(1,2,3,4,5) entsprechend der Dokumentation dauert es eine scala.Sammlung.Seq

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

Anzahl der Antworten 2 Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

na.füllen Sie Funken DataFrame Scala

Anzahl der Antworten 1 Antworten
Bin ich mit Spark/Scala, und ich will füllen die Nullen in meinem DataFrame mit default-Werte basierend auf dem Typ der Spalten. ich.e-Saite Spalten -> "string", " Numeric-Spalten -> 111 -, Boolean-Spalten -> False, etc. Derzeit die DF.na.Funktionen-API

Spark: How to map Python mit Scala oder Java-User Defined Functions?

Anzahl der Antworten 1 Antworten
Lassen Sie uns sagen zum Beispiel, dass mein team ausgewählt hat Python als Referenz Sprache zu entwickeln, mit Funke. Aber später aus Gründen der Leistung, die wir entwickeln möchten, bestimmte Scala oder Java-spezifische Bibliotheken, um die Karte

Funke: coalesce sehr langsam, auch die Datenausgabe ist sehr klein

Anzahl der Antworten 1 Antworten
Ich habe den folgenden code in Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput") Gibt es 2000+ Dateien in der myOutput", aber nur ein paar t.getMyEnum() == null, so gibt es nur sehr wenige output

Wie eine Verbindung zu Amazon Redshift oder andere DB ' s in Apache Spark?

Anzahl der Antworten 5 Antworten
Ich versuche, die Verbindung zu Amazon Redshift über die Funke, damit ich beitreten kann, Daten, die wir haben auf S3 mit Daten über den RS-cluster. Ich fand einige sehr spartanische Dokumentation hier für die Fähigkeit der Verbindung

wie die lineare regression der MLlib von apache spark?

Anzahl der Antworten 2 Antworten
Ich bin neu auf der apache spark, und aus dem Dokument der MLlib, ich fand ein Beispiel von scala, aber ich weiß wirklich nicht, scala, ist kennt jemand ein Beispiel in java? danke! der Beispiel-code ist import

Was ist der Unterschied zwischen spark ' s shuffle Lesen und shuffle schreiben?

Anzahl der Antworten 2 Antworten
Muss ich laufen, eine spark-Programm, das hat eine riesige Menge an Daten. Ich bin versucht zu optimieren, das spark-Programm und die durch spark-UI und versucht, um den Shuffle-Teil. Gibt es paar der genannten Komponenten, shuffle Lesen und

Nicht in der Lage, importieren Sie die spark-Pakete

Anzahl der Antworten 1 Antworten
Ich versuche, änderungen an der sample-Java-Code zur Verfügung gestellt von Spark JavaKafkaWordCount.java und versuchen, es zu bauen mit Maven. Ich arbeite an der Funke standalone-Modul. Ich bin mit folgenden pom.xml: <project> <groupId>com.mycompany.app</groupId> <artifactId>my-app</artifactId> <modelVersion>4.0.0</modelVersion> <name>Simple Project</name> <packaging>jar</packaging>

PySpark - Split/Filter DataFrame Spalte Werte

Anzahl der Antworten 2 Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...

Wie zu tun-aggregation über mehrere Spalten auf einmal in der Funke

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe, die hat mehrere Spalten. Ich möchte die Gruppe von einer der Spalten-und aggregate anderen Spalten alle einmal. Angenommen, die Tabelle hat 4 Spalten cust_id, f1,f2,f3, und ich will group by cust_id und dann

Verhindern DataFrame.partitionBy() entfernen partitionierten Spalten aus einem schema

Anzahl der Antworten 2 Antworten
Ich bin Partitionierung ein DataFrame wie folgt: df.write.partitionBy("type", "category").parquet(config.outpath) Den code gibt die erwarteten Ergebnisse (d.h. die Daten partitioniert, die von Art & Kategorie). Aber der "Typ" und "Kategorie" - Spalten werden entfernt, das Daten /schema. Gibt

Lesen Sie alle Dateien in einer verschachtelten Ordner im Spark

Anzahl der Antworten 3 Antworten
Wenn wir einen Ordner folder alle .txt - Dateien können wir Lesen Sie alle mit sc.textFile("folder/*.txt"). Aber was ist, wenn ich einen Ordner folder mit noch mehr Ordnern datewise, wie 03, 04, ..., die weiteren enthalten einige

Wie UND-oder oder-Bedingung in der wenn in der Funke

Anzahl der Antworten 1 Antworten
Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von

Lesung im HDF5-Dateien in Apache Spark

Anzahl der Antworten 3 Antworten
Gibt es eine Möglichkeit, Lesen Sie im HDF5-Dateien mit der Scala-version von Spark? Es sieht aus wie es getan werden kann in Python (über Pyspark), aber ich kann nichts finden für Scala. Dies könnte Ihnen helfen, loszulegen.

speichern dataframe als externe hive-Tabelle

Anzahl der Antworten 3 Antworten
Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar

DataFrame / Dataset groupBy-Verhalten/ - Optimierung

Anzahl der Antworten 1 Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe

Lesen lokales Parkett-Dateien in Spark 2.0

Anzahl der Antworten 1 Antworten
Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um

Tipps für das richtig die Verwendung von großen broadcast-Variablen?

Anzahl der Antworten 1 Antworten
Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und

Fall, wenn-statement mit IN-Klausel in Pyspark

Anzahl der Antworten 1 Antworten
Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe

Spark scala : iterierbar zu einzelnen Schlüssel-Wert-Paare

Anzahl der Antworten 1 Antworten
Ich habe ein problem mit Funken-Scala Umwandlung eines Iterierbar (CompactBuffer) zu einzelnen Paare. Ich will erstellen Sie eine neue RDD-mit Schlüssel-Wert-Paare, von denen in der CompactBuffer. Sieht es wie folgt aus: CompactBuffer(Person2, Person5) CompactBuffer(Person2, Person5, Person7) CompactBuffer(Person1,

apache-spark-Speicherverbrauch für den cache() / anhalten()

Anzahl der Antworten 2 Antworten
Meine spark-cluster hängt sich auf, wenn ich versuche, den cache() oder beibehalten(MEMORY_ONLY_SER()) mein RDDs. Es funktioniert großartig und berechnet die Ergebnisse in etwa 7min. wenn ich nicht cache(). Habe ich 6 c3.xlarge EC2-instances (4 Kerne, 7,5 GB

Verständnis Funke physischen plan

Anzahl der Antworten 2 Antworten
Ich versuche zu verstehen, physischen Pläne der Funke-aber ich bin nicht zu verstehen, einige Teile, weil Sie scheinen, unterscheiden sich von traditionellen rdbms. Zum Beispiel, in diesem plan unten, es ist ein plan über eine Abfrage über

Nicht unterstützte literal-Typ-Klasse in Apache Spark in scala

Anzahl der Antworten 1 Antworten
Habe ich folgende Daten: +---------------+-----------+-------------+-----+------+ | time_stamp_0|sender_ip_1|receiver_ip_2|count|attack| +---------------+-----------+-------------+-----+------+ |06:10:55.881073| 10.0.0.3| 10.0.0.1| 1 | 0| |06:10:55.881095| 10.0.0.3| 10.0.0.1| 2 | 0| |06:10:55.881114| 10.0.0.3| 10.0.0.1| 3 | 0| |06:10:55.881133| 10.0.0.3| 10.0.0.1| 4 | 0| |06:10:55.881152| 10.0.0.3| 10.0.0.1| 5 |

Funke : Wie mapPartition und erstellen/Verbindung schließen pro partition

Anzahl der Antworten 2 Antworten
So, ich möchte, um bestimmte Operationen auf meine Funke DataFrame, schreibt Sie in die DB und erstellen Sie einen anderen DataFrame am Ende. Es sieht wie folgt aus : import sqlContext.implicits._ val newDF = myDF.mapPartitions( iterator =>

Zeppelin Dynamische Form, Drop-Down-Wert in SQL

Anzahl der Antworten 2 Antworten
Ich habe ein dropdown-element in meinem Zeppelin notebook val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) Möchte ich den Wert dieser variable instrument in meiner sql. Für z.B., meine nächsten Absatz das notebook enthält %sql select

Wie Konfiguriere ich die GARN-Adresse für Garn-client-Modus in der Funke?

Anzahl der Antworten 1 Antworten
Von einem remote-scala-Programm, mit Spark 1.3, wie Initialisiere ich die sparkContext so dass ich kann eine Verbindung zu Spark läuft am GARN? also wo setze ich die Adresse des GARN-Knoten(s)? Derzeit mein Programm enthält: val conf =

Nicht ausgeführt Funke-shell aus bin

Anzahl der Antworten 2 Antworten
Ich bin neu zu entfachen, ich heruntergeladen vorkompilierte Funken. Wenn ich versuche zu laufen, Funke-shell aus bin Ordner auf der Kommandozeile, es gibt :cd /users/denver/spark-1.6/bin :spark-shell Befehl nicht gefunden Aber wenn ich es ausführen, wie :cd /users/denver/spark-1.6

So definieren Sie eine Globale Lesen\schreiben von Variablen in Spark

Anzahl der Antworten 1 Antworten
Funke hat broadcast Variablen, die nur gelesen werden, und accumulator Variablen, die updates von den Knoten, aber nicht Lesen. Ist es Weg oder einen workaround - eine variable definieren, die sowohl aktualisiert und gelesen werden können? Eine

So prüfen Sie den Schnittpunkt von zwei DataFrame Spalten in der Funke

Anzahl der Antworten 1 Antworten
Entweder pyspark oder sparkr (am besten beides), wie bekomme ich den Schnittpunkt von zwei DataFrame Spalten? Zum Beispiel, in sparkr ich habe Folgendes DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"), surname = c("Smith", "Williams", "Brown",

ClassNotFoundException geworfen Einführung Funke-Shell

Anzahl der Antworten 2 Antworten
Ich versuche zu starten, die Funke-shell für python aus dem Verzeichnis mit ./bin/pyspark Wenn ich den Befehl ausführen bekomme ich folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/launcher/Main Caused by: java.lang.ClassNotFoundException: org.apache.spark.launcher.Main at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method)

Apache Spark, createDataFrame Beispiel in Java mit List<?> als erstes argument

Anzahl der Antworten 2 Antworten
Kann mir jemand ein Beispiel geben von java-Implementierung von public DataFrame createDataFrame(java.util.List<?> data,java.lang.Class<?> beanClass) Funktion, wie bereits in Spark JavaDoc? Habe ich eine Liste von JSON-strings, die ich bin übergeben Sie als erstes argument und damit bin

Tut spark-predicate-pushdown-Arbeit mit JDBC?

Anzahl der Antworten 1 Antworten
Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für

So erstellen Sie ein Diagramm in graphx

Anzahl der Antworten 1 Antworten
Ich bin neu in scala und graphx und habe Probleme beim konvertieren einer tsv-Datei zu einem Diagramm. Ich habe einen flachen tab-getrennte Datei wie unten: n1 P1 n2 n3 P1 n4 n2 P2 n3 n3 P2 n1

Registrieren temp-Tabelle in dataframe nicht funktioniert

Anzahl der Antworten 2 Antworten
Unten ist mein Skript für die Verwendung von sql in dataframe mit python: pyspark --packages com.databricks:spark-csv_2.10:1.4.0 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('file:///root/Downloads/data/flight201601short.csv') df.Karte(5) zeigt das Ergebnis unten an: dann melde ich das

Was ist die Verwendung von-Fahrer-Klasse-Pfad, in der spark-Befehl?

Anzahl der Antworten 1 Antworten
Als pro Funke docs, Um loszulegen Sie müssen den JDBC-Treiber für Sie bestimmten Datenbank auf dem spark-classpath. Zum Beispiel, um die Verbindung zu postgres aus der Funke-Shell führen Sie den folgenden Befehl ein: bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars

Wie kann ich eine for-Schleife zu parallelisieren, in der Funke mit scala?

Anzahl der Antworten 2 Antworten
Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val

Wie funktioniert Sparks RDD.randomSplit tatsächlich teilen die RDD

Anzahl der Antworten 1 Antworten
Also davon ausgehen, ive bekam ein rdd mit 3000 Zeilen. Die 2000 ersten Zeilen der Klasse 1 und die letzten 1000 Zeilen der class2. Der RDD ist partitioniert über 100 Partitionen. Beim Aufruf RDD.randomSplit(0.8,0.2) Macht die Funktion

UnsatisfiedLinkError: no snappyjava in java.Bibliothek.Pfad beim ausführen von Spark MLLib Unit test innerhalb von Intellij

Anzahl der Antworten 4 Antworten
Folgende Ausnahme aufgetreten ist, wenn ein spark unit-test, der erfordert, snappy compression: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.xerial.snappy.SnappyLoader.loadNativeLibrary(SnappyLoader.java:317) at org.xerial.snappy.SnappyLoader.load(SnappyLoader.java:219) at org.xerial.snappy.Snappy.<clinit>(Snappy.java:44) at org.apache.spark.io.SnappyCompressionCodec.<init>(CompressionCodec.scala:150) at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

Fehler beim ausführen Tornetz.alchim31.maven:scala-maven-plugin:3.2.2

Anzahl der Antworten 3 Antworten
Beim kompilieren des Maven-Projekt der folgende Fehler aufgetreten ist: [INFO] --- scala-maven-plugin:3.2.2:compile (scala-compile-first) @ spark-streaming-flume-sink_2.10 --- [WARNING] Zinc server is not available at port 3030 - reverting to normal incremental compile [INFO] Using incremental compilation [INFO] Compiling

SparkSQL Fehler bei der Verwendung von SQL-DATE-Funktion

Anzahl der Antworten 2 Antworten
Spark ich versuche zum ausführen von SQL-Abfragen über eine temporäre Tabelle, abgeleitet von einem Daten-frame, die ich manuell gebaut, durch das Lesen einer csv-Datei und die Umwandlung der Spalten in den richtigen Datentyp. Insbesondere die Tabelle, die

Mehrere spark-Aufträge anfügen Parkett Daten zu gleichen base Pfad mit der Partitionierung

Anzahl der Antworten 4 Antworten
Ich habe mehrere jobs, die ich will, um parallel ausgeführt werden, append Daten werden täglich in den gleichen Pfad mit der Partitionierung. z.B. dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parquet("s3://bucket/save/path"); Job 1 - category = "billing_events" Job 2 -

Spark-submit / Funke-shell > Unterschied zwischen Garn-client-und-Garn-cluster-Modus

Anzahl der Antworten 3 Antworten
Mir läuft Spark mit GARN. Aus dem link: http://spark.apache.org/docs/latest/running-on-yarn.html Fand ich die Erklärung von unterschiedlichen Garn-Modi, d.h. die --master option, mit der Funke laufen kann: "Es gibt zwei Modi bereitstellen, die verwendet werden können, um zu starten

Gewusst wie: übergeben von Variablen in spark SQL mit python?

Anzahl der Antworten 2 Antworten
Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir

apache-spark-regex extrahieren Wörter aus rdd

Anzahl der Antworten 2 Antworten
Ich versuche, zu extrahieren Wörter aus einer Textdatei. Textdatei: "Line1 with words to extract" "Line2 with words to extract" "Line3 with words to extract" Folgendes gut funktioniert: val data = sc.textFile(file_in).map(_.toLowerCase).cache() val all = data.flatMap(a => "[a-zA-Z]+".r

Wie, um eine Funktion auszuführen auf alle Spark-Arbeiter vor der Verarbeitung Daten in PySpark?

Anzahl der Antworten 2 Antworten
Bin ich mit einem Spark-Streaming Aufgabe in einem cluster mithilfe von GARN. Jedem Knoten im cluster läuft mehrere Funken Arbeitnehmer. Bevor das streaming beginnt, möchte ich ausführen, dass die "setup" Funktion auf alle Arbeitnehmer auf allen Knoten

FEHLER Vollzieher: Ausnahme, die im task-0.0 Bühne 6.0 Funke scala?

Anzahl der Antworten 1 Antworten
Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data

Kein Modul namens numpy, wenn spark-Abgabe

Anzahl der Antworten 4 Antworten
Ich bin spark-die Einreichung einer python-Datei, die importiert numpy, aber ich bin immer ein no module named numpy Fehler. $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/www/my_numpy_als.py", line 13, in <module> from pyspark.mllib.recommendation