Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

ausführen von Hive-Abfragen von Spark

2 Antworten

Ich versuche, diesen code ausführen, werden in der Funke-shell: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("show tables") Nach der Ausführung der zweiten Zeile, ich bin immer eine Ausnahme: java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.- Treiber.getResults(Ljava/util/ArrayList;)Z bei org.apache.spark.sql.hive.HiveContext.runHive(HiveContext.scala:305) bei org.apache.spark.sql.hive.HiveContext.runSqlHive(HiveContext.scala:272) bei org.apache.spark.sql.hive.Ausführung.NativeCommand.sideEffectResult$lzycompute(NativeCommand.scala:35) bei

apache-spark hive

Accesing Hive-Tabellen in spark

1 Antworten

Habe ich Hive 0.13 installation und eigene Datenbanken. Ich habe spark 1.1.0 einzelnen Knoten cluster gebaut mit mvn -hive-option. Ich möchte den Zugriff auf Tabellen in dieser Datenbank, in der spark-Anwendung mit hivecontext. Aber hivecontext ist immer

Spark ' s Spalte.isin-Funktion nicht Liste

2 Antworten

Ich versuche heraus zu filtern und Zeilen aus meinem Spark Dataframe. val sequence = Seq(1,2,3,4,5) df.filter(df("column").isin(sequence)) Leider bekomme ich eine nicht unterstützte literal-Typ-Fehler java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(1,2,3,4,5) entsprechend der Dokumentation dauert es eine scala.Sammlung.Seq

apache-spark java scala

Zeilen filtern, indem Sie verschiedene Werte in einer Spalte in PySpark

2 Antworten

Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|

apache-spark apache-spark-sql dataframe pyspark spark-dataframe

na.füllen Sie Funken DataFrame Scala

1 Antworten

Bin ich mit Spark/Scala, und ich will füllen die Nullen in meinem DataFrame mit default-Werte basierend auf dem Typ der Spalten. ich.e-Saite Spalten -> "string", " Numeric-Spalten -> 111 -, Boolean-Spalten -> False, etc. Derzeit die DF.na.Funktionen-API

apache-spark dataframe scala

Spark: How to map Python mit Scala oder Java-User Defined Functions?

1 Antworten

Lassen Sie uns sagen zum Beispiel, dass mein team ausgewählt hat Python als Referenz Sprache zu entwickeln, mit Funke. Aber später aus Gründen der Leistung, die wir entwickeln möchten, bestimmte Scala oder Java-spezifische Bibliotheken, um die Karte

apache-spark java pyspark python scala

Funke: coalesce sehr langsam, auch die Datenausgabe ist sehr klein

1 Antworten

Ich habe den folgenden code in Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput") Gibt es 2000+ Dateien in der myOutput", aber nur ein paar t.getMyEnum() == null, so gibt es nur sehr wenige output

apache-spark coalesce scala

Wie eine Verbindung zu Amazon Redshift oder andere DB ' s in Apache Spark?

5 Antworten

Ich versuche, die Verbindung zu Amazon Redshift über die Funke, damit ich beitreten kann, Daten, die wir haben auf S3 mit Daten über den RS-cluster. Ich fand einige sehr spartanische Dokumentation hier für die Fähigkeit der Verbindung

amazon-redshift amazon-s3 amazon-web-services apache-spark

wie die lineare regression der MLlib von apache spark?

2 Antworten

Ich bin neu auf der apache spark, und aus dem Dokument der MLlib, ich fand ein Beispiel von scala, aber ich weiß wirklich nicht, scala, ist kennt jemand ein Beispiel in java? danke! der Beispiel-code ist import

apache-spark apache-spark-mllib java

Was ist der Unterschied zwischen spark ' s shuffle Lesen und shuffle schreiben?

2 Antworten

Muss ich laufen, eine spark-Programm, das hat eine riesige Menge an Daten. Ich bin versucht zu optimieren, das spark-Programm und die durch spark-UI und versucht, um den Shuffle-Teil. Gibt es paar der genannten Komponenten, shuffle Lesen und

apache-spark apache-spark-sql

Nicht in der Lage, importieren Sie die spark-Pakete

1 Antworten

Ich versuche, änderungen an der sample-Java-Code zur Verfügung gestellt von Spark JavaKafkaWordCount.java und versuchen, es zu bauen mit Maven. Ich arbeite an der Funke standalone-Modul. Ich bin mit folgenden pom.xml: <project> <groupId>com.mycompany.app</groupId> <artifactId>my-app</artifactId> <modelVersion>4.0.0</modelVersion> <name>Simple Project</name> <packaging>jar</packaging>

apache-kafka apache-spark java maven

PySpark - Split/Filter DataFrame Spalte Werte

2 Antworten

Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...

apache-spark apache-spark-sql dataframe pyspark python

Wie zu tun-aggregation über mehrere Spalten auf einmal in der Funke

1 Antworten

Ich habe einen dataframe, die hat mehrere Spalten. Ich möchte die Gruppe von einer der Spalten-und aggregate anderen Spalten alle einmal. Angenommen, die Tabelle hat 4 Spalten cust_id, f1,f2,f3, und ich will group by cust_id und dann

apache-spark scala

Verhindern DataFrame.partitionBy() entfernen partitionierten Spalten aus einem schema

2 Antworten

Ich bin Partitionierung ein DataFrame wie folgt: df.write.partitionBy("type", "category").parquet(config.outpath) Den code gibt die erwarteten Ergebnisse (d.h. die Daten partitioniert, die von Art & Kategorie). Aber der "Typ" und "Kategorie" - Spalten werden entfernt, das Daten /schema. Gibt

apache-spark spark-dataframe

Lesen Sie alle Dateien in einer verschachtelten Ordner im Spark

3 Antworten

Wenn wir einen Ordner folder alle .txt - Dateien können wir Lesen Sie alle mit sc.textFile("folder/*.txt"). Aber was ist, wenn ich einen Ordner folder mit noch mehr Ordnern datewise, wie 03, 04, ..., die weiteren enthalten einige

apache-spark

Wie UND-oder oder-Bedingung in der wenn in der Funke

1 Antworten

Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von

apache-spark apache-spark-sql pyspark

Lesung im HDF5-Dateien in Apache Spark

3 Antworten

Gibt es eine Möglichkeit, Lesen Sie im HDF5-Dateien mit der Scala-version von Spark? Es sieht aus wie es getan werden kann in Python (über Pyspark), aber ich kann nichts finden für Scala. Dies könnte Ihnen helfen, loszulegen.

apache-spark hdf5 scala

speichern dataframe als externe hive-Tabelle

3 Antworten

Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar

apache-spark apache-spark-sql hive spark-dataframe

DataFrame / Dataset groupBy-Verhalten/ - Optimierung

1 Antworten

Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe

apache-spark apache-spark-dataset apache-spark-sql dataframe performance

Lesen lokales Parkett-Dateien in Spark 2.0

1 Antworten

Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um

apache-spark parquet spark-dataframe

Tipps für das richtig die Verwendung von großen broadcast-Variablen?

1 Antworten

Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und

apache-spark pickle pyspark python rdd

Fall, wenn-statement mit IN-Klausel in Pyspark

1 Antworten

Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe

apache-spark pyspark pyspark-sql

Spark scala : iterierbar zu einzelnen Schlüssel-Wert-Paare

1 Antworten

Ich habe ein problem mit Funken-Scala Umwandlung eines Iterierbar (CompactBuffer) zu einzelnen Paare. Ich will erstellen Sie eine neue RDD-mit Schlüssel-Wert-Paare, von denen in der CompactBuffer. Sieht es wie folgt aus: CompactBuffer(Person2, Person5) CompactBuffer(Person2, Person5, Person7) CompactBuffer(Person1,

apache-spark iterable key-value scala

apache-spark-Speicherverbrauch für den cache() / anhalten()

2 Antworten

Meine spark-cluster hängt sich auf, wenn ich versuche, den cache() oder beibehalten(MEMORY_ONLY_SER()) mein RDDs. Es funktioniert großartig und berechnet die Ergebnisse in etwa 7min. wenn ich nicht cache(). Habe ich 6 c3.xlarge EC2-instances (4 Kerne, 7,5 GB

apache-spark garbage-collection java

Verständnis Funke physischen plan

2 Antworten

Ich versuche zu verstehen, physischen Pläne der Funke-aber ich bin nicht zu verstehen, einige Teile, weil Sie scheinen, unterscheiden sich von traditionellen rdbms. Zum Beispiel, in diesem plan unten, es ist ein plan über eine Abfrage über

apache-spark apache-spark-sql catalyst query-optimization sql

Nicht unterstützte literal-Typ-Klasse in Apache Spark in scala

1 Antworten

Habe ich folgende Daten: +---------------+-----------+-------------+-----+------+ | time_stamp_0|sender_ip_1|receiver_ip_2|count|attack| +---------------+-----------+-------------+-----+------+ |06:10:55.881073| 10.0.0.3| 10.0.0.1| 1 | 0| |06:10:55.881095| 10.0.0.3| 10.0.0.1| 2 | 0| |06:10:55.881114| 10.0.0.3| 10.0.0.1| 3 | 0| |06:10:55.881133| 10.0.0.3| 10.0.0.1| 4 | 0| |06:10:55.881152| 10.0.0.3| 10.0.0.1| 5 |

apache-spark scala

Funke : Wie mapPartition und erstellen/Verbindung schließen pro partition

2 Antworten

So, ich möchte, um bestimmte Operationen auf meine Funke DataFrame, schreibt Sie in die DB und erstellen Sie einen anderen DataFrame am Ende. Es sieht wie folgt aus : import sqlContext.implicits._ val newDF = myDF.mapPartitions( iterator =>

apache-spark rdd scala

Zeppelin Dynamische Form, Drop-Down-Wert in SQL

2 Antworten

Ich habe ein dropdown-element in meinem Zeppelin notebook val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) Möchte ich den Wert dieser variable instrument in meiner sql. Für z.B., meine nächsten Absatz das notebook enthält %sql select

apache-spark apache-spark-sql apache-zeppelin dynamic-forms

Wie Konfiguriere ich die GARN-Adresse für Garn-client-Modus in der Funke?

1 Antworten

Von einem remote-scala-Programm, mit Spark 1.3, wie Initialisiere ich die sparkContext so dass ich kann eine Verbindung zu Spark läuft am GARN? also wo setze ich die Adresse des GARN-Knoten(s)? Derzeit mein Programm enthält: val conf =

apache-spark scala

Nicht ausgeführt Funke-shell aus bin

2 Antworten

Ich bin neu zu entfachen, ich heruntergeladen vorkompilierte Funken. Wenn ich versuche zu laufen, Funke-shell aus bin Ordner auf der Kommandozeile, es gibt :cd /users/denver/spark-1.6/bin :spark-shell Befehl nicht gefunden Aber wenn ich es ausführen, wie :cd /users/denver/spark-1.6

apache-spark environment-variables linux

So definieren Sie eine Globale Lesen\schreiben von Variablen in Spark

1 Antworten

Funke hat broadcast Variablen, die nur gelesen werden, und accumulator Variablen, die updates von den Knoten, aber nicht Lesen. Ist es Weg oder einen workaround - eine variable definieren, die sowohl aktualisiert und gelesen werden können? Eine

apache-spark

So prüfen Sie den Schnittpunkt von zwei DataFrame Spalten in der Funke

1 Antworten

Entweder pyspark oder sparkr (am besten beides), wie bekomme ich den Schnittpunkt von zwei DataFrame Spalten? Zum Beispiel, in sparkr ich habe Folgendes DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"), surname = c("Smith", "Williams", "Brown",

apache-spark pyspark sparkr

ClassNotFoundException geworfen Einführung Funke-Shell

2 Antworten

Ich versuche zu starten, die Funke-shell für python aus dem Verzeichnis mit ./bin/pyspark Wenn ich den Befehl ausführen bekomme ich folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/launcher/Main Caused by: java.lang.ClassNotFoundException: org.apache.spark.launcher.Main at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method)

apache-spark pyspark

Apache Spark, createDataFrame Beispiel in Java mit List<?> als erstes argument

2 Antworten

Kann mir jemand ein Beispiel geben von java-Implementierung von public DataFrame createDataFrame(java.util.List<?> data,java.lang.Class<?> beanClass) Funktion, wie bereits in Spark JavaDoc? Habe ich eine Liste von JSON-strings, die ich bin übergeben Sie als erstes argument und damit bin

apache-spark apache-spark-sql java

Tut spark-predicate-pushdown-Arbeit mit JDBC?

1 Antworten

Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für

apache-spark apache-spark-sql jdbc pyspark python

So erstellen Sie ein Diagramm in graphx

1 Antworten

Ich bin neu in scala und graphx und habe Probleme beim konvertieren einer tsv-Datei zu einem Diagramm. Ich habe einen flachen tab-getrennte Datei wie unten: n1 P1 n2 n3 P1 n4 n2 P2 n3 n3 P2 n1

apache-spark graph scala scala-2.10 scala-collections

Registrieren temp-Tabelle in dataframe nicht funktioniert

2 Antworten

Unten ist mein Skript für die Verwendung von sql in dataframe mit python: pyspark --packages com.databricks:spark-csv_2.10:1.4.0 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('file:///root/Downloads/data/flight201601short.csv') df.Karte(5) zeigt das Ergebnis unten an: dann melde ich das

apache-spark python sql temp-tables

Was ist die Verwendung von-Fahrer-Klasse-Pfad, in der spark-Befehl?

1 Antworten

Als pro Funke docs, Um loszulegen Sie müssen den JDBC-Treiber für Sie bestimmten Datenbank auf dem spark-classpath. Zum Beispiel, um die Verbindung zu postgres aus der Funke-Shell führen Sie den folgenden Befehl ein: bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars

apache-spark

Wie kann ich eine for-Schleife zu parallelisieren, in der Funke mit scala?

2 Antworten

Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val

apache-spark apache-spark-sql scala spark-dataframe

Wie funktioniert Sparks RDD.randomSplit tatsächlich teilen die RDD

1 Antworten

Also davon ausgehen, ive bekam ein rdd mit 3000 Zeilen. Die 2000 ersten Zeilen der Klasse 1 und die letzten 1000 Zeilen der class2. Der RDD ist partitioniert über 100 Partitionen. Beim Aufruf RDD.randomSplit(0.8,0.2) Macht die Funktion

apache-spark rdd

UnsatisfiedLinkError: no snappyjava in java.Bibliothek.Pfad beim ausführen von Spark MLLib Unit test innerhalb von Intellij

4 Antworten

Folgende Ausnahme aufgetreten ist, wenn ein spark unit-test, der erfordert, snappy compression: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.xerial.snappy.SnappyLoader.loadNativeLibrary(SnappyLoader.java:317) at org.xerial.snappy.SnappyLoader.load(SnappyLoader.java:219) at org.xerial.snappy.Snappy.<clinit>(Snappy.java:44) at org.apache.spark.io.SnappyCompressionCodec.<init>(CompressionCodec.scala:150) at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

apache-spark intellij-idea scala unit-testing

Fehler beim ausführen Tornetz.alchim31.maven:scala-maven-plugin:3.2.2

3 Antworten

Beim kompilieren des Maven-Projekt der folgende Fehler aufgetreten ist: [INFO] --- scala-maven-plugin:3.2.2:compile (scala-compile-first) @ spark-streaming-flume-sink_2.10 --- [WARNING] Zinc server is not available at port 3030 - reverting to normal incremental compile [INFO] Using incremental compilation [INFO] Compiling

apache-spark maven scala zinc

SparkSQL Fehler bei der Verwendung von SQL-DATE-Funktion

2 Antworten

Spark ich versuche zum ausführen von SQL-Abfragen über eine temporäre Tabelle, abgeleitet von einem Daten-frame, die ich manuell gebaut, durch das Lesen einer csv-Datei und die Umwandlung der Spalten in den richtigen Datentyp. Insbesondere die Tabelle, die

apache-spark apache-spark-sql scala sql

Mehrere spark-Aufträge anfügen Parkett Daten zu gleichen base Pfad mit der Partitionierung

4 Antworten

Ich habe mehrere jobs, die ich will, um parallel ausgeführt werden, append Daten werden täglich in den gleichen Pfad mit der Partitionierung. z.B. dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parquet("s3://bucket/save/path"); Job 1 - category = "billing_events" Job 2 -

apache-spark parquet

Spark-submit / Funke-shell > Unterschied zwischen Garn-client-und-Garn-cluster-Modus

3 Antworten

Mir läuft Spark mit GARN. Aus dem link: http://spark.apache.org/docs/latest/running-on-yarn.html Fand ich die Erklärung von unterschiedlichen Garn-Modi, d.h. die --master option, mit der Funke laufen kann: "Es gibt zwei Modi bereitstellen, die verwendet werden können, um zu starten

apache-spark yarn

Gewusst wie: übergeben von Variablen in spark SQL mit python?

2 Antworten

Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir

apache-spark apache-spark-sql pyspark python

apache-spark-regex extrahieren Wörter aus rdd

2 Antworten

Ich versuche, zu extrahieren Wörter aus einer Textdatei. Textdatei: "Line1 with words to extract" "Line2 with words to extract" "Line3 with words to extract" Folgendes gut funktioniert: val data = sc.textFile(file_in).map(_.toLowerCase).cache() val all = data.flatMap(a => "[a-zA-Z]+".r

apache-spark rdd regex scala

Wie, um eine Funktion auszuführen auf alle Spark-Arbeiter vor der Verarbeitung Daten in PySpark?

2 Antworten

Bin ich mit einem Spark-Streaming Aufgabe in einem cluster mithilfe von GARN. Jedem Knoten im cluster läuft mehrere Funken Arbeitnehmer. Bevor das streaming beginnt, möchte ich ausführen, dass die "setup" Funktion auf alle Arbeitnehmer auf allen Knoten

apache-spark pyspark python

FEHLER Vollzieher: Ausnahme, die im task-0.0 Bühne 6.0 Funke scala?

1 Antworten

Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data

apache-spark apache-spark-sql scala spark-dataframe user-defined-functions

Kein Modul namens numpy, wenn spark-Abgabe

4 Antworten

Ich bin spark-die Einreichung einer python-Datei, die importiert numpy, aber ich bin immer ein no module named numpy Fehler. $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/www/my_numpy_als.py", line 13, in <module> from pyspark.mllib.recommendation

apache-spark numpy pyspark