Tag: apache-spark
Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.
2
Antworten
Ich versuche, diesen code ausführen, werden in der Funke-shell: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("show tables") Nach der Ausführung der zweiten Zeile, ich bin immer eine Ausnahme: java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.- Treiber.getResults(Ljava/util/ArrayList;)Z bei org.apache.spark.sql.hive.HiveContext.runHive(HiveContext.scala:305) bei org.apache.spark.sql.hive.HiveContext.runSqlHive(HiveContext.scala:272) bei org.apache.spark.sql.hive.Ausführung.NativeCommand.sideEffectResult$lzycompute(NativeCommand.scala:35) bei
1
Antworten
Habe ich Hive 0.13 installation und eigene Datenbanken. Ich habe spark 1.1.0 einzelnen Knoten cluster gebaut mit mvn -hive-option. Ich möchte den Zugriff auf Tabellen in dieser Datenbank, in der spark-Anwendung mit hivecontext. Aber hivecontext ist immer
2
Antworten
Ich versuche heraus zu filtern und Zeilen aus meinem Spark Dataframe. val sequence = Seq(1,2,3,4,5) df.filter(df("column").isin(sequence)) Leider bekomme ich eine nicht unterstützte literal-Typ-Fehler java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(1,2,3,4,5) entsprechend der Dokumentation dauert es eine scala.Sammlung.Seq
2
Antworten
Sagen wir, ich habe die folgende Tabelle: +--------------------+--------------------+------+------------+--------------------+ | host| path|status|content_size| time| +--------------------+--------------------+------+------------+--------------------+ |js002.cc.utsunomi...|/shuttle/resource...| 404| 0|1995-08-01 00:07:...| | tia1.eskimo.com |/pub/winvn/releas...| 404| 0|1995-08-01 00:28:...| |grimnet23.idirect...|/www/software/win...| 404| 0|1995-08-01 00:50:...| |miriworld.its.uni...|/history/history.htm| 404| 0|1995-08-01 01:04:...| | ras38.srv.net |/elv/DELTA/uncons...| 404| 0|1995-08-01 01:05:...|
1
Antworten
Bin ich mit Spark/Scala, und ich will füllen die Nullen in meinem DataFrame mit default-Werte basierend auf dem Typ der Spalten. ich.e-Saite Spalten -> "string", " Numeric-Spalten -> 111 -, Boolean-Spalten -> False, etc. Derzeit die DF.na.Funktionen-API
1
Antworten
Lassen Sie uns sagen zum Beispiel, dass mein team ausgewählt hat Python als Referenz Sprache zu entwickeln, mit Funke. Aber später aus Gründen der Leistung, die wir entwickeln möchten, bestimmte Scala oder Java-spezifische Bibliotheken, um die Karte
1
Antworten
Ich habe den folgenden code in Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput") Gibt es 2000+ Dateien in der myOutput", aber nur ein paar t.getMyEnum() == null, so gibt es nur sehr wenige output
5
Antworten
Ich versuche, die Verbindung zu Amazon Redshift über die Funke, damit ich beitreten kann, Daten, die wir haben auf S3 mit Daten über den RS-cluster. Ich fand einige sehr spartanische Dokumentation hier für die Fähigkeit der Verbindung
2
Antworten
Ich bin neu auf der apache spark, und aus dem Dokument der MLlib, ich fand ein Beispiel von scala, aber ich weiß wirklich nicht, scala, ist kennt jemand ein Beispiel in java? danke! der Beispiel-code ist import
2
Antworten
Muss ich laufen, eine spark-Programm, das hat eine riesige Menge an Daten. Ich bin versucht zu optimieren, das spark-Programm und die durch spark-UI und versucht, um den Shuffle-Teil. Gibt es paar der genannten Komponenten, shuffle Lesen und
1
Antworten
Ich versuche, änderungen an der sample-Java-Code zur Verfügung gestellt von Spark JavaKafkaWordCount.java und versuchen, es zu bauen mit Maven. Ich arbeite an der Funke standalone-Modul. Ich bin mit folgenden pom.xml: <project> <groupId>com.mycompany.app</groupId> <artifactId>my-app</artifactId> <modelVersion>4.0.0</modelVersion> <name>Simple Project</name> <packaging>jar</packaging>
2
Antworten
Ich habe einen DataFrame ähnlich wie in diesem Beispiel: Timestamp | Word | Count 30/12/2015 | example_1 | 3 29/12/2015 | example_2 | 1 28/12/2015 | example_2 | 9 27/12/2015 | example_3 | 7 ... | ...
1
Antworten
Ich habe einen dataframe, die hat mehrere Spalten. Ich möchte die Gruppe von einer der Spalten-und aggregate anderen Spalten alle einmal. Angenommen, die Tabelle hat 4 Spalten cust_id, f1,f2,f3, und ich will group by cust_id und dann
2
Antworten
Ich bin Partitionierung ein DataFrame wie folgt: df.write.partitionBy("type", "category").parquet(config.outpath) Den code gibt die erwarteten Ergebnisse (d.h. die Daten partitioniert, die von Art & Kategorie). Aber der "Typ" und "Kategorie" - Spalten werden entfernt, das Daten /schema. Gibt
3
Antworten
Wenn wir einen Ordner folder alle .txt - Dateien können wir Lesen Sie alle mit sc.textFile("folder/*.txt"). Aber was ist, wenn ich einen Ordner folder mit noch mehr Ordnern datewise, wie 03, 04, ..., die weiteren enthalten einige
1
Antworten
Ich bewerten wollte, zwei Bedingungen, wenn wie diese :- import pyspark.sql.functions as F df = df.withColumn( 'trueVal', F.when(df.value < 1 OR df.value2 == 'false' , 0 ).otherwise(df.value)) Für diese bekomme ich 'invalid syntax' für die Verwendung von
3
Antworten
Gibt es eine Möglichkeit, Lesen Sie im HDF5-Dateien mit der Scala-version von Spark? Es sieht aus wie es getan werden kann in Python (über Pyspark), aber ich kann nichts finden für Scala. Dies könnte Ihnen helfen, loszulegen.
3
Antworten
Benutzt habe ich eine Möglichkeit zum speichern dataframe als externe Tabelle mit Parkett-Datei-format, aber gibt es eine andere Möglichkeit zu sparen dataframes direkt als externe Tabelle in hive-wie haben wir saveAsTable für verwaltete Tabelle InformationsquelleAutor sunil kumar
1
Antworten
Nehmen wir an, wir haben DataFrame df bestehend aus den folgenden Spalten: Name, Vorname, Größe, Breite, Länge, Wiegen Wollen wir jetzt führen Sie ein paar Operationen, zum Beispiel erstellen wir ein paar DataFrames mit Angaben über Größe
1
Antworten
Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um
1
Antworten
Ich bin mit einem broadcast-variable über 100 MB gebeizt Größe, die ich bin, die Annäherung mit: >>> data = list(range(int(10*1e6))) >>> import cPickle as pickle >>> len(pickle.dumps(data)) 98888896 Läuft auf einem cluster mit 3 c3.2xlarge Vollzieher, und
1
Antworten
Ich bin neu zu entfachen, Programmierung und haben ein Szenario, um einen Wert zuweisen, wenn eine Reihe von Werten angezeigt, die in meinem Eingang. Unten ist eine tradition, die SQL-code, den ich verwenden würde, um die Aufgabe
1
Antworten
Ich habe ein problem mit Funken-Scala Umwandlung eines Iterierbar (CompactBuffer) zu einzelnen Paare. Ich will erstellen Sie eine neue RDD-mit Schlüssel-Wert-Paare, von denen in der CompactBuffer. Sieht es wie folgt aus: CompactBuffer(Person2, Person5) CompactBuffer(Person2, Person5, Person7) CompactBuffer(Person1,
2
Antworten
Meine spark-cluster hängt sich auf, wenn ich versuche, den cache() oder beibehalten(MEMORY_ONLY_SER()) mein RDDs. Es funktioniert großartig und berechnet die Ergebnisse in etwa 7min. wenn ich nicht cache(). Habe ich 6 c3.xlarge EC2-instances (4 Kerne, 7,5 GB
2
Antworten
Ich versuche zu verstehen, physischen Pläne der Funke-aber ich bin nicht zu verstehen, einige Teile, weil Sie scheinen, unterscheiden sich von traditionellen rdbms. Zum Beispiel, in diesem plan unten, es ist ein plan über eine Abfrage über
1
Antworten
Habe ich folgende Daten: +---------------+-----------+-------------+-----+------+ | time_stamp_0|sender_ip_1|receiver_ip_2|count|attack| +---------------+-----------+-------------+-----+------+ |06:10:55.881073| 10.0.0.3| 10.0.0.1| 1 | 0| |06:10:55.881095| 10.0.0.3| 10.0.0.1| 2 | 0| |06:10:55.881114| 10.0.0.3| 10.0.0.1| 3 | 0| |06:10:55.881133| 10.0.0.3| 10.0.0.1| 4 | 0| |06:10:55.881152| 10.0.0.3| 10.0.0.1| 5 |
2
Antworten
So, ich möchte, um bestimmte Operationen auf meine Funke DataFrame, schreibt Sie in die DB und erstellen Sie einen anderen DataFrame am Ende. Es sieht wie folgt aus : import sqlContext.implicits._ val newDF = myDF.mapPartitions( iterator =>
2
Antworten
Ich habe ein dropdown-element in meinem Zeppelin notebook val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) Möchte ich den Wert dieser variable instrument in meiner sql. Für z.B., meine nächsten Absatz das notebook enthält %sql select
1
Antworten
Von einem remote-scala-Programm, mit Spark 1.3, wie Initialisiere ich die sparkContext so dass ich kann eine Verbindung zu Spark läuft am GARN? also wo setze ich die Adresse des GARN-Knoten(s)? Derzeit mein Programm enthält: val conf =
2
Antworten
Ich bin neu zu entfachen, ich heruntergeladen vorkompilierte Funken. Wenn ich versuche zu laufen, Funke-shell aus bin Ordner auf der Kommandozeile, es gibt :cd /users/denver/spark-1.6/bin :spark-shell Befehl nicht gefunden Aber wenn ich es ausführen, wie :cd /users/denver/spark-1.6
1
Antworten
Funke hat broadcast Variablen, die nur gelesen werden, und accumulator Variablen, die updates von den Knoten, aber nicht Lesen. Ist es Weg oder einen workaround - eine variable definieren, die sowohl aktualisiert und gelesen werden können? Eine
1
Antworten
Entweder pyspark oder sparkr (am besten beides), wie bekomme ich den Schnittpunkt von zwei DataFrame Spalten? Zum Beispiel, in sparkr ich habe Folgendes DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"), surname = c("Smith", "Williams", "Brown",
2
Antworten
Ich versuche zu starten, die Funke-shell für python aus dem Verzeichnis mit ./bin/pyspark Wenn ich den Befehl ausführen bekomme ich folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/launcher/Main Caused by: java.lang.ClassNotFoundException: org.apache.spark.launcher.Main at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method)
2
Antworten
Kann mir jemand ein Beispiel geben von java-Implementierung von public DataFrame createDataFrame(java.util.List<?> data,java.lang.Class<?> beanClass) Funktion, wie bereits in Spark JavaDoc? Habe ich eine Liste von JSON-strings, die ich bin übergeben Sie als erstes argument und damit bin
1
Antworten
Laut diese Katalysator gilt logische Optimierungen wie predicate-pushdown. Die optimizer push-filter-Prädikate unten in der Datenquelle, ermöglicht die Ausführung überspringen irrelevanter Daten. Spark unterstützt push-down von Prädikaten, um die Datenquelle. Ist diese Funktion auch verfügbar ist /erwartet für
1
Antworten
Ich bin neu in scala und graphx und habe Probleme beim konvertieren einer tsv-Datei zu einem Diagramm. Ich habe einen flachen tab-getrennte Datei wie unten: n1 P1 n2 n3 P1 n4 n2 P2 n3 n3 P2 n1
2
Antworten
Unten ist mein Skript für die Verwendung von sql in dataframe mit python: pyspark --packages com.databricks:spark-csv_2.10:1.4.0 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('file:///root/Downloads/data/flight201601short.csv') df.Karte(5) zeigt das Ergebnis unten an: dann melde ich das
1
Antworten
Als pro Funke docs, Um loszulegen Sie müssen den JDBC-Treiber für Sie bestimmten Datenbank auf dem spark-classpath. Zum Beispiel, um die Verbindung zu postgres aus der Funke-Shell führen Sie den folgenden Befehl ein: bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars
2
Antworten
Zum Beispiel haben wir eine Parkett-Datei mit 2000 Lager-Symbole " Schlusskurs in den letzten 3 Jahren, und wir wollen berechnen, die 5-Tage gleitenden Durchschnitt für jedes symbol. Damit ich einen Funken zu erzeugen SQLContext und dann val
1
Antworten
Also davon ausgehen, ive bekam ein rdd mit 3000 Zeilen. Die 2000 ersten Zeilen der Klasse 1 und die letzten 1000 Zeilen der class2. Der RDD ist partitioniert über 100 Partitionen. Beim Aufruf RDD.randomSplit(0.8,0.2) Macht die Funktion
4
Antworten
Folgende Ausnahme aufgetreten ist, wenn ein spark unit-test, der erfordert, snappy compression: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.xerial.snappy.SnappyLoader.loadNativeLibrary(SnappyLoader.java:317) at org.xerial.snappy.SnappyLoader.load(SnappyLoader.java:219) at org.xerial.snappy.Snappy.<clinit>(Snappy.java:44) at org.apache.spark.io.SnappyCompressionCodec.<init>(CompressionCodec.scala:150) at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
3
Antworten
Beim kompilieren des Maven-Projekt der folgende Fehler aufgetreten ist: [INFO] --- scala-maven-plugin:3.2.2:compile (scala-compile-first) @ spark-streaming-flume-sink_2.10 --- [WARNING] Zinc server is not available at port 3030 - reverting to normal incremental compile [INFO] Using incremental compilation [INFO] Compiling
2
Antworten
Spark ich versuche zum ausführen von SQL-Abfragen über eine temporäre Tabelle, abgeleitet von einem Daten-frame, die ich manuell gebaut, durch das Lesen einer csv-Datei und die Umwandlung der Spalten in den richtigen Datentyp. Insbesondere die Tabelle, die
4
Antworten
Ich habe mehrere jobs, die ich will, um parallel ausgeführt werden, append Daten werden täglich in den gleichen Pfad mit der Partitionierung. z.B. dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parquet("s3://bucket/save/path"); Job 1 - category = "billing_events" Job 2 -
3
Antworten
Mir läuft Spark mit GARN. Aus dem link: http://spark.apache.org/docs/latest/running-on-yarn.html Fand ich die Erklärung von unterschiedlichen Garn-Modi, d.h. die --master option, mit der Funke laufen kann: "Es gibt zwei Modi bereitstellen, die verwendet werden können, um zu starten
2
Antworten
Ich Schreibe spark-code in python. Wie gebe ich eine variable in einer Funke.sql-Abfrage? q25 = 500 Q1 = spark.sql("SELECT col1 from table where col2>500 limit $q25 , 1") Derzeit der obige code nicht funktioniert? Wie machen wir
2
Antworten
Ich versuche, zu extrahieren Wörter aus einer Textdatei. Textdatei: "Line1 with words to extract" "Line2 with words to extract" "Line3 with words to extract" Folgendes gut funktioniert: val data = sc.textFile(file_in).map(_.toLowerCase).cache() val all = data.flatMap(a => "[a-zA-Z]+".r
2
Antworten
Bin ich mit einem Spark-Streaming Aufgabe in einem cluster mithilfe von GARN. Jedem Knoten im cluster läuft mehrere Funken Arbeitnehmer. Bevor das streaming beginnt, möchte ich ausführen, dass die "setup" Funktion auf alle Arbeitnehmer auf allen Knoten
1
Antworten
Habe ich eine json-Datei wie unten. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} Ich bin laden meine json-Datei. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Desktop/data.json") val df1=df.select($"name",$"parameter1",$"parameter2").toDF() df1.show() Ich habe 3 Funktion, wie unten: def method1(P1:String, P2:Double) { val data
4
Antworten
Ich bin spark-die Einreichung einer python-Datei, die importiert numpy, aber ich bin immer ein no module named numpy Fehler. $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/www/my_numpy_als.py", line 13, in <module> from pyspark.mllib.recommendation