Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Wie zu verwenden mapPartitions Zündkerzen Scala?

1 Antworten

Habe ich DocsRDD : RDD[String, String] val DocsRDD = sc.wholeTextFiles("myDirectory/*" , 2) DocsRDD: Doc1.txt , bla bla bla .....\n bla bla bla \n bla ... bla Doc2.txt , bla bla bla .....bla \n bla bla \n bla

apache-spark scala

Apache Spark: Wie konvertiere ich eine Funke DataFrame zu einer RDD mit Typ RDD - [(Type1,Type2, ...)]?

1 Antworten

Angenommen, ich habe den DataFrame: var myDF = sc.parallelize(Seq(("one",1),("two",2),("three",3))).toDF("a", "b") Kann ich konvertieren, um ein RDD[(String, Int)] mit einer Karte: var myRDD = myDF.map(r => (r(0).asInstanceOf[String], r(1).asInstanceOf[Int])) Gibt es einen besseren Weg, dies zu tun, vielleicht mit

apache-spark scala

Speichern kafka Verbraucher-Nachrichten zu Datenbank

2 Antworten

Ich bin dabei, eine streaming-Datenbank für die stream-Analyse. Kann jemand mir das Schritt Weise code aktualisieren, den Kafka Nachricht in Datenbank wie mySQL oder Stock verwenden Sie es für die Analyse? Richte ich meine Tierpfleger und Kafka,

apache-spark kafka-consumer-api mysql streaming

Wecken kann code ausgeführt werden, auf cluster ohne Funke zu übermitteln?

3 Antworten

Ich entwickeln möchte, eine Scala-Anwendung, die verbindet ein master und läuft ein spark-code. Ich möchte um dies zu erreichen, ohne Verwendung von spark-Einreichen. Ist das möglich? Insbesondere würde ich gerne wissen, ob der folgende code kann ausgeführt

apache-spark yarn

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

1 Antworten

Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

apache-spark dataframe rdd spark-csv spark-dataframe

Kann ich das ändern SparkContext.appName on-the-fly?

1 Antworten

Ich weiß, dass ich verwenden können, SparkConf.set ("Funke.app.name',...) zu setzen appName vor erstellen der SparkContext. Allerdings möchte ich ändern Sie den Namen der Anwendung ein, wie Sie fortschreitet, D. H., nach SparkContext erstellt wurde. Ach, Einstellung sc.appName

apache-spark pyspark

Oozie-job nicht ausgeführt werden, wenn mit PySpark in SparkAction

4 Antworten

Ich angetroffen habe mehrere Beispiele von SparkAction jobs in Oozie, und die meisten von Ihnen sind in Java. Ich Editiere ein wenig und führen Sie das Beispiel in Cloudera CDH Quickstart 5.4.0 (mit Spark version 1.4.0). workflow.xml

apache-spark cloudera-quickstart-vm java oozie pyspark

spark - scala - Wie kann ich prüfen, ob eine Tabelle existiert in den Bienenstock

2 Antworten

Habe ich, um zu überprüfen, ob eine Tabelle existiert in den Bienenstock, mit Funken(1.6.2) scala Wenn es nicht ich habe zum erstellen einer leeren dataframe und speichern, die als eine hive-Tabelle. Wenn er vorhanden ist, überschreiben Sie

apache-spark scala

Filter rdd Linien, indem Sie Werte in die Felder Scala

3 Antworten

Ich habe eine csv, die die folgende Struktur hat: header,header,header,header,header val1, val2, val3, val4, val5 Wert1, Wert2, null, val4, val5 val1, val2, val3, null, val5 Was ich tun müssen, ist filtern die Kopfzeile und die Zeilen von

apache-spark scala

org.apache.spark.SparkException: Kryo-Serialisierung fehlgeschlagen: Buffer-overflow - spark mit java

2 Antworten

wenn iam versucht zu starten spark(java) - code, der iam bekommen eine Fehlermeldung wie "org.apache.spark.SparkException: Kryo-Serialisierung fehlgeschlagen: Puffer-überlauf. Verfügbar: 0, erforderlich: 27". In vielen Beiträgen erwähnt wie die Puffer auf max-Wert. wenn ich versucht, diese mit max

apache-spark

Outer-join-Spark-dataframe mit nicht-identischen join-Spalte und dann merge join-Spalte

3 Antworten

Angenommen ich habe die folgenden dataframes in pySpark: df1 = sqlContext.createDataFrame([Row(name='john', age=50), Row(name='james', age=25)]) df2 = sqlContext.createDataFrame([Row(name='john', weight=150), Row(name='mike', weight=115)]) df3 = sqlContext.createDataFrame([Row(name='john', age=50, weight=150), Row(name='james', age=25, weight=None), Row(name='mike', age=None, weight=115)]) Nun angenommen, ich möchte zu erstellen

apache-spark apache-spark-sql join python

brauche Hilfe für den Vergleich von zwei Spalten in spark scala

2 Antworten

Habe ich spark dataframe wie diese id1 id2 attrname attr_value attr_valuelist 1 2 test Yes Yes, No 2 1 test1 No Yes, No 3 2 test2 value1 val1, Value1,value2 4 1 test3 3 0, 1, 2 5

apache-spark scala

Java Spark Streaming JSON-parsing

2 Antworten

Habe ich angefangen zu lernen, spark-streaming von Spark-Motor und sehr neu in data analytics und Funken. Ich will einfach nur, um zu erstellen ein kleines IOT-Anwendung in die ich möchte, um eine Prognose über die zukünftigen Daten.

apache-spark forecasting java machine-learning spark-streaming

Wie anzeigen-Funktionen aus der Ausgabe eines VectorAssembler zurück zu den Spaltennamen in der Funke ML?

3 Antworten

Ich versuche, führen Sie eine lineare regression in PySpark und ich möchte erstellen Sie eine Tabelle mit Zusammenfassung der Statistiken, wie die Koeffizienten, P-Werte und t-Werte für jede Spalte in meinem Datensatz. Jedoch, um zu trainieren Sie

apache-spark apache-spark-ml machine-learning pyspark python

(Funke) - Objekt {name} ist nicht Mitglied in-Paket org.apache.spark.ml

2 Antworten

Ich versuche zu laufen, eigenständige Anwendung mit scala auf der Basis von apache spark, basierend auf Beispiel hier: http://spark.apache.org/docs/latest/ml-pipeline.html Hier ist mein vollständiger code: import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.ml.param.ParamMap import org.apache.spark.sql.Row object mllibexample1 { def

apache-spark apache-spark-mllib sbt scala

Das kartesische Produkt von zwei RDD-Zündkerzen

3 Antworten

Ich bin völlig neu zu Apache Spark und ich versucht zu kartesischen Produkt zwei RDD. Als Beispiel habe ich A und B wie : A = {(a1,v1),(a2,v2),...} B = {(b1,s1),(b2,s2),...} Brauche ich eine neue RDD wie: C

apache-spark dot-product python

Summe Betrieb auf PySpark DataFrame geben TypeError, wenn der Typ in Ordnung ist

1 Antworten

Habe ich solche DataFrame in PySpark (dies ist das Ergebnis eines nehmen(3) das dataframe ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] den gleichen Besitzer mehr Zeilen. Was ich tun müssen,

apache-spark dataframe pyspark python

Wie man der letzten Zeile des DataFrame?

6 Antworten

Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun? dies ist mein input: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| 2|

apache-spark apache-spark-sql scala spark-dataframe

group-by-value in spark python

4 Antworten

Ich habe versucht, für die Gruppierung nach dem Wert von raw-Schlüssel-Wert-Paare wie [(1, a), (2, a), (3, a), (4, a), (3, b), (1, b), (1, c), (4, c), (4, d)] Ich bin in der Lage zu group

apache-spark pyspark python

Spark saveAsTextFile() Ergebnisse in Mkdirs Fehler beim erstellen der Hälfte der directory

7 Antworten

Ich bin derzeit ein Java-Spark-Anwendung in tomcat ein und erhalten die folgende Ausnahme: Caused by: java.io.IOException: Mkdirs failed to create file:/opt/folder/tmp/file.json/_temporary/0/_temporary/attempt_201603031703_0001_m_000000_5 auf der Linie text.saveAsTextFile("/opt/folder/tmp/file.json") //where text is a JavaRDD<String> Das Problem ist, dass /opt/Ordner/tmp/schon existiert und

apache-spark java spark-dataframe tomcat

Gelesen von Kafka und schreiben auf hdfs in Parkett

3 Antworten

Ich bin neu in der BigData-eco-system und die Art der Vorbereitungen. Habe ich gelesen mehrere Artikel, die über das Lesen einer kafka-Thema der Verwendung von spark-streaming, aber würde gerne wissen, ob es möglich ist, zu Lesen von

apache-kafka apache-spark hadoop hdfs parquet

Wie berechne Perzentil der Spalte in einen DataFrame in der Funke?

2 Antworten

Ich versuche zu berechnen Perzentil einer Spalte in einem DataFrame? Ich kann nicht finden, percentile_approx Funktion in der Funke-aggregation-Funktionen. Z.B. im Hive-wir haben percentile_approx und wir können es verwenden, in der folgenden Weise hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

apache-spark apache-spark-sql scala spark-dataframe

Wie erstellen Sie eine Beispiel-Spark-dataFrame in Python?

4 Antworten

Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb

apache-spark apache-spark-sql pyspark

Tupel an Daten-frame in spark scala

2 Antworten

Ich habe ein array namens " array-Liste die wie folgt aussieht arraylist: Array[(String, Any)] = Array((id,772914), (x4,2), (x5,24), (x6,1), (x7,77491.25), (x8,17911.77778), (x9,225711), (x10,17), (x12,6), (x14,5), (x16,5), (x18,5.0), (x19,8.0), (x20,7959.0), (x21,676.0), (x22,228.5068871), (x23,195.0), (x24,109.6015511), (x25,965.0), (x26,1017.79043), (x27,2.0), (Target,1),

apache-spark scala

Wie effizient arbeiten mit SBT, Funke und "vorgesehen" Abhängigkeiten?

8 Antworten

Baue ich ein Apache-Spark-Applikation in Scala und ich bin mit SBT, um es zu bauen. Hier ist die Sache: wenn ich die Entwicklung unter IntelliJ IDEA, ich will Funken Abhängigkeiten in den classpath (ich bin der Einführung

apache-spark intellij-idea sbt sbt-assembly

wie Sortieren Sie die Daten in jeder partition in der Funke?

2 Antworten

Gibt es einige Daten: a 2 b 2 c 2 a 1 c 3 a 3 c 1 b 3 b 1 wenn ich eine Neupartitionierung der Daten, und keine Art, code: val sc = new SparkContext

apache-spark

ein Fehler in der Funke sbt Baugruppe

2 Antworten

Spark installieren, README,ich Schreibe den Befehl './bin/Funke-shell', Ich bekam einen Hinweis Folgendes: Gefunden, die mehrere Spark-Montage-jar-Dateien in /opt/Funke-0.9.0-bebrüten-bin-hadoop1/Montage/target/scala-2.10: spark-assembly-0.9.0-incubating-hadoop1.0.4.jar spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar Bitte entfernen Sie alle, aber eine jar. Ich immer versuchen, entfernen Sie einer von Ihnen ,aber ich

apache-spark scala

Gewusst wie: filtern von Daten mithilfe von Fenster-Funktionen in der Funke

1 Antworten

Habe ich folgende Daten : rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c

apache-spark scala spark-dataframe window-functions

Apache Spark mit Python: Fehler

8 Antworten

Neu zu entfachen. Heruntergeladen alles in Ordnung, aber wenn ich pyspark, bekomme ich folgenden Fehler: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To

apache-spark pyspark python

java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession

4 Antworten

Ich geschrieben habe, einen Funken Job in Java. Wenn ich behaupte der Job gibt es folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession at com.thinkbiganalytics.veon.util.SparkSessionBuilder.getOrCreateSparkSession(SparkSessionBuilder.java:12) at com.thinkbiganalytics.veon.AbstractSparkTransformation.initSparkSession(AbstractSparkTransformation.java:92) at com.thinkbiganalytics.veon.transformations.SDPServiceFeeDeductionSourceToEventStore.init(SDPServiceFeeDeductionSourceToEventStore.java:57) at com.thinkbiganalytics.veon.AbstractSparkTransformation.doTransform(AbstractSparkTransformation.java:51) at com.thinkbiganalytics.veon.transformations.SDPServiceFeeDeductionSourceToEventStore.main(SDPServiceFeeDeductionSourceToEventStore.java:51) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at

apache-spark java

Spark Java scala Fehler

3 Antworten

Hey ich will Funke in meinem Java-Projekt : Ich schon hinzufügen dieser Abhängigkeit in meiner pom-Datei : <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>1.4.0</version> </dependency> Ich habe versucht, diesen code : import org.apache.spark.api.java.JavaSparkContext; public class sparkSQL { public void query()

apache-spark hadoop java maven scala

Warum ist Spark saveAsTable mit bucketBy die Schaffung von tausenden von Dateien?

3 Antworten

Kontext Funke 2.0.1, Funke-Abgabe im cluster-Modus. Ich lese ein Parkett-Datei aus dem hdfs: val spark = SparkSession.builder .appName("myApp") .config("hive.metastore.uris", "thrift://XXX.XXX.net:9083") .config("spark.sql.sources.bucketing.enabled", true) .enableHiveSupport() .getOrCreate() val df = spark.read .format("parquet") .load("hdfs://XXX.XX.X.XX/myParquetFile") Ich bin speichern die df um eine

apache-spark hive

Berechnen Sie die Zeit zwischen zwei Datumsangaben in pyspark

2 Antworten

Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from

apache-spark apache-spark-sql pyspark

java.lang.ClassNotFoundException: org.apache.spark.sql.Dataset

3 Antworten

Wenn Sie eine Scala-Datei, die verwendet die Spark Dataset geben, bekomme ich folgenden stack trace: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/Dataset at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at com.intellij.rt.execution.application.AppMain.main(AppMain.java:125) Caused by: java.lang.ClassNotFoundException:

apache-spark apache-spark-sql scala

Funke (scala) dataframes - Überprüfen, ob strings in der Spalte enthalten alle Elemente aus einem set

3 Antworten

Ich bin ziemlich neu im scala und Funken, und ich habe versucht, eine Lösung zu finden für dieses Problem den ganzen Tag - es tut meinem Kopf. Ich habe versucht 20 verschiedene Variationen des folgenden code und

apache-spark scala

Spark Streaming StreamingContext Fehler

2 Antworten

Hallo ich bin gestartet spark streaming lernen, aber ich kann nicht führen Sie eine einfache Anwendung Mein code ist hier import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ val conf = new SparkConf().setMaster("spark://beyhan:7077").setAppName("NetworkWordCount") val ssc = new StreamingContext(conf, Seconds(1))

apache-spark scala spark-streaming

Wie man mehrere Zeilen json-Datei In Einzelne Datensatz als rdd

3 Antworten

rdd=sc.textFile(json or xml) rdd.collect() [u'{', u' "glossary": {', u' "title": "example glossary",', u'\t\t"GlossDiv": {', u' "title": "S",', u'\t\t\t"GlossList": {', u' "GlossEntry": {', u' "ID": "SGML",', u'\t\t\t\t\t"SortAs": "SGML",', u'\t\t\t\t\t"GlossTerm": "Standard Generalized Markup Language",', u'\t\t\t\t\t"Acronym": "SGML",', u'\t\t\t\t\t"Abbrev": "ISO 8879:1986",',

apache-spark apache-spark-sql

Nicht zu vergleichen zwei Daten in Spark SQL-Abfrage

1 Antworten

Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:

apache-spark apache-spark-sql pyspark

Fehler: nicht gefunden: Wert, lit/Wann - spark-scala

1 Antworten

Ich bin mit scala, spark, IntelliJ und maven. Habe ich folgenden code : val joinCondition = when($"exp.fnal_expr_dt" >= $"exp.nonfnal_expr_dt", $"exp.manr_cd"===$"score.MANR_CD") val score = exprDF.as("exp").join(scoreDF.as("score"),joinCondition,"inner") und val score= list.withColumn("scr", lit(0)) Aber wenn Sie versuchen zu bauen mit maven,

apache-spark intellij-idea maven scala

Konvertieren RDD vom Typ " org.apache.spark.rdd.RDD[((String, String), Double)]` to `org.apache.spark.rdd.RDD[((String) List[Double])]`

2 Antworten

Habe ich ein RDD : val rdd: org.apache.spark.rdd.RDD[((String, String), Double)] = sc.parallelize(List( (("a", "b"), 1.0), (("a", "c"), 3.0), (("a", "d"), 2.0) )) Ich bin versucht zu konvertieren, das RDD vom Typ org.apache.spark.rdd.RDD[((String, String), Double)] zu org.apache.spark.rdd.RDD[((String), List[Double])]

apache-spark scala

Holen Sie sich die Größe/Länge eines array-Spalte

1 Antworten

Ich bin neu in der Scala-Programmierung und hier ist meine Frage: Wie zählen Sie die Anzahl der string für jede Zeile? Mein Dataframe besteht aus einer einzelnen Spalte des Array[String] Typ. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>] InformationsquelleAutor

apache-spark apache-spark-sql databricks scala

nicht beheben können, xyz gegeben Eingabespalten Fehler beim erstellen von Spark-dataset

2 Antworten

Ich versuche, etwas zu tun, sehr einfach, aber ich kann nicht glauben, es funktioniert nicht... wahrscheinlich bin ich etwas fehlt ganz offensichtlich. Bitte helfen Sie. Ziel: Lesen Sie den Iris-Datensatz (csv-Datei keine Kopfzeile) in ein Dataset Code:

apache-spark

Top Werte aus einer spark-dataframe Spalte in Scala

3 Antworten

val df = sc.parallelize(Seq((201601, a), (201602, b), (201603, c), (201604, c), (201607, c), (201604, c), (201608, c), (201609, c), (201605, b))).toDF("col1", "col2") Ich will top-3-Werte col1. Kann jeder bitte lassen Sie mich wissen, die bessere Möglichkeit, dies

apache-spark apache-spark-sql scala spark-dataframe

PySpark, Konvertieren Sie die Liste der Zeilen, um Daten-Frames

1 Antworten

Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt

apache-spark pyspark pyspark-sql python

Sortby in Javardd

3 Antworten

Ich bin usinig spark mit java. Und ich möchte sozusagen meine Karte. In der Tat, ich habe ich javaRDD wie diese : JavaPairRDD<String, Integer> rebondCountURL = session_rebond_2.mapToPair(new PairFunction<Tuple2<String, String>, String, String>() { @Override public Tuple2<String, String> call(Tuple2<String,

apache-spark java

argmax Zündkerzen DataFrames: so rufen Sie die Zeile mit dem maximalen Wert

2 Antworten

Gegeben ein Funken DataFrame df möchte ich den maximalen Wert in einem bestimmten numerischen Spalte 'values' ist, und die Zeile(N), wo dieser Wert erreicht wurde. Ich kann natürlich dabei: # it doesn't matter if I use scala

apache-spark apache-spark-sql

Einfachste Möglichkeit zur Installation von Python-Abhängigkeiten auf Spark Testamentsvollstrecker Knoten?

1 Antworten

Ich verstehe, dass Sie können senden Sie einzelne Dateien als Abhängigkeiten mit Spark Python-Programme. Aber was ist mit vollwertigen Bibliotheken (z.B. numpy)? Tut Funke eine Möglichkeit haben, verwenden Sie eine bereitgestellte Paket-manager (z.B. pip) zum installieren von

apache-spark dependencies distributed-computing hadoop shared-libraries

So Lesen Sie eine Datei mit fester Länge in Spark mit DataFrame API und SCALA

2 Antworten

Ich habe eine Datei mit fester Länge ( siehe nachstehendes Beispiel) und ich möchte diese Datei zu Lesen, mithilfe von DataFrames API-Zündkerzen mit SCALA(nicht python oder java). Mit DataFrames-API, es gibt Möglichkeiten zum Lesen von Text -,

apache-spark scala spark-dataframe

So aktualisieren Sie ein RDD?

2 Antworten

Entwickeln wir in der Spark-Rahmen, worin bewegen wir uns historischen Daten, die in der RDD-sets. Grundsätzlich RDD ist unveränderlich, nur-lese-dataset, auf dem wir Aktionen. Auf dieser Basis haben wir verschoben historischen Daten in RDD und wir machen

apache-spark rdd spark-streaming

Filter-Stopp-Wörter in Spark

2 Antworten

Ich bin versucht heraus zu filtern, die stop-Wörter aus einem RDD von Wörtern aus einer .txt Datei. //Creating the RDDs val input = sc.textFile("../book.txt") val stopWordsInput = sc.textFile("../stopwords.csv") val stopWords = stopWordsInput.map(x => x.split(",")) //Create a tuple

apache-spark scala