Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Wie zu verwenden mapPartitions Zündkerzen Scala?

Anzahl der Antworten 1 Antworten
Habe ich DocsRDD : RDD[String, String] val DocsRDD = sc.wholeTextFiles("myDirectory/*" , 2) DocsRDD: Doc1.txt , bla bla bla .....\n bla bla bla \n bla ... bla Doc2.txt , bla bla bla .....bla \n bla bla \n bla

Apache Spark: Wie konvertiere ich eine Funke DataFrame zu einer RDD mit Typ RDD - [(Type1,Type2, ...)]?

Anzahl der Antworten 1 Antworten
Angenommen, ich habe den DataFrame: var myDF = sc.parallelize(Seq(("one",1),("two",2),("three",3))).toDF("a", "b") Kann ich konvertieren, um ein RDD[(String, Int)] mit einer Karte: var myRDD = myDF.map(r => (r(0).asInstanceOf[String], r(1).asInstanceOf[Int])) Gibt es einen besseren Weg, dies zu tun, vielleicht mit

Speichern kafka Verbraucher-Nachrichten zu Datenbank

Anzahl der Antworten 2 Antworten
Ich bin dabei, eine streaming-Datenbank für die stream-Analyse. Kann jemand mir das Schritt Weise code aktualisieren, den Kafka Nachricht in Datenbank wie mySQL oder Stock verwenden Sie es für die Analyse? Richte ich meine Tierpfleger und Kafka,

Wecken kann code ausgeführt werden, auf cluster ohne Funke zu übermitteln?

Anzahl der Antworten 3 Antworten
Ich entwickeln möchte, eine Scala-Anwendung, die verbindet ein master und läuft ein spark-code. Ich möchte um dies zu erreichen, ohne Verwendung von spark-Einreichen. Ist das möglich? Insbesondere würde ich gerne wissen, ob der folgende code kann ausgeführt

Programmgesteuert generieren, die das schema UND die Daten für einen dataframe in Apache Spark

Anzahl der Antworten 1 Antworten
Möchte ich dynamisch generieren Sie einen dataframe mit einem Kopf-Datensatz für einen Bericht so erstellen Sie einen dataframe aus dem Wert die Zeichenfolge unten: val headerDescs : String = "Name,Age,Location" val headerSchema = StructType(headerDescs.split(",").map(fieldName => StructField(fieldName, StringType,

Kann ich das ändern SparkContext.appName on-the-fly?

Anzahl der Antworten 1 Antworten
Ich weiß, dass ich verwenden können, SparkConf.set ("Funke.app.name',...) zu setzen appName vor erstellen der SparkContext. Allerdings möchte ich ändern Sie den Namen der Anwendung ein, wie Sie fortschreitet, D. H., nach SparkContext erstellt wurde. Ach, Einstellung sc.appName

Oozie-job nicht ausgeführt werden, wenn mit PySpark in SparkAction

Anzahl der Antworten 4 Antworten
Ich angetroffen habe mehrere Beispiele von SparkAction jobs in Oozie, und die meisten von Ihnen sind in Java. Ich Editiere ein wenig und führen Sie das Beispiel in Cloudera CDH Quickstart 5.4.0 (mit Spark version 1.4.0). workflow.xml

spark - scala - Wie kann ich prüfen, ob eine Tabelle existiert in den Bienenstock

Anzahl der Antworten 2 Antworten
Habe ich, um zu überprüfen, ob eine Tabelle existiert in den Bienenstock, mit Funken(1.6.2) scala Wenn es nicht ich habe zum erstellen einer leeren dataframe und speichern, die als eine hive-Tabelle. Wenn er vorhanden ist, überschreiben Sie

Filter rdd Linien, indem Sie Werte in die Felder Scala

Anzahl der Antworten 3 Antworten
Ich habe eine csv, die die folgende Struktur hat: header,header,header,header,header val1, val2, val3, val4, val5 Wert1, Wert2, null, val4, val5 val1, val2, val3, null, val5 Was ich tun müssen, ist filtern die Kopfzeile und die Zeilen von

org.apache.spark.SparkException: Kryo-Serialisierung fehlgeschlagen: Buffer-overflow - spark mit java

Anzahl der Antworten 2 Antworten
wenn iam versucht zu starten spark(java) - code, der iam bekommen eine Fehlermeldung wie "org.apache.spark.SparkException: Kryo-Serialisierung fehlgeschlagen: Puffer-überlauf. Verfügbar: 0, erforderlich: 27". In vielen Beiträgen erwähnt wie die Puffer auf max-Wert. wenn ich versucht, diese mit max

Outer-join-Spark-dataframe mit nicht-identischen join-Spalte und dann merge join-Spalte

Anzahl der Antworten 3 Antworten
Angenommen ich habe die folgenden dataframes in pySpark: df1 = sqlContext.createDataFrame([Row(name='john', age=50), Row(name='james', age=25)]) df2 = sqlContext.createDataFrame([Row(name='john', weight=150), Row(name='mike', weight=115)]) df3 = sqlContext.createDataFrame([Row(name='john', age=50, weight=150), Row(name='james', age=25, weight=None), Row(name='mike', age=None, weight=115)]) Nun angenommen, ich möchte zu erstellen

brauche Hilfe für den Vergleich von zwei Spalten in spark scala

Anzahl der Antworten 2 Antworten
Habe ich spark dataframe wie diese id1 id2 attrname attr_value attr_valuelist 1 2 test Yes Yes, No 2 1 test1 No Yes, No 3 2 test2 value1 val1, Value1,value2 4 1 test3 3 0, 1, 2 5

Java Spark Streaming JSON-parsing

Anzahl der Antworten 2 Antworten
Habe ich angefangen zu lernen, spark-streaming von Spark-Motor und sehr neu in data analytics und Funken. Ich will einfach nur, um zu erstellen ein kleines IOT-Anwendung in die ich möchte, um eine Prognose über die zukünftigen Daten.

Wie anzeigen-Funktionen aus der Ausgabe eines VectorAssembler zurück zu den Spaltennamen in der Funke ML?

Anzahl der Antworten 3 Antworten
Ich versuche, führen Sie eine lineare regression in PySpark und ich möchte erstellen Sie eine Tabelle mit Zusammenfassung der Statistiken, wie die Koeffizienten, P-Werte und t-Werte für jede Spalte in meinem Datensatz. Jedoch, um zu trainieren Sie

(Funke) - Objekt {name} ist nicht Mitglied in-Paket org.apache.spark.ml

Anzahl der Antworten 2 Antworten
Ich versuche zu laufen, eigenständige Anwendung mit scala auf der Basis von apache spark, basierend auf Beispiel hier: http://spark.apache.org/docs/latest/ml-pipeline.html Hier ist mein vollständiger code: import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.ml.param.ParamMap import org.apache.spark.sql.Row object mllibexample1 { def

Das kartesische Produkt von zwei RDD-Zündkerzen

Anzahl der Antworten 3 Antworten
Ich bin völlig neu zu Apache Spark und ich versucht zu kartesischen Produkt zwei RDD. Als Beispiel habe ich A und B wie : A = {(a1,v1),(a2,v2),...} B = {(b1,s1),(b2,s2),...} Brauche ich eine neue RDD wie: C

Summe Betrieb auf PySpark DataFrame geben TypeError, wenn der Typ in Ordnung ist

Anzahl der Antworten 1 Antworten
Habe ich solche DataFrame in PySpark (dies ist das Ergebnis eines nehmen(3) das dataframe ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)] den gleichen Besitzer mehr Zeilen. Was ich tun müssen,

Wie man der letzten Zeile des DataFrame?

Anzahl der Antworten 6 Antworten
Ich hava ein DataFrame,das DataFrame hava zwei Spalte 'value' und 'timestamp', die 'timestmp' ist bestellt,ich möchte die Letzte Zeile des DataFrame,was soll ich tun? dies ist mein input: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| 2|

group-by-value in spark python

Anzahl der Antworten 4 Antworten
Ich habe versucht, für die Gruppierung nach dem Wert von raw-Schlüssel-Wert-Paare wie [(1, a), (2, a), (3, a), (4, a), (3, b), (1, b), (1, c), (4, c), (4, d)] Ich bin in der Lage zu group

Spark saveAsTextFile() Ergebnisse in Mkdirs Fehler beim erstellen der Hälfte der directory

Anzahl der Antworten 7 Antworten
Ich bin derzeit ein Java-Spark-Anwendung in tomcat ein und erhalten die folgende Ausnahme: Caused by: java.io.IOException: Mkdirs failed to create file:/opt/folder/tmp/file.json/_temporary/0/_temporary/attempt_201603031703_0001_m_000000_5 auf der Linie text.saveAsTextFile("/opt/folder/tmp/file.json") //where text is a JavaRDD<String> Das Problem ist, dass /opt/Ordner/tmp/schon existiert und

Gelesen von Kafka und schreiben auf hdfs in Parkett

Anzahl der Antworten 3 Antworten
Ich bin neu in der BigData-eco-system und die Art der Vorbereitungen. Habe ich gelesen mehrere Artikel, die über das Lesen einer kafka-Thema der Verwendung von spark-streaming, aber würde gerne wissen, ob es möglich ist, zu Lesen von

Wie berechne Perzentil der Spalte in einen DataFrame in der Funke?

Anzahl der Antworten 2 Antworten
Ich versuche zu berechnen Perzentil einer Spalte in einem DataFrame? Ich kann nicht finden, percentile_approx Funktion in der Funke-aggregation-Funktionen. Z.B. im Hive-wir haben percentile_approx und wir können es verwenden, in der folgenden Weise hiveContext.sql("select percentile_approx("Open_Rate",0.10) from myTable);

Wie erstellen Sie eine Beispiel-Spark-dataFrame in Python?

Anzahl der Antworten 4 Antworten
Ich möchte erstellen Sie eine Beispiel-DataFrame aber der folgende code funktioniert nicht: df = spark.createDataFrame(["10","11","13"], ("age")) ## ValueError ## ... ## ValueError: Could not parse datatype: age Erwartete Ergebnis ist: age 10 11 13 InformationsquelleAutor Ajish Kb

Tupel an Daten-frame in spark scala

Anzahl der Antworten 2 Antworten
Ich habe ein array namens " array-Liste die wie folgt aussieht arraylist: Array[(String, Any)] = Array((id,772914), (x4,2), (x5,24), (x6,1), (x7,77491.25), (x8,17911.77778), (x9,225711), (x10,17), (x12,6), (x14,5), (x16,5), (x18,5.0), (x19,8.0), (x20,7959.0), (x21,676.0), (x22,228.5068871), (x23,195.0), (x24,109.6015511), (x25,965.0), (x26,1017.79043), (x27,2.0), (Target,1),

Wie effizient arbeiten mit SBT, Funke und "vorgesehen" Abhängigkeiten?

Anzahl der Antworten 8 Antworten
Baue ich ein Apache-Spark-Applikation in Scala und ich bin mit SBT, um es zu bauen. Hier ist die Sache: wenn ich die Entwicklung unter IntelliJ IDEA, ich will Funken Abhängigkeiten in den classpath (ich bin der Einführung

wie Sortieren Sie die Daten in jeder partition in der Funke?

Anzahl der Antworten 2 Antworten
Gibt es einige Daten: a 2 b 2 c 2 a 1 c 3 a 3 c 1 b 3 b 1 wenn ich eine Neupartitionierung der Daten, und keine Art, code: val sc = new SparkContext

ein Fehler in der Funke sbt Baugruppe

Anzahl der Antworten 2 Antworten
Spark installieren, README,ich Schreibe den Befehl './bin/Funke-shell', Ich bekam einen Hinweis Folgendes: Gefunden, die mehrere Spark-Montage-jar-Dateien in /opt/Funke-0.9.0-bebrüten-bin-hadoop1/Montage/target/scala-2.10: spark-assembly-0.9.0-incubating-hadoop1.0.4.jar spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar Bitte entfernen Sie alle, aber eine jar. Ich immer versuchen, entfernen Sie einer von Ihnen ,aber ich

Gewusst wie: filtern von Daten mithilfe von Fenster-Funktionen in der Funke

Anzahl der Antworten 1 Antworten
Habe ich folgende Daten : rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c

Apache Spark mit Python: Fehler

Anzahl der Antworten 8 Antworten
Neu zu entfachen. Heruntergeladen alles in Ordnung, aber wenn ich pyspark, bekomme ich folgenden Fehler: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To

java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession

Anzahl der Antworten 4 Antworten
Ich geschrieben habe, einen Funken Job in Java. Wenn ich behaupte der Job gibt es folgende Fehlermeldung: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession at com.thinkbiganalytics.veon.util.SparkSessionBuilder.getOrCreateSparkSession(SparkSessionBuilder.java:12) at com.thinkbiganalytics.veon.AbstractSparkTransformation.initSparkSession(AbstractSparkTransformation.java:92) at com.thinkbiganalytics.veon.transformations.SDPServiceFeeDeductionSourceToEventStore.init(SDPServiceFeeDeductionSourceToEventStore.java:57) at com.thinkbiganalytics.veon.AbstractSparkTransformation.doTransform(AbstractSparkTransformation.java:51) at com.thinkbiganalytics.veon.transformations.SDPServiceFeeDeductionSourceToEventStore.main(SDPServiceFeeDeductionSourceToEventStore.java:51) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at

Spark Java scala Fehler

Anzahl der Antworten 3 Antworten
Hey ich will Funke in meinem Java-Projekt : Ich schon hinzufügen dieser Abhängigkeit in meiner pom-Datei : <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>1.4.0</version> </dependency> Ich habe versucht, diesen code : import org.apache.spark.api.java.JavaSparkContext; public class sparkSQL { public void query()

Warum ist Spark saveAsTable mit bucketBy die Schaffung von tausenden von Dateien?

Anzahl der Antworten 3 Antworten
Kontext Funke 2.0.1, Funke-Abgabe im cluster-Modus. Ich lese ein Parkett-Datei aus dem hdfs: val spark = SparkSession.builder .appName("myApp") .config("hive.metastore.uris", "thrift://XXX.XXX.net:9083") .config("spark.sql.sources.bucketing.enabled", true) .enableHiveSupport() .getOrCreate() val df = spark.read .format("parquet") .load("hdfs://XXX.XX.X.XX/myParquetFile") Ich bin speichern die df um eine

Berechnen Sie die Zeit zwischen zwei Datumsangaben in pyspark

Anzahl der Antworten 2 Antworten
Hoffe das ist ziemlich elementar. Ich habe eine Spark-dataframe mit einer Date-Spalte möchte ich noch hinzufügen einer neuen Spalte mit der Anzahl der Tage seit diesem Datum. Google-fu versagt mir. Hier ist, was ich versucht habe: from

java.lang.ClassNotFoundException: org.apache.spark.sql.Dataset

Anzahl der Antworten 3 Antworten
Wenn Sie eine Scala-Datei, die verwendet die Spark Dataset geben, bekomme ich folgenden stack trace: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/Dataset at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at java.lang.Class.getMethod0(Class.java:3018) at java.lang.Class.getMethod(Class.java:1784) at com.intellij.rt.execution.application.AppMain.main(AppMain.java:125) Caused by: java.lang.ClassNotFoundException:

Funke (scala) dataframes - Überprüfen, ob strings in der Spalte enthalten alle Elemente aus einem set

Anzahl der Antworten 3 Antworten
Ich bin ziemlich neu im scala und Funken, und ich habe versucht, eine Lösung zu finden für dieses Problem den ganzen Tag - es tut meinem Kopf. Ich habe versucht 20 verschiedene Variationen des folgenden code und

Spark Streaming StreamingContext Fehler

Anzahl der Antworten 2 Antworten
Hallo ich bin gestartet spark streaming lernen, aber ich kann nicht führen Sie eine einfache Anwendung Mein code ist hier import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ val conf = new SparkConf().setMaster("spark://beyhan:7077").setAppName("NetworkWordCount") val ssc = new StreamingContext(conf, Seconds(1))

Wie man mehrere Zeilen json-Datei In Einzelne Datensatz als rdd

Anzahl der Antworten 3 Antworten
rdd=sc.textFile(json or xml) rdd.collect() [u'{', u' "glossary": {', u' "title": "example glossary",', u'\t\t"GlossDiv": {', u' "title": "S",', u'\t\t\t"GlossList": {', u' "GlossEntry": {', u' "ID": "SGML",', u'\t\t\t\t\t"SortAs": "SGML",', u'\t\t\t\t\t"GlossTerm": "Standard Generalized Markup Language",', u'\t\t\t\t\t"Acronym": "SGML",', u'\t\t\t\t\t"Abbrev": "ISO 8879:1986",',

Nicht zu vergleichen zwei Daten in Spark SQL-Abfrage

Anzahl der Antworten 1 Antworten
Mit PySpark und JDBC-Treiber für MySQL bin ich nicht in der Lage, Abfragen für Spalten vom Typ date. java.lang.Classcastexception-Fehler geworfen wird. sqlContext = SQLContext(sc) df = sqlContext.load(source="jdbc", url=url, dbtable="reports") sqlContext.registerDataFrameAsTable(df, "reports") df.printSchema() # root # |-- id:

Fehler: nicht gefunden: Wert, lit/Wann - spark-scala

Anzahl der Antworten 1 Antworten
Ich bin mit scala, spark, IntelliJ und maven. Habe ich folgenden code : val joinCondition = when($"exp.fnal_expr_dt" >= $"exp.nonfnal_expr_dt", $"exp.manr_cd"===$"score.MANR_CD") val score = exprDF.as("exp").join(scoreDF.as("score"),joinCondition,"inner") und val score= list.withColumn("scr", lit(0)) Aber wenn Sie versuchen zu bauen mit maven,

Konvertieren RDD vom Typ " org.apache.spark.rdd.RDD[((String, String), Double)]` to `org.apache.spark.rdd.RDD[((String) List[Double])]`

Anzahl der Antworten 2 Antworten
Habe ich ein RDD : val rdd: org.apache.spark.rdd.RDD[((String, String), Double)] = sc.parallelize(List( (("a", "b"), 1.0), (("a", "c"), 3.0), (("a", "d"), 2.0) )) Ich bin versucht zu konvertieren, das RDD vom Typ org.apache.spark.rdd.RDD[((String, String), Double)] zu org.apache.spark.rdd.RDD[((String), List[Double])]

Holen Sie sich die Größe/Länge eines array-Spalte

Anzahl der Antworten 1 Antworten
Ich bin neu in der Scala-Programmierung und hier ist meine Frage: Wie zählen Sie die Anzahl der string für jede Zeile? Mein Dataframe besteht aus einer einzelnen Spalte des Array[String] Typ. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>] InformationsquelleAutor

nicht beheben können, xyz gegeben Eingabespalten Fehler beim erstellen von Spark-dataset

Anzahl der Antworten 2 Antworten
Ich versuche, etwas zu tun, sehr einfach, aber ich kann nicht glauben, es funktioniert nicht... wahrscheinlich bin ich etwas fehlt ganz offensichtlich. Bitte helfen Sie. Ziel: Lesen Sie den Iris-Datensatz (csv-Datei keine Kopfzeile) in ein Dataset Code:

Top Werte aus einer spark-dataframe Spalte in Scala

Anzahl der Antworten 3 Antworten
val df = sc.parallelize(Seq((201601, a), (201602, b), (201603, c), (201604, c), (201607, c), (201604, c), (201608, c), (201609, c), (201605, b))).toDF("col1", "col2") Ich will top-3-Werte col1. Kann jeder bitte lassen Sie mich wissen, die bessere Möglichkeit, dies

PySpark, Konvertieren Sie die Liste der Zeilen, um Daten-Frames

Anzahl der Antworten 1 Antworten
Das problem das ich eigentlich zu lösen versucht ist, die ersten/letzten N Zeilen einer PySpark dataframe und das Ergebnis ein dataframe. Konkret, ich möchte in der Lage sein, so etwas zu tun: my_df.head(20).toPandas() Jedoch, weil head() gibt

Sortby in Javardd

Anzahl der Antworten 3 Antworten
Ich bin usinig spark mit java. Und ich möchte sozusagen meine Karte. In der Tat, ich habe ich javaRDD wie diese : JavaPairRDD<String, Integer> rebondCountURL = session_rebond_2.mapToPair(new PairFunction<Tuple2<String, String>, String, String>() { @Override public Tuple2<String, String> call(Tuple2<String,

argmax Zündkerzen DataFrames: so rufen Sie die Zeile mit dem maximalen Wert

Anzahl der Antworten 2 Antworten
Gegeben ein Funken DataFrame df möchte ich den maximalen Wert in einem bestimmten numerischen Spalte 'values' ist, und die Zeile(N), wo dieser Wert erreicht wurde. Ich kann natürlich dabei: # it doesn't matter if I use scala

Einfachste Möglichkeit zur Installation von Python-Abhängigkeiten auf Spark Testamentsvollstrecker Knoten?

Anzahl der Antworten 1 Antworten
Ich verstehe, dass Sie können senden Sie einzelne Dateien als Abhängigkeiten mit Spark Python-Programme. Aber was ist mit vollwertigen Bibliotheken (z.B. numpy)? Tut Funke eine Möglichkeit haben, verwenden Sie eine bereitgestellte Paket-manager (z.B. pip) zum installieren von

So Lesen Sie eine Datei mit fester Länge in Spark mit DataFrame API und SCALA

Anzahl der Antworten 2 Antworten
Ich habe eine Datei mit fester Länge ( siehe nachstehendes Beispiel) und ich möchte diese Datei zu Lesen, mithilfe von DataFrames API-Zündkerzen mit SCALA(nicht python oder java). Mit DataFrames-API, es gibt Möglichkeiten zum Lesen von Text -,

So aktualisieren Sie ein RDD?

Anzahl der Antworten 2 Antworten
Entwickeln wir in der Spark-Rahmen, worin bewegen wir uns historischen Daten, die in der RDD-sets. Grundsätzlich RDD ist unveränderlich, nur-lese-dataset, auf dem wir Aktionen. Auf dieser Basis haben wir verschoben historischen Daten in RDD und wir machen

Filter-Stopp-Wörter in Spark

Anzahl der Antworten 2 Antworten
Ich bin versucht heraus zu filtern, die stop-Wörter aus einem RDD von Wörtern aus einer .txt Datei. //Creating the RDDs val input = sc.textFile("../book.txt") val stopWordsInput = sc.textFile("../stopwords.csv") val stopWords = stopWordsInput.map(x => x.split(",")) //Create a tuple