Tag: spark-streaming

Spark Streaming ist eine Erweiterung der core-Apache-Spark-API, die es ermöglicht, high-throughput -, fault-tolerant-stream-Verarbeitung von live-Daten-streams. Von der version 1.3.0 unterstützt es genau-wenn die Verarbeitung der Semantik, auch angesichts der Ausfälle.

Java Spark Streaming JSON-parsing

Anzahl der Antworten 2 Antworten
Habe ich angefangen zu lernen, spark-streaming von Spark-Motor und sehr neu in data analytics und Funken. Ich will einfach nur, um zu erstellen ein kleines IOT-Anwendung in die ich möchte, um eine Prognose über die zukünftigen Daten.

Garn : den Automatischen Ausgleich des filecache & usercache

Anzahl der Antworten 2 Antworten
Läuft ein spark-streaming-Arbeit mit Garn als Ressourcen-manager, zu bemerken, dass diese beiden Verzeichnisse sind immer gefüllt, bis auf die Daten der Knoten und wir laufen aus dem Raum, wenn wir laufen nur für paar min ist /tmp/hadoop/data/nm-local-dir/filecache

Lesen Avro Nachrichten von Kafka mit Spark 2.0.2 (strukturierte streaming)

Anzahl der Antworten 4 Antworten
Ich habe eine spark-2.0-Anwendung, die Nachrichten liest, von kafka mit spark streaming (mit spark-streaming-kafka-0-10_2.11). Strukturierte streaming-sieht wirklich cool aus also ich wollte versuchen, und migrieren Sie den code, aber ich kann nicht herausfinden, wie es zu benutzen.

Spark Streaming StreamingContext Fehler

Anzahl der Antworten 2 Antworten
Hallo ich bin gestartet spark streaming lernen, aber ich kann nicht führen Sie eine einfache Anwendung Mein code ist hier import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ val conf = new SparkConf().setMaster("spark://beyhan:7077").setAppName("NetworkWordCount") val ssc = new StreamingContext(conf, Seconds(1))

So aktualisieren Sie ein RDD?

Anzahl der Antworten 2 Antworten
Entwickeln wir in der Spark-Rahmen, worin bewegen wir uns historischen Daten, die in der RDD-sets. Grundsätzlich RDD ist unveränderlich, nur-lese-dataset, auf dem wir Aktionen. Auf dieser Basis haben wir verschoben historischen Daten in RDD und wir machen

wordCounts.dstream().saveAsTextFiles("LOCAL FILE SYSTEM PATH", "txt"); nicht in Datei schreiben

Anzahl der Antworten 3 Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

So Lesen Sie Datensätze aus Kafka-Thema von Anfang an in der Spark-Streaming?

Anzahl der Antworten 2 Antworten
Ich versuche zu Lesen, Datensätze aus einer Kafka-Thema der Verwendung von Spark-Streaming. Dies ist mein code: object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer],

wie speichern von Daten in HDFS mit spark?

Anzahl der Antworten 1 Antworten
Möchte ich mit Spark-Streaming-abrufen von Daten von Kafka. Nun, ich möchte meine Daten in eine remote-HDFS. Ich weiß, dass ich die Funktion saveAsText. Allerdings weiß ich nicht genau, wie man den Pfad angeben. Ist das richtig, wenn

Wie zu lösen "Exception in thread "main" org.apache.spark.SparkException: Applikation beendet mit dem status fehlgeschlagen"?

Anzahl der Antworten 1 Antworten
cancerdetector@cluster-cancerdetector-m:~/SparkBWA/build$ spark-submit --class SparkBWA --master yarn-cluster --deploy-mode cluster --conf spark.yarn.jar=hdfs:///user/spark/spark-assembly.jar --driver-memory 1500m --executor-memory 1500m --executor-cores 1 --archives ./bwa.zip --verbose ./SparkBWA.jar -algorithm mem -reads paired -index /Data/HumanBase/hg38 -partitions 32 ERR000589_1.filt.fastq ERR000589_2.filt.fastqhb Output_ERR000589 Using properties file: /usr/lib/spark/conf/spark-defaults.conf Adding default

Funke-Shell nicht in der Lage zu finden, die Hbase-Klasse

Anzahl der Antworten 2 Antworten
Ich versuche zum laden von Daten aus HDFS auf eine Hbase-Tabelle mithilfe von Spark Streaming. Ich bin plazieren von Daten in HDFS-Verzeichnis ausführen Zeit-und Lesen Sie es mit der textFileStream Funktion. Da Funken nicht über die hbase-jars

com.fasterxml.jackson.databind-Methode.JsonMappingException: Jackson-version ist zu alt 2.5.3

Anzahl der Antworten 2 Antworten
Mein OS ist OS X 10.11.6. Ich bin mit Spark 2.0, Zeppelin 0.6, Scala 2.11 Wenn ich diesen code ausführen im Zeppelin bekomme ich eine Ausnahme von Jackson. Wenn ich diesen code ausführen spark-shell - keine Ausnahme.

Hive Erstellen Multi-kleine Dateien, die für die einzelnen insert-HDFS

Anzahl der Antworten 3 Antworten
folgenden ist bereits erreicht Kafka Producer-Daten von twitter mit Spark Streaming. Kafka Verbraucher Einlesen von Daten in Externen Hive-Tabelle(HDFS). während dies gut funktioniert, so weit. es gibt nur ein Problem ich bin vor, während meine app einfügen

Spark Abwärtskompatibilität 1.6 vs 2.0

Anzahl der Antworten 1 Antworten
Bin ich mit spark 1.4 code und nun wollen wir zu bewegen, um spark 2.0, und wenn ich Sie in der Dokumentation unten, es sind nur ein paar features, die sind abwärtskompatibel, bedeutet das, dass ich geändert

Wie verhindere ich, dass ein spark-streaming-job?

Anzahl der Antworten 3 Antworten
Ich habe eine Spark-Streaming-Auftrag ausgeführt wurde, kontinuierlich. Wie verhindere ich, dass der Auftrag ordnungsgemäß? Ich habe gelesen, die üblichen Empfehlungen, dort ein shutdown-hook im job-überwachung und sendet ein SIGTERM an den job. sys.ShutdownHookThread { logger.info("Gracefully stopping Application...")

Wie konvertieren von Spark Streaming-Daten in die Funke DataFrame

Anzahl der Antworten 6 Antworten
So weit, wie der Funke noch nicht erstellt der DataFrame für streaming-Daten, aber wenn ich das Tue, Anomalien-Erkennung, es ist bequemer und schneller zu bedienen DataFrame für die Analyse der Daten. Ich habe es getan Teil, aber

spark ssc.textFileStream ist nicht streamining alle Dateien aus dem Verzeichnis

Anzahl der Antworten 6 Antworten
Ich versuche, führen Sie folgenden code mit eclipse (mit maven conf) mit 2 Arbeiter und haben jeweils 2 Kern oder auch versucht mit der Funke zu übermitteln. public class StreamingWorkCount implements Serializable { public static void main(String

Spark Streaming + Kafka: SparkException: nicht finden Konnte, leader-offset Gesetzt

Anzahl der Antworten 5 Antworten
Ich versuche, setup-Spark-Streaming, um Nachrichten von Kafka Warteschlange. Ich bin immer der folgende Fehler: py4j.protocol.Py4JJavaError: An error occurred while calling o30.createDirectStream. : org.apache.spark.SparkException: java.nio.channels.ClosedChannelException org.apache.spark.SparkException: Couldn't find leader offsets for Set([test-topic,0]) at org.apache.spark.streaming.kafka.KafkaCluster$$anonfun$checkErrors$1.apply(KafkaCluster.scala:366) at org.apache.spark.streaming.kafka.KafkaCluster$$anonfun$checkErrors$1.apply(KafkaCluster.scala:366) at scala.util.Either.fold(Either.scala:97)

Kann nicht zum aufrufen von Methoden auf einen gestoppt SparkContext

Anzahl der Antworten 2 Antworten
Wenn ich den folgenden test ausführen, wirft Sie "kann Nicht zum aufrufen von Methoden auf einen gestoppt SparkContext". Das mögliche problem ist, dass ich TestSuiteBase - und Streaming-Spark-Rahmen. In der Zeile val gridEvalsRDD = ssc.sparkContext.parallelize(gridEvals) ich SparkContext

was ist der genaue Unterschied zwischen Spark Transformation in DStream und Karte.?

Anzahl der Antworten 5 Antworten
Ich versuche zu verstehen, transformieren auf Spark DStream in Spark Streaming. Ich wusste, dass die Transformation viel Superlativ im Vergleich zu map, aber Kann jemand geben Sie mir einige Echtzeit-Beispiel oder klares Beispiel, das unterscheiden kann, transformieren

Spark Streaming - Lesen und schreiben auf Thema Kafka

Anzahl der Antworten 7 Antworten
Bin ich mit Spark Streaming zum verarbeiten von Daten zwischen zwei Kafka Warteschlangen, aber ich kann nicht scheinen zu finden ein guter Weg, um zu schreiben, auf Kafka aus Funken. Ich habe dies ausprobiert: input.foreachRDD(rdd => rdd.foreachPartition(partition

Wie kann ich eine broadcast-Variablen in spark streaming?

Anzahl der Antworten 4 Antworten
Habe ich, glaube ich, ein relativ üblicher Fall für spark streaming: Ich habe einen Strom von Objekten, die würde ich gerne filter basierend auf einem Referenz-Daten Zunächst dachte ich, dies wäre eine sehr einfache Sache zu erreichen,

Macht eine Verknüpfung von co-partitioniert RDDs verursachen einen shuffle in Apache Spark?

Anzahl der Antworten 1 Antworten
Wird rdd1.join(rdd2) Ursache shuffle passieren, wenn rdd1 und rdd2 haben die gleichen Partitionierer? Können Sie umschreiben diese Frage, um deutlicher zu sein? Nur weil RDDs Partitionen auf derselben Maschine bedeutet nicht, dass alle Tasten immer auf der

Abfragen mit streaming-Quellen müssen mit ausgeführt werden writeStream.start();

Anzahl der Antworten 4 Antworten
Ich versuche, die Botschaften zu Lesen von kafka (version 10) Zündkerzen und versuchen, es zu drucken. import spark.implicits._ val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.master", "local") .getOrCreate() val ds1 = spark.readStream.format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topicA") .load() ds1.collect.foreach(println)

Drucken RDD-out auf die Konsole im spark streaming

Anzahl der Antworten 2 Antworten
Schreibe ich ein spark-streaming-Anwendung zum empfangen von Daten von Kafka durch die Verwendung KafkaUtils, und was ich will zu tun ist, drucken Sie Daten erhielt ich von Kafka. Hier ist mein code den ich verwenden spark-submit ausführen

Wie parse Json formatiert Kafka Nachricht in spark streaming

Anzahl der Antworten 3 Antworten
Habe ich JSON-Nachrichten auf Kafka wie diese: {"id_post":"p1", "message":"blablabla"} und ich will Parsen der Nachricht und drucken (oder verwenden Sie für die weitere Berechnung) die message element. Mit folgendem code Drucke ich die json - val kafkaStream

Spark-Treiber, Speicher-und Executor-Speicher

Anzahl der Antworten 2 Antworten
Ich bin Anfänger Funken, und ich bin mit meiner Bewerbung zu Lesen 14KB Daten aus text eingereicht, einige der Transformationen und Aktionen(sammeln, collectAsMap) und speichern Sie die Daten in die Datenbank Mir läuft es lokal in meinem

So speichern Sie die Ausgabe von spark sql-Abfrage in eine text-Datei

Anzahl der Antworten 3 Antworten
Ich bin das schreiben eines einfachen Verbraucher-Programm mit spark streaming. Mein code speichern Sie einige der Daten in der Datei, aber nicht ALLE Daten. Kann mir jemand helfen wie dieses Problem zu beheben. Ich bin nicht sicher,

wie lösche ich Dateien in hdfs-Verzeichnis nach dem Lesen mit scala

Anzahl der Antworten 2 Antworten
Ich fileStream zum Lesen von Dateien im hdfs-Verzeichnis von Spark (streaming-Kontext). Bei meiner Funke heruntergefahren und beginnt nach einiger Zeit, die ich Lesen möchte, werden die neuen Dateien in das Verzeichnis. Ich will nicht Lesen, die alten

IBM MQ versus Apache Kafka

Anzahl der Antworten 4 Antworten
Ich bin der Gestaltung einer neuen Architektur, big data, wo mein client hat als IBM MQ broker , ich weiß, dass wir für die Arbeit mit Kafka in big-data-Architekturen , Weil ich nehme an das ist schneller

Geben wie die abhängigen jars zu entfachen, reichen in den cluster-Modus

Anzahl der Antworten 2 Antworten
Mir läuft spark mit cluster-Modus für die Bereitstellung . Unten ist der Befehl JARS=$JARS_HOME/amqp-client-3.5.3.jar,$JARS_HOME/nscala-time_2.10-2.0.0.jar,\ $JARS_HOME/rabbitmq-0.1.0-RELEASE.jar,\ $JARS_HOME/kafka_2.10-0.8.2.1.jar,$JARS_HOME/kafka-clients-0.8.2.1.jar,\ $JARS_HOME/spark-streaming-kafka_2.10-1.4.1.jar,\ $JARS_HOME/zkclient-0.3.jar,$JARS_HOME/protobuf-java-2.4.0a.jar dse spark-submit -v --conf "spark.serializer=org.apache.spark.serializer.KryoSerializer" \ --executor-memory 512M \ --total-executor-cores 3 \ --deploy-mode "cluster" \ --master spark://$MASTER:7077 \ --jars=$JARS

Der Wert von “Funken.Garn.executor.memoryOverhead" - Einstellung?

Anzahl der Antworten 1 Antworten
Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09

Kafka Verbraucher in Spark Streaming

Anzahl der Antworten 5 Antworten
Beim schreiben einer Spark-Streaming-job, der verbraucht Nachrichten von Kafka. Hier ist, was ich habe, so weit: 1) Gestartet Tierpfleger. 2) Begann Kafka-Server. 3) Schickte ein paar Nachrichten an den server. Ich kann Sie sehen, wenn ich führen

Fehler: Konnte nicht gefunden oder geladen werden Hauptklasse org.test.spark.streamExample

Anzahl der Antworten 9 Antworten
Ich versuche zu ausführen Beispiel basic sparkstreaming Beispiel in Scala IDE, aber ich erhalte folgende Fehlermeldung: Error: Could not find or load main class org.test.spark.streamExample. Könnte jemand helfen mich zu Sortieren, bitte. Möglich, Duplikat der Scala Projekt

Wie kann ich das machen (Spark1.6) saveAsTextFile an vorhandene Datei Anhängen?

Anzahl der Antworten 3 Antworten
In SparkSQL,ich benutze DF.Schreibe.Modus(SaveMode.Anhängen).json(xxxx),aber mit dieser Methode erhalten Sie diese Dateien wie den Dateinamen ist zu Komplex und zufällig ist,kann ich nicht verwenden, die api zu bekommen.Also ich will saveAstextfile ,denn mit dem Namen ist nicht Komplex

festlegen und abrufen von statischen Variablen von spark?

Anzahl der Antworten 2 Antworten
Habe ich eine Klasse wie diese: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() {

Erstellen Sie mehrere SparkContexts in einer Konsole

Anzahl der Antworten 4 Antworten
Will ich mehr als einen SparkContext in einer Konsole. Nach einem Beitrag in mailing-Liste, muss ich SparkConf.set ("Funke.- Treiber.allowMultipleContexts' , true), scheint es vernünftig, aber nicht arbeiten kann. Kann jemand Erfahrung in diesem? vielen Dank: Balg ist,

Sie brauchen, um zu bauen Funken, bevor Sie dieses Programm ausführen Fehler beim ausführen von/bin / pyspark

Anzahl der Antworten 3 Antworten
Ich bin erste Schritte mit Spark. Bin ich immer ein Problem beim starten Funken. Ich heruntergeladen Funke offiziellen website, ich bin versucht, quickstart aus diesem https://spark.apache.org/docs/0.9.0/quick-start.html Habe ich heruntergeladen, setup sparkhome., und wenn ich versuchte, läuft ./pyspark

Spark Scala Get Data Back von rdd.foreachPartition

Anzahl der Antworten 1 Antworten
Ich habe einige code wie dieser: println("\nBEGIN Last Revs Class: "+ distinctFileGidsRDD.getClass) val lastRevs = distinctFileGidsRDD. foreachPartition(iter => { SetupJDBC(jdbcDriver, jdbcUrl, jdbcUser, jdbcPassword) while(iter.hasNext) { val item = iter.next() //println(item(0)) println("String: "+item(0).toString()) val jsonStr = DB.readOnly {

Für jeden RDD in ein DStream wie konvertiere ich diese in ein array oder einige andere typische Java-Datentyp?

Anzahl der Antworten 2 Antworten
Ich würde gerne konvertieren DStream in ein array, Liste, etc. so kann ich dann übersetzen zu json und servieren es auf einem endpoint. Ich bin mit apache spark, Einspritzen von twitter-Daten. Wie kann ich preform dieser Vorgang

Wie Sie angeben, welche java-version zu verwenden spark-submit-Befehl?

Anzahl der Antworten 4 Antworten
Ich für eine spark-streaming-Anwendung auf ein Garn-cluster auf einem remote-server. Die Standard-java-version 1.7 aber ich will 1.8 für meine Anwendung, die ist auch dort in den server, aber nicht der Standard. Gibt es eine Möglichkeit zu geben,

SQL über Spark Streaming

Anzahl der Antworten 2 Antworten
Dies ist der code zum ausführen einfacher SQL-Abfragen über Spark Streaming. import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.sql.SQLContext import org.apache.spark.streaming.Duration object StreamingSQL { case class Persons(name: String, age: Int) def main(args: Array[String]) { val sparkConf = new

Funke: die Verarbeitung mehrerer kafka-Thema parallel

Anzahl der Antworten 2 Antworten
Ich bin mit spark 1.5.2. Muss ich laufen, spark streaming job bei kafka als streaming-Quelle. Ich brauche zum Lesen von mehreren Themen innerhalb kafka und der Prozess zu jedem Thema anders. Ist es eine gute Idee, dies

So speichern Sie aktuelle offset, der Spark verbraucht, ZK oder Franz Kafka und Lesen kann, wieder nach dem Neustart

Anzahl der Antworten 4 Antworten
Ich bin mit Kafka 0.8.2 zum empfangen von Daten von AdExchange dann benutze ich Spark Streaming 1.4.1 zum speichern von Daten auf MongoDB. Mein problem ist, wenn ich neu starten meine Spark Streaming Job zum Beispiel wie

Was ist die Bedeutung von DStream.foreachRDD Funktion?

Anzahl der Antworten 1 Antworten
Spark streaming, jedes batch-Intervall der Daten erzeugen immer eine und nur eine RDD, warum verwenden wir foreachRDD() mit der foreach-RDD? RDD ist nur man braucht sich nicht foreach. In meinen Tests, ich sehe nie RDD mehr als

Zustand in der map-Funktion

Anzahl der Antworten 2 Antworten
Gibt es etwas in Scala wie, condition ? first_expression : second_expression; dass ich verwenden können, innerhalb der map-Funktion in scala? Ich möchte in der Lage sein, etwas zu schreiben wie: val statuses = tweets.map(status => status.isTruncate? //do

Wie beide Scala und Python in einer gleichen Funke Projekt?

Anzahl der Antworten 3 Antworten
Ist das möglich, Rohr Funke RDD zu Python? Da brauche ich eine python-Bibliothek, um einige der Berechnung auf meine Daten, aber meine Haupt-Spark-Projekt basiert auf der Scala. Gibt es eine Möglichkeit, Sie zu mischen beide, oder lassen

Drop Funke dataframe aus dem cache

Anzahl der Antworten 2 Antworten
Bin ich mit Spark 1.3.0 mit python-api. Während der Transformation riesigen dataframes, ich cache viele DFs für eine schnellere Ausführung; df1.cache() df2.cache() Einmal die Verwendung von bestimmten dataframe ist über und wird nicht mehr benötigt, wie kann

Verwenden Sie den Frühling zusammen mit Spark

Anzahl der Antworten 2 Antworten
Entwickle ich ein Spark-Anwendung, und ich bin zum Frühling, wie ein Dependency Injection Framework. Jetzt bin ich stecken mit dem problem, dass die Verarbeitung Teil verwendet die @Autowired-Funktionalität des Frühlings, aber es ist serialisiert und deserialisiert von

Unterschied Verwendet, Engagierte und Max-Heap-Speicher

Anzahl der Antworten 1 Antworten
Ich bin monitoring ein Funke Testamentsvollstrecker JVM von einer OutOfMemoryException. Ich Jconsole verwendet, um eine Verbindung zum Testamentsvollstrecker JVM. Im folgenden ist der snapshot von Jconsole: In das Bild Speicher ist dargestellt als 3,8 G und der

java.lang.NoClassDefFoundError: org/apache/spark/streaming/twitter/TwitterUtils$, während der Ausführung TwitterPopularTags

Anzahl der Antworten 5 Antworten
Ich bin ein Anfänger in der Spark streaming und Scala. Für ein Projekt Bedingung, die ich versuchte zu laufen TwitterPopularTags Beispiel in github. Als SBT-Versammlung war nicht für mich arbeiten, und ich war nicht vertraut mit SBT-ich