Tag: spark-streaming

Spark Streaming ist eine Erweiterung der core-Apache-Spark-API, die es ermöglicht, high-throughput -, fault-tolerant-stream-Verarbeitung von live-Daten-streams. Von der version 1.3.0 unterstützt es genau-wenn die Verarbeitung der Semantik, auch angesichts der Ausfälle.

Java Spark Streaming JSON-parsing

2 Antworten

Habe ich angefangen zu lernen, spark-streaming von Spark-Motor und sehr neu in data analytics und Funken. Ich will einfach nur, um zu erstellen ein kleines IOT-Anwendung in die ich möchte, um eine Prognose über die zukünftigen Daten.

Garn : den Automatischen Ausgleich des filecache & usercache

2 Antworten

Läuft ein spark-streaming-Arbeit mit Garn als Ressourcen-manager, zu bemerken, dass diese beiden Verzeichnisse sind immer gefüllt, bis auf die Daten der Knoten und wir laufen aus dem Raum, wenn wir laufen nur für paar min ist /tmp/hadoop/data/nm-local-dir/filecache

hadoop spark-streaming yarn

Lesen Avro Nachrichten von Kafka mit Spark 2.0.2 (strukturierte streaming)

4 Antworten

Ich habe eine spark-2.0-Anwendung, die Nachrichten liest, von kafka mit spark streaming (mit spark-streaming-kafka-0-10_2.11). Strukturierte streaming-sieht wirklich cool aus also ich wollte versuchen, und migrieren Sie den code, aber ich kann nicht herausfinden, wie es zu benutzen.

apache-kafka apache-spark-2.0 avro scala spark-streaming

Spark Streaming StreamingContext Fehler

2 Antworten

Hallo ich bin gestartet spark streaming lernen, aber ich kann nicht führen Sie eine einfache Anwendung Mein code ist hier import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ val conf = new SparkConf().setMaster("spark://beyhan:7077").setAppName("NetworkWordCount") val ssc = new StreamingContext(conf, Seconds(1))

apache-spark scala spark-streaming

So aktualisieren Sie ein RDD?

2 Antworten

Entwickeln wir in der Spark-Rahmen, worin bewegen wir uns historischen Daten, die in der RDD-sets. Grundsätzlich RDD ist unveränderlich, nur-lese-dataset, auf dem wir Aktionen. Auf dieser Basis haben wir verschoben historischen Daten in RDD und wir machen

apache-spark rdd spark-streaming

wordCounts.dstream().saveAsTextFiles("LOCAL FILE SYSTEM PATH", "txt"); nicht in Datei schreiben

3 Antworten

Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

apache-spark hadoop-streaming pyspark spark-streaming streaming

So Lesen Sie Datensätze aus Kafka-Thema von Anfang an in der Spark-Streaming?

2 Antworten

Ich versuche zu Lesen, Datensätze aus einer Kafka-Thema der Verwendung von Spark-Streaming. Dies ist mein code: object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer],

apache-kafka apache-spark scala spark-streaming

wie speichern von Daten in HDFS mit spark?

1 Antworten

Möchte ich mit Spark-Streaming-abrufen von Daten von Kafka. Nun, ich möchte meine Daten in eine remote-HDFS. Ich weiß, dass ich die Funktion saveAsText. Allerdings weiß ich nicht genau, wie man den Pfad angeben. Ist das richtig, wenn

apache-spark hadoop hdfs spark-streaming

Wie zu lösen "Exception in thread "main" org.apache.spark.SparkException: Applikation beendet mit dem status fehlgeschlagen"?

1 Antworten

cancerdetector@cluster-cancerdetector-m:~/SparkBWA/build$ spark-submit --class SparkBWA --master yarn-cluster --deploy-mode cluster --conf spark.yarn.jar=hdfs:///user/spark/spark-assembly.jar --driver-memory 1500m --executor-memory 1500m --executor-cores 1 --archives ./bwa.zip --verbose ./SparkBWA.jar -algorithm mem -reads paired -index /Data/HumanBase/hg38 -partitions 32 ERR000589_1.filt.fastq ERR000589_2.filt.fastqhb Output_ERR000589 Using properties file: /usr/lib/spark/conf/spark-defaults.conf Adding default

apache-spark spark-streaming

Funke-Shell nicht in der Lage zu finden, die Hbase-Klasse

2 Antworten

Ich versuche zum laden von Daten aus HDFS auf eine Hbase-Tabelle mithilfe von Spark Streaming. Ich bin plazieren von Daten in HDFS-Verzeichnis ausführen Zeit-und Lesen Sie es mit der textFileStream Funktion. Da Funken nicht über die hbase-jars

spark-streaming

com.fasterxml.jackson.databind-Methode.JsonMappingException: Jackson-version ist zu alt 2.5.3

2 Antworten

Mein OS ist OS X 10.11.6. Ich bin mit Spark 2.0, Zeppelin 0.6, Scala 2.11 Wenn ich diesen code ausführen im Zeppelin bekomme ich eine Ausnahme von Jackson. Wenn ich diesen code ausführen spark-shell - keine Ausnahme.

apache-spark apache-zeppelin fasterxml maven-2 spark-streaming

Hive Erstellen Multi-kleine Dateien, die für die einzelnen insert-HDFS

3 Antworten

folgenden ist bereits erreicht Kafka Producer-Daten von twitter mit Spark Streaming. Kafka Verbraucher Einlesen von Daten in Externen Hive-Tabelle(HDFS). während dies gut funktioniert, so weit. es gibt nur ein Problem ich bin vor, während meine app einfügen

apache-kafka hadoop hdfs hive spark-streaming

Spark Abwärtskompatibilität 1.6 vs 2.0

1 Antworten

Bin ich mit spark 1.4 code und nun wollen wir zu bewegen, um spark 2.0, und wenn ich Sie in der Dokumentation unten, es sind nur ein paar features, die sind abwärtskompatibel, bedeutet das, dass ich geändert

apache-spark spark-streaming

Wie verhindere ich, dass ein spark-streaming-job?

3 Antworten

Ich habe eine Spark-Streaming-Auftrag ausgeführt wurde, kontinuierlich. Wie verhindere ich, dass der Auftrag ordnungsgemäß? Ich habe gelesen, die üblichen Empfehlungen, dort ein shutdown-hook im job-überwachung und sendet ein SIGTERM an den job. sys.ShutdownHookThread { logger.info("Gracefully stopping Application...")

apache-spark spark-streaming

Wie konvertieren von Spark Streaming-Daten in die Funke DataFrame

6 Antworten

So weit, wie der Funke noch nicht erstellt der DataFrame für streaming-Daten, aber wenn ich das Tue, Anomalien-Erkennung, es ist bequemer und schneller zu bedienen DataFrame für die Analyse der Daten. Ich habe es getan Teil, aber

pyspark python spark-streaming

spark ssc.textFileStream ist nicht streamining alle Dateien aus dem Verzeichnis

6 Antworten

Ich versuche, führen Sie folgenden code mit eclipse (mit maven conf) mit 2 Arbeiter und haben jeweils 2 Kern oder auch versucht mit der Funke zu übermitteln. public class StreamingWorkCount implements Serializable { public static void main(String

apache-spark data-stream filesystems spark-streaming

Spark Streaming + Kafka: SparkException: nicht finden Konnte, leader-offset Gesetzt

5 Antworten

Ich versuche, setup-Spark-Streaming, um Nachrichten von Kafka Warteschlange. Ich bin immer der folgende Fehler: py4j.protocol.Py4JJavaError: An error occurred while calling o30.createDirectStream. : org.apache.spark.SparkException: java.nio.channels.ClosedChannelException org.apache.spark.SparkException: Couldn't find leader offsets for Set([test-topic,0]) at org.apache.spark.streaming.kafka.KafkaCluster$$anonfun$checkErrors$1.apply(KafkaCluster.scala:366) at org.apache.spark.streaming.kafka.KafkaCluster$$anonfun$checkErrors$1.apply(KafkaCluster.scala:366) at scala.util.Either.fold(Either.scala:97)

apache-kafka apache-spark spark-streaming

Kann nicht zum aufrufen von Methoden auf einen gestoppt SparkContext

2 Antworten

Wenn ich den folgenden test ausführen, wirft Sie "kann Nicht zum aufrufen von Methoden auf einen gestoppt SparkContext". Das mögliche problem ist, dass ich TestSuiteBase - und Streaming-Spark-Rahmen. In der Zeile val gridEvalsRDD = ssc.sparkContext.parallelize(gridEvals) ich SparkContext

apache-spark scala spark-streaming

was ist der genaue Unterschied zwischen Spark Transformation in DStream und Karte.?

5 Antworten

Ich versuche zu verstehen, transformieren auf Spark DStream in Spark Streaming. Ich wusste, dass die Transformation viel Superlativ im Vergleich zu map, aber Kann jemand geben Sie mir einige Echtzeit-Beispiel oder klares Beispiel, das unterscheiden kann, transformieren

apache-spark spark-streaming

Spark Streaming - Lesen und schreiben auf Thema Kafka

7 Antworten

Bin ich mit Spark Streaming zum verarbeiten von Daten zwischen zwei Kafka Warteschlangen, aber ich kann nicht scheinen zu finden ein guter Weg, um zu schreiben, auf Kafka aus Funken. Ich habe dies ausprobiert: input.foreachRDD(rdd => rdd.foreachPartition(partition

apache-kafka scala spark-streaming spark-streaming-kafka

Wie kann ich eine broadcast-Variablen in spark streaming?

4 Antworten

Habe ich, glaube ich, ein relativ üblicher Fall für spark streaming: Ich habe einen Strom von Objekten, die würde ich gerne filter basierend auf einem Referenz-Daten Zunächst dachte ich, dies wäre eine sehr einfache Sache zu erreichen,

apache-spark broadcast java scala spark-streaming

Macht eine Verknüpfung von co-partitioniert RDDs verursachen einen shuffle in Apache Spark?

1 Antworten

Wird rdd1.join(rdd2) Ursache shuffle passieren, wenn rdd1 und rdd2 haben die gleichen Partitionierer? Können Sie umschreiben diese Frage, um deutlicher zu sein? Nur weil RDDs Partitionen auf derselben Maschine bedeutet nicht, dass alle Tasten immer auf der

apache-spark rdd spark-streaming

Abfragen mit streaming-Quellen müssen mit ausgeführt werden writeStream.start();

4 Antworten

Ich versuche, die Botschaften zu Lesen von kafka (version 10) Zündkerzen und versuchen, es zu drucken. import spark.implicits._ val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.master", "local") .getOrCreate() val ds1 = spark.readStream.format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topicA") .load() ds1.collect.foreach(println)

scala spark-dataframe spark-streaming

Drucken RDD-out auf die Konsole im spark streaming

2 Antworten

Schreibe ich ein spark-streaming-Anwendung zum empfangen von Daten von Kafka durch die Verwendung KafkaUtils, und was ich will zu tun ist, drucken Sie Daten erhielt ich von Kafka. Hier ist mein code den ich verwenden spark-submit ausführen

apache-spark rdd spark-streaming

Wie parse Json formatiert Kafka Nachricht in spark streaming

3 Antworten

Habe ich JSON-Nachrichten auf Kafka wie diese: {"id_post":"p1", "message":"blablabla"} und ich will Parsen der Nachricht und drucken (oder verwenden Sie für die weitere Berechnung) die message element. Mit folgendem code Drucke ich die json - val kafkaStream

apache-kafka apache-spark json scala spark-streaming

Spark-Treiber, Speicher-und Executor-Speicher

2 Antworten

Ich bin Anfänger Funken, und ich bin mit meiner Bewerbung zu Lesen 14KB Daten aus text eingereicht, einige der Transformationen und Aktionen(sammeln, collectAsMap) und speichern Sie die Daten in die Datenbank Mir läuft es lokal in meinem

apache-spark java spark-streaming spark-submit

So speichern Sie die Ausgabe von spark sql-Abfrage in eine text-Datei

3 Antworten

Ich bin das schreiben eines einfachen Verbraucher-Programm mit spark streaming. Mein code speichern Sie einige der Daten in der Datei, aber nicht ALLE Daten. Kann mir jemand helfen wie dieses Problem zu beheben. Ich bin nicht sicher,

apache-spark apache-spark-sql save spark-streaming

wie lösche ich Dateien in hdfs-Verzeichnis nach dem Lesen mit scala

2 Antworten

Ich fileStream zum Lesen von Dateien im hdfs-Verzeichnis von Spark (streaming-Kontext). Bei meiner Funke heruntergefahren und beginnt nach einiger Zeit, die ich Lesen möchte, werden die neuen Dateien in das Verzeichnis. Ich will nicht Lesen, die alten

apache-spark hadoop scala spark-streaming

IBM MQ versus Apache Kafka

4 Antworten

Ich bin der Gestaltung einer neuen Architektur, big data, wo mein client hat als IBM MQ broker , ich weiß, dass wir für die Arbeit mit Kafka in big-data-Architekturen , Weil ich nehme an das ist schneller

apache-kafka apache-storm ibm-mq spark-streaming

Geben wie die abhängigen jars zu entfachen, reichen in den cluster-Modus

2 Antworten

Mir läuft spark mit cluster-Modus für die Bereitstellung . Unten ist der Befehl JARS=$JARS_HOME/amqp-client-3.5.3.jar,$JARS_HOME/nscala-time_2.10-2.0.0.jar,\ $JARS_HOME/rabbitmq-0.1.0-RELEASE.jar,\ $JARS_HOME/kafka_2.10-0.8.2.1.jar,$JARS_HOME/kafka-clients-0.8.2.1.jar,\ $JARS_HOME/spark-streaming-kafka_2.10-1.4.1.jar,\ $JARS_HOME/zkclient-0.3.jar,$JARS_HOME/protobuf-java-2.4.0a.jar dse spark-submit -v --conf "spark.serializer=org.apache.spark.serializer.KryoSerializer" \ --executor-memory 512M \ --total-executor-cores 3 \ --deploy-mode "cluster" \ --master spark://$MASTER:7077 \ --jars=$JARS

apache-spark spark-streaming

Der Wert von “Funken.Garn.executor.memoryOverhead" - Einstellung?

1 Antworten

Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09

apache-spark apache-spark-mllib apache-spark-sql spark-streaming

Kafka Verbraucher in Spark Streaming

5 Antworten

Beim schreiben einer Spark-Streaming-job, der verbraucht Nachrichten von Kafka. Hier ist, was ich habe, so weit: 1) Gestartet Tierpfleger. 2) Begann Kafka-Server. 3) Schickte ein paar Nachrichten an den server. Ich kann Sie sehen, wenn ich führen

apache-kafka apache-spark apache-zookeeper java spark-streaming

Fehler: Konnte nicht gefunden oder geladen werden Hauptklasse org.test.spark.streamExample

9 Antworten

Ich versuche zu ausführen Beispiel basic sparkstreaming Beispiel in Scala IDE, aber ich erhalte folgende Fehlermeldung: Error: Could not find or load main class org.test.spark.streamExample. Könnte jemand helfen mich zu Sortieren, bitte. Möglich, Duplikat der Scala Projekt

scala-ide spark-streaming

Wie kann ich das machen (Spark1.6) saveAsTextFile an vorhandene Datei Anhängen?

3 Antworten

In SparkSQL,ich benutze DF.Schreibe.Modus(SaveMode.Anhängen).json(xxxx),aber mit dieser Methode erhalten Sie diese Dateien wie den Dateinamen ist zu Komplex und zufällig ist,kann ich nicht verwenden, die api zu bekommen.Also ich will saveAstextfile ,denn mit dem Namen ist nicht Komplex

apache-spark apache-spark-sql spark-dataframe spark-streaming

festlegen und abrufen von statischen Variablen von spark?

2 Antworten

Habe ich eine Klasse wie diese: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() {

apache-spark java spark-streaming

Erstellen Sie mehrere SparkContexts in einer Konsole

4 Antworten

Will ich mehr als einen SparkContext in einer Konsole. Nach einem Beitrag in mailing-Liste, muss ich SparkConf.set ("Funke.- Treiber.allowMultipleContexts' , true), scheint es vernünftig, aber nicht arbeiten kann. Kann jemand Erfahrung in diesem? vielen Dank: Balg ist,

apache-spark spark-streaming

Sie brauchen, um zu bauen Funken, bevor Sie dieses Programm ausführen Fehler beim ausführen von/bin / pyspark

3 Antworten

Ich bin erste Schritte mit Spark. Bin ich immer ein Problem beim starten Funken. Ich heruntergeladen Funke offiziellen website, ich bin versucht, quickstart aus diesem https://spark.apache.org/docs/0.9.0/quick-start.html Habe ich heruntergeladen, setup sparkhome., und wenn ich versuchte, läuft ./pyspark

apache-spark apache-spark-sql pyspark spark-streaming spark-view-engine

Spark Scala Get Data Back von rdd.foreachPartition

1 Antworten

Ich habe einige code wie dieser: println("\nBEGIN Last Revs Class: "+ distinctFileGidsRDD.getClass) val lastRevs = distinctFileGidsRDD. foreachPartition(iter => { SetupJDBC(jdbcDriver, jdbcUrl, jdbcUser, jdbcPassword) while(iter.hasNext) { val item = iter.next() //println(item(0)) println("String: "+item(0).toString()) val jsonStr = DB.readOnly {

apache-spark scala scalikejdbc spark-streaming

Für jeden RDD in ein DStream wie konvertiere ich diese in ein array oder einige andere typische Java-Datentyp?

2 Antworten

Ich würde gerne konvertieren DStream in ein array, Liste, etc. so kann ich dann übersetzen zu json und servieren es auf einem endpoint. Ich bin mit apache spark, Einspritzen von twitter-Daten. Wie kann ich preform dieser Vorgang

apache-spark dstream scala spark-streaming

Wie Sie angeben, welche java-version zu verwenden spark-submit-Befehl?

4 Antworten

Ich für eine spark-streaming-Anwendung auf ein Garn-cluster auf einem remote-server. Die Standard-java-version 1.7 aber ich will 1.8 für meine Anwendung, die ist auch dort in den server, aber nicht der Standard. Gibt es eine Möglichkeit zu geben,

java spark-streaming yarn

SQL über Spark Streaming

2 Antworten

Dies ist der code zum ausführen einfacher SQL-Abfragen über Spark Streaming. import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.sql.SQLContext import org.apache.spark.streaming.Duration object StreamingSQL { case class Persons(name: String, age: Int) def main(args: Array[String]) { val sparkConf = new

apache-spark spark-streaming

Funke: die Verarbeitung mehrerer kafka-Thema parallel

2 Antworten

Ich bin mit spark 1.5.2. Muss ich laufen, spark streaming job bei kafka als streaming-Quelle. Ich brauche zum Lesen von mehreren Themen innerhalb kafka und der Prozess zu jedem Thema anders. Ist es eine gute Idee, dies

apache-kafka apache-spark spark-streaming

So speichern Sie aktuelle offset, der Spark verbraucht, ZK oder Franz Kafka und Lesen kann, wieder nach dem Neustart

4 Antworten

Ich bin mit Kafka 0.8.2 zum empfangen von Daten von AdExchange dann benutze ich Spark Streaming 1.4.1 zum speichern von Daten auf MongoDB. Mein problem ist, wenn ich neu starten meine Spark Streaming Job zum Beispiel wie

apache-kafka apache-spark kafka-consumer-api spark-streaming

Was ist die Bedeutung von DStream.foreachRDD Funktion?

1 Antworten

Spark streaming, jedes batch-Intervall der Daten erzeugen immer eine und nur eine RDD, warum verwenden wir foreachRDD() mit der foreach-RDD? RDD ist nur man braucht sich nicht foreach. In meinen Tests, ich sehe nie RDD mehr als

apache-spark spark-streaming

Zustand in der map-Funktion

2 Antworten

Gibt es etwas in Scala wie, condition ? first_expression : second_expression; dass ich verwenden können, innerhalb der map-Funktion in scala? Ich möchte in der Lage sein, etwas zu schreiben wie: val statuses = tweets.map(status => status.isTruncate? //do

apache-spark map-function scala spark-streaming

Wie beide Scala und Python in einer gleichen Funke Projekt?

3 Antworten

Ist das möglich, Rohr Funke RDD zu Python? Da brauche ich eine python-Bibliothek, um einige der Berechnung auf meine Daten, aber meine Haupt-Spark-Projekt basiert auf der Scala. Gibt es eine Möglichkeit, Sie zu mischen beide, oder lassen

apache-spark pyspark python scala spark-streaming

Drop Funke dataframe aus dem cache

2 Antworten

Bin ich mit Spark 1.3.0 mit python-api. Während der Transformation riesigen dataframes, ich cache viele DFs für eine schnellere Ausführung; df1.cache() df2.cache() Einmal die Verwendung von bestimmten dataframe ist über und wird nicht mehr benötigt, wie kann

apache-spark apache-spark-sql spark-streaming

Verwenden Sie den Frühling zusammen mit Spark

2 Antworten

Entwickle ich ein Spark-Anwendung, und ich bin zum Frühling, wie ein Dependency Injection Framework. Jetzt bin ich stecken mit dem problem, dass die Verarbeitung Teil verwendet die @Autowired-Funktionalität des Frühlings, aber es ist serialisiert und deserialisiert von

apache-spark java spark-streaming spring

Unterschied Verwendet, Engagierte und Max-Heap-Speicher

1 Antworten

Ich bin monitoring ein Funke Testamentsvollstrecker JVM von einer OutOfMemoryException. Ich Jconsole verwendet, um eine Verbindung zum Testamentsvollstrecker JVM. Im folgenden ist der snapshot von Jconsole: In das Bild Speicher ist dargestellt als 3,8 G und der

apache-spark java jvm memory-management spark-streaming

java.lang.NoClassDefFoundError: org/apache/spark/streaming/twitter/TwitterUtils$, während der Ausführung TwitterPopularTags

5 Antworten

Ich bin ein Anfänger in der Spark streaming und Scala. Für ein Projekt Bedingung, die ich versuchte zu laufen TwitterPopularTags Beispiel in github. Als SBT-Versammlung war nicht für mich arbeiten, und ich war nicht vertraut mit SBT-ich

apache-spark maven noclassdeffounderror scala spark-streaming