Tag: spark-streaming
Spark Streaming ist eine Erweiterung der core-Apache-Spark-API, die es ermöglicht, high-throughput -, fault-tolerant-stream-Verarbeitung von live-Daten-streams. Von der version 1.3.0 unterstützt es genau-wenn die Verarbeitung der Semantik, auch angesichts der Ausfälle.
2
Antworten
Habe ich angefangen zu lernen, spark-streaming von Spark-Motor und sehr neu in data analytics und Funken. Ich will einfach nur, um zu erstellen ein kleines IOT-Anwendung in die ich möchte, um eine Prognose über die zukünftigen Daten.
2
Antworten
Läuft ein spark-streaming-Arbeit mit Garn als Ressourcen-manager, zu bemerken, dass diese beiden Verzeichnisse sind immer gefüllt, bis auf die Daten der Knoten und wir laufen aus dem Raum, wenn wir laufen nur für paar min ist /tmp/hadoop/data/nm-local-dir/filecache
4
Antworten
Ich habe eine spark-2.0-Anwendung, die Nachrichten liest, von kafka mit spark streaming (mit spark-streaming-kafka-0-10_2.11). Strukturierte streaming-sieht wirklich cool aus also ich wollte versuchen, und migrieren Sie den code, aber ich kann nicht herausfinden, wie es zu benutzen.
2
Antworten
Hallo ich bin gestartet spark streaming lernen, aber ich kann nicht führen Sie eine einfache Anwendung Mein code ist hier import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ val conf = new SparkConf().setMaster("spark://beyhan:7077").setAppName("NetworkWordCount") val ssc = new StreamingContext(conf, Seconds(1))
2
Antworten
Entwickeln wir in der Spark-Rahmen, worin bewegen wir uns historischen Daten, die in der RDD-sets. Grundsätzlich RDD ist unveränderlich, nur-lese-dataset, auf dem wir Aktionen. Auf dieser Basis haben wir verschoben historischen Daten in RDD und wir machen
3
Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }
2
Antworten
Ich versuche zu Lesen, Datensätze aus einer Kafka-Thema der Verwendung von Spark-Streaming. Dies ist mein code: object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer],
1
Antworten
Möchte ich mit Spark-Streaming-abrufen von Daten von Kafka. Nun, ich möchte meine Daten in eine remote-HDFS. Ich weiß, dass ich die Funktion saveAsText. Allerdings weiß ich nicht genau, wie man den Pfad angeben. Ist das richtig, wenn
1
Antworten
cancerdetector@cluster-cancerdetector-m:~/SparkBWA/build$ spark-submit --class SparkBWA --master yarn-cluster --deploy-mode cluster --conf spark.yarn.jar=hdfs:///user/spark/spark-assembly.jar --driver-memory 1500m --executor-memory 1500m --executor-cores 1 --archives ./bwa.zip --verbose ./SparkBWA.jar -algorithm mem -reads paired -index /Data/HumanBase/hg38 -partitions 32 ERR000589_1.filt.fastq ERR000589_2.filt.fastqhb Output_ERR000589 Using properties file: /usr/lib/spark/conf/spark-defaults.conf Adding default
2
Antworten
Ich versuche zum laden von Daten aus HDFS auf eine Hbase-Tabelle mithilfe von Spark Streaming. Ich bin plazieren von Daten in HDFS-Verzeichnis ausführen Zeit-und Lesen Sie es mit der textFileStream Funktion. Da Funken nicht über die hbase-jars
2
Antworten
Mein OS ist OS X 10.11.6. Ich bin mit Spark 2.0, Zeppelin 0.6, Scala 2.11 Wenn ich diesen code ausführen im Zeppelin bekomme ich eine Ausnahme von Jackson. Wenn ich diesen code ausführen spark-shell - keine Ausnahme.
3
Antworten
folgenden ist bereits erreicht Kafka Producer-Daten von twitter mit Spark Streaming. Kafka Verbraucher Einlesen von Daten in Externen Hive-Tabelle(HDFS). während dies gut funktioniert, so weit. es gibt nur ein Problem ich bin vor, während meine app einfügen
1
Antworten
Bin ich mit spark 1.4 code und nun wollen wir zu bewegen, um spark 2.0, und wenn ich Sie in der Dokumentation unten, es sind nur ein paar features, die sind abwärtskompatibel, bedeutet das, dass ich geändert
3
Antworten
Ich habe eine Spark-Streaming-Auftrag ausgeführt wurde, kontinuierlich. Wie verhindere ich, dass der Auftrag ordnungsgemäß? Ich habe gelesen, die üblichen Empfehlungen, dort ein shutdown-hook im job-überwachung und sendet ein SIGTERM an den job. sys.ShutdownHookThread { logger.info("Gracefully stopping Application...")
6
Antworten
So weit, wie der Funke noch nicht erstellt der DataFrame für streaming-Daten, aber wenn ich das Tue, Anomalien-Erkennung, es ist bequemer und schneller zu bedienen DataFrame für die Analyse der Daten. Ich habe es getan Teil, aber
6
Antworten
Ich versuche, führen Sie folgenden code mit eclipse (mit maven conf) mit 2 Arbeiter und haben jeweils 2 Kern oder auch versucht mit der Funke zu übermitteln. public class StreamingWorkCount implements Serializable { public static void main(String
5
Antworten
Ich versuche, setup-Spark-Streaming, um Nachrichten von Kafka Warteschlange. Ich bin immer der folgende Fehler: py4j.protocol.Py4JJavaError: An error occurred while calling o30.createDirectStream. : org.apache.spark.SparkException: java.nio.channels.ClosedChannelException org.apache.spark.SparkException: Couldn't find leader offsets for Set([test-topic,0]) at org.apache.spark.streaming.kafka.KafkaCluster$$anonfun$checkErrors$1.apply(KafkaCluster.scala:366) at org.apache.spark.streaming.kafka.KafkaCluster$$anonfun$checkErrors$1.apply(KafkaCluster.scala:366) at scala.util.Either.fold(Either.scala:97)
2
Antworten
Wenn ich den folgenden test ausführen, wirft Sie "kann Nicht zum aufrufen von Methoden auf einen gestoppt SparkContext". Das mögliche problem ist, dass ich TestSuiteBase - und Streaming-Spark-Rahmen. In der Zeile val gridEvalsRDD = ssc.sparkContext.parallelize(gridEvals) ich SparkContext
5
Antworten
Ich versuche zu verstehen, transformieren auf Spark DStream in Spark Streaming. Ich wusste, dass die Transformation viel Superlativ im Vergleich zu map, aber Kann jemand geben Sie mir einige Echtzeit-Beispiel oder klares Beispiel, das unterscheiden kann, transformieren
7
Antworten
Bin ich mit Spark Streaming zum verarbeiten von Daten zwischen zwei Kafka Warteschlangen, aber ich kann nicht scheinen zu finden ein guter Weg, um zu schreiben, auf Kafka aus Funken. Ich habe dies ausprobiert: input.foreachRDD(rdd => rdd.foreachPartition(partition
4
Antworten
Habe ich, glaube ich, ein relativ üblicher Fall für spark streaming: Ich habe einen Strom von Objekten, die würde ich gerne filter basierend auf einem Referenz-Daten Zunächst dachte ich, dies wäre eine sehr einfache Sache zu erreichen,
1
Antworten
Wird rdd1.join(rdd2) Ursache shuffle passieren, wenn rdd1 und rdd2 haben die gleichen Partitionierer? Können Sie umschreiben diese Frage, um deutlicher zu sein? Nur weil RDDs Partitionen auf derselben Maschine bedeutet nicht, dass alle Tasten immer auf der
4
Antworten
Ich versuche, die Botschaften zu Lesen von kafka (version 10) Zündkerzen und versuchen, es zu drucken. import spark.implicits._ val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.master", "local") .getOrCreate() val ds1 = spark.readStream.format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topicA") .load() ds1.collect.foreach(println)
2
Antworten
Schreibe ich ein spark-streaming-Anwendung zum empfangen von Daten von Kafka durch die Verwendung KafkaUtils, und was ich will zu tun ist, drucken Sie Daten erhielt ich von Kafka. Hier ist mein code den ich verwenden spark-submit ausführen
3
Antworten
Habe ich JSON-Nachrichten auf Kafka wie diese: {"id_post":"p1", "message":"blablabla"} und ich will Parsen der Nachricht und drucken (oder verwenden Sie für die weitere Berechnung) die message element. Mit folgendem code Drucke ich die json - val kafkaStream
2
Antworten
Ich bin Anfänger Funken, und ich bin mit meiner Bewerbung zu Lesen 14KB Daten aus text eingereicht, einige der Transformationen und Aktionen(sammeln, collectAsMap) und speichern Sie die Daten in die Datenbank Mir läuft es lokal in meinem
3
Antworten
Ich bin das schreiben eines einfachen Verbraucher-Programm mit spark streaming. Mein code speichern Sie einige der Daten in der Datei, aber nicht ALLE Daten. Kann mir jemand helfen wie dieses Problem zu beheben. Ich bin nicht sicher,
2
Antworten
Ich fileStream zum Lesen von Dateien im hdfs-Verzeichnis von Spark (streaming-Kontext). Bei meiner Funke heruntergefahren und beginnt nach einiger Zeit, die ich Lesen möchte, werden die neuen Dateien in das Verzeichnis. Ich will nicht Lesen, die alten
4
Antworten
Ich bin der Gestaltung einer neuen Architektur, big data, wo mein client hat als IBM MQ broker , ich weiß, dass wir für die Arbeit mit Kafka in big-data-Architekturen , Weil ich nehme an das ist schneller
2
Antworten
Mir läuft spark mit cluster-Modus für die Bereitstellung . Unten ist der Befehl JARS=$JARS_HOME/amqp-client-3.5.3.jar,$JARS_HOME/nscala-time_2.10-2.0.0.jar,\ $JARS_HOME/rabbitmq-0.1.0-RELEASE.jar,\ $JARS_HOME/kafka_2.10-0.8.2.1.jar,$JARS_HOME/kafka-clients-0.8.2.1.jar,\ $JARS_HOME/spark-streaming-kafka_2.10-1.4.1.jar,\ $JARS_HOME/zkclient-0.3.jar,$JARS_HOME/protobuf-java-2.4.0a.jar dse spark-submit -v --conf "spark.serializer=org.apache.spark.serializer.KryoSerializer" \ --executor-memory 512M \ --total-executor-cores 3 \ --deploy-mode "cluster" \ --master spark://$MASTER:7077 \ --jars=$JARS
1
Antworten
Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09
5
Antworten
Beim schreiben einer Spark-Streaming-job, der verbraucht Nachrichten von Kafka. Hier ist, was ich habe, so weit: 1) Gestartet Tierpfleger. 2) Begann Kafka-Server. 3) Schickte ein paar Nachrichten an den server. Ich kann Sie sehen, wenn ich führen
9
Antworten
Ich versuche zu ausführen Beispiel basic sparkstreaming Beispiel in Scala IDE, aber ich erhalte folgende Fehlermeldung: Error: Could not find or load main class org.test.spark.streamExample. Könnte jemand helfen mich zu Sortieren, bitte. Möglich, Duplikat der Scala Projekt
3
Antworten
In SparkSQL,ich benutze DF.Schreibe.Modus(SaveMode.Anhängen).json(xxxx),aber mit dieser Methode erhalten Sie diese Dateien wie den Dateinamen ist zu Komplex und zufällig ist,kann ich nicht verwenden, die api zu bekommen.Also ich will saveAstextfile ,denn mit dem Namen ist nicht Komplex
2
Antworten
Habe ich eine Klasse wie diese: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() {
4
Antworten
Will ich mehr als einen SparkContext in einer Konsole. Nach einem Beitrag in mailing-Liste, muss ich SparkConf.set ("Funke.- Treiber.allowMultipleContexts' , true), scheint es vernünftig, aber nicht arbeiten kann. Kann jemand Erfahrung in diesem? vielen Dank: Balg ist,
3
Antworten
Ich bin erste Schritte mit Spark. Bin ich immer ein Problem beim starten Funken. Ich heruntergeladen Funke offiziellen website, ich bin versucht, quickstart aus diesem https://spark.apache.org/docs/0.9.0/quick-start.html Habe ich heruntergeladen, setup sparkhome., und wenn ich versuchte, läuft ./pyspark
1
Antworten
Ich habe einige code wie dieser: println("\nBEGIN Last Revs Class: "+ distinctFileGidsRDD.getClass) val lastRevs = distinctFileGidsRDD. foreachPartition(iter => { SetupJDBC(jdbcDriver, jdbcUrl, jdbcUser, jdbcPassword) while(iter.hasNext) { val item = iter.next() //println(item(0)) println("String: "+item(0).toString()) val jsonStr = DB.readOnly {
2
Antworten
Ich würde gerne konvertieren DStream in ein array, Liste, etc. so kann ich dann übersetzen zu json und servieren es auf einem endpoint. Ich bin mit apache spark, Einspritzen von twitter-Daten. Wie kann ich preform dieser Vorgang
4
Antworten
Ich für eine spark-streaming-Anwendung auf ein Garn-cluster auf einem remote-server. Die Standard-java-version 1.7 aber ich will 1.8 für meine Anwendung, die ist auch dort in den server, aber nicht der Standard. Gibt es eine Möglichkeit zu geben,
2
Antworten
Dies ist der code zum ausführen einfacher SQL-Abfragen über Spark Streaming. import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.sql.SQLContext import org.apache.spark.streaming.Duration object StreamingSQL { case class Persons(name: String, age: Int) def main(args: Array[String]) { val sparkConf = new
2
Antworten
Ich bin mit spark 1.5.2. Muss ich laufen, spark streaming job bei kafka als streaming-Quelle. Ich brauche zum Lesen von mehreren Themen innerhalb kafka und der Prozess zu jedem Thema anders. Ist es eine gute Idee, dies
4
Antworten
Ich bin mit Kafka 0.8.2 zum empfangen von Daten von AdExchange dann benutze ich Spark Streaming 1.4.1 zum speichern von Daten auf MongoDB. Mein problem ist, wenn ich neu starten meine Spark Streaming Job zum Beispiel wie
1
Antworten
Spark streaming, jedes batch-Intervall der Daten erzeugen immer eine und nur eine RDD, warum verwenden wir foreachRDD() mit der foreach-RDD? RDD ist nur man braucht sich nicht foreach. In meinen Tests, ich sehe nie RDD mehr als
2
Antworten
Gibt es etwas in Scala wie, condition ? first_expression : second_expression; dass ich verwenden können, innerhalb der map-Funktion in scala? Ich möchte in der Lage sein, etwas zu schreiben wie: val statuses = tweets.map(status => status.isTruncate? //do
3
Antworten
Ist das möglich, Rohr Funke RDD zu Python? Da brauche ich eine python-Bibliothek, um einige der Berechnung auf meine Daten, aber meine Haupt-Spark-Projekt basiert auf der Scala. Gibt es eine Möglichkeit, Sie zu mischen beide, oder lassen
2
Antworten
Bin ich mit Spark 1.3.0 mit python-api. Während der Transformation riesigen dataframes, ich cache viele DFs für eine schnellere Ausführung; df1.cache() df2.cache() Einmal die Verwendung von bestimmten dataframe ist über und wird nicht mehr benötigt, wie kann
2
Antworten
Entwickle ich ein Spark-Anwendung, und ich bin zum Frühling, wie ein Dependency Injection Framework. Jetzt bin ich stecken mit dem problem, dass die Verarbeitung Teil verwendet die @Autowired-Funktionalität des Frühlings, aber es ist serialisiert und deserialisiert von
1
Antworten
Ich bin monitoring ein Funke Testamentsvollstrecker JVM von einer OutOfMemoryException. Ich Jconsole verwendet, um eine Verbindung zum Testamentsvollstrecker JVM. Im folgenden ist der snapshot von Jconsole: In das Bild Speicher ist dargestellt als 3,8 G und der
5
Antworten
Ich bin ein Anfänger in der Spark streaming und Scala. Für ein Projekt Bedingung, die ich versuchte zu laufen TwitterPopularTags Beispiel in github. Als SBT-Versammlung war nicht für mich arbeiten, und ich war nicht vertraut mit SBT-ich