Lesen Avro Nachrichten von Kafka mit Spark 2.0.2 (strukturierte streaming)

Ich habe eine spark-2.0-Anwendung, die Nachrichten liest, von kafka mit spark streaming (mit spark-streaming-kafka-0-10_2.11).

Strukturierte streaming-sieht wirklich cool aus also ich wollte versuchen, und migrieren Sie den code, aber ich kann nicht herausfinden, wie es zu benutzen.

in der regulären streaming ich verwendet kafkaUtils zu createDstrean und in die Parameter, die ich übergeben, es wurde der Wert deserializer.

in der Strukturierten streaming der doc sagt, ich soll Deserialisieren mit DataFrame Funktionen, aber ich kann nicht herausfinden, was das bedeutet.

Schaute ich auf Beispiele wie diese Beispiel aber meine Avro-Objekt in Kafka verlassen Komplex und nicht einfach gegossen, wie der String in dem Beispiel..

Bisher habe ich versucht, diese Art von code (was ich hier gesehen habe in einer anderen Frage):

import spark.implicits._

  val ds1 = spark.readStream.format("kafka").
    option("kafka.bootstrap.servers","localhost:9092").
    option("subscribe","RED-test-tal4").load()

  ds1.printSchema()
  ds1.select("value").printSchema()
  val ds2 = ds1.select($"value".cast(getDfSchemaFromAvroSchema(Obj.getClassSchema))).show()  
  val query = ds2.writeStream
    .outputMode("append")
    .format("console")
    .start()

und ich erhalte die Meldung "data type mismatch: cannot cast "BinaryType" - zu StructType(StructField(...."

wie kann ich das Deserialisieren der Wert?

Hat jemanden zu finden, eine funktionierende Lösung? Keine der unten arbeiten für mich!
Diese Bibliothek unterstützt die strukturierte Bäche mit Avro als Nutzlast und kann helfen: ABRiS (Avro Brücke für Funke). Es befindet sich noch in der Entwicklung, sondern unterstützt Ihre Verwendung. OFFENLEGUNG: ich arbeite für ABSA und ich bin der Hauptentwickler hinter dieser Bibliothek.

InformationsquelleAutor Tal Joffe | 2016-11-20

3

Ich bin noch nicht so super vertraut, wie die Spark-Serialisierung funktioniert in Kombination mit der neuen/experimentellen Strukturierte Streaming, aber der Ansatz unten funktioniert-obwohl ich bin nicht sicher, ob es der beste Weg (IMHO der Ansatz hat eine etwas peinliche look 'n feel).

Ich werde versuchen, Ihre Frage zu beantworten am Beispiel eines benutzerdefinierten Datentyps (hier: ein Foo Fall Klasse) statt, die speziell Avro, aber ich hoffe, es hilft dir sowieso. Die Idee ist die Verwendung von Kryo-Serialisierung serialisieren/Deserialisieren Ihre benutzerdefinierte Typ finden Tuning: - Daten-Serialisierung in der Funke Dokumentation.

Hinweis: Spark unterstützt die Serialisierung von case-Klassen aus der box über eingebaute (implizite) Encoder, die Sie importieren können über import spark.implicits._. Aber wir ignorieren diese Funktionalität aus Gründen der diesem Beispiel.

Stellen Sie sich vor Sie haben folgende Foo Fall Klasse, wie Sie Ihre benutzerdefinierten Typ (TL;DR Hinweis: um zu verhindern, laufen in komischen Funken die Serialisierung von Beschwerden/Fehlern sollten Sie den code in einem separaten Foo.scala - Datei):
```
//This could also be your auto-generated Avro class/type
case class Foo(s: String)
```
Nun haben Sie folgende Strukturierten Streaming-code zum Lesen von Daten von Kafka, wobei die Eingabe Thema enthält Kafka Nachrichten, deren Meldung Wert eine Binär codierte String, und Ihr Ziel ist es zu schaffen Foo - Instanzen basierend auf diese Nachricht Werte (also ähnlich wie du würde Deserialisieren von binären Daten in Instanzen von einem Avro-Klasse):
```
val messages: DataFrame = spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "broker1:9092,broker2:9092")
    .option("subscribe", "my-input-topic")
    .load()
```
Nun sind wir Deserialisieren die Werte in Instanzen der benutzerdefinierten Foo geben, für die müssen wir zuerst definieren eine implizite Encoder[Foo]:
```
implicit val myFooEncoder: Encoder[Foo] = org.apache.spark.sql.Encoders.kryo[Foo]
val foos: Dataset[Foo] = messages.map(row => Foo(new String(row.getAs[Array[Byte]]("value")))
```
Gehen Sie zurück zu Ihrem Avro Frage, was Sie würden tun müssen, ist:
1. Erstellen Sie eine korrekte Encoder für Ihre Bedürfnisse.
2. Ersetzen Foo(new String(row.getAs[Array[Byte]]("value")) mit dem code zum Deserialisieren Ihre Binär codierte Avro Daten in Avro POJOs, d.h. dem code, der Ihre Binär codierte Avro Daten aus der Nachricht mit dem Wert (row.getAs[Array[Byte]]("value")) und zurück, sagen wir, eine Avro GenericRecord oder was auch immer SpecificCustomAvroObject Sie haben an anderer Stelle definierten.
Wenn jemand anderes weiß, der eine präziser/besser/... Antwort Tal der Frage, bin ich alle Ohren. 🙂

Siehe auch:
- Wie zum speichern benutzerdefinierter Objekte im Dataset?
- Encoder-Fehler beim anzeigen dataframe Zeile zu Zeile aktualisiert
- Ich denke, Tal der use-case ist, dass er nicht Binär-kodierten String auf sein Thema, er hat Binär codierte avro. Würde mit bijection-avro Arbeit in diesem Fall?
- yep @zzztimbo das ist richtig.. ich musste backlog dieses Projekt ein wenig, so dass ich havn ' T hatte eine chance, etwas neues auszuprobieren.. hoffentlich werde ich in diesem Thema bald. wenn ich tun werde ich werde sehen, was sich bijection-avro
- bitte lassen Sie mich wissen, was Sie mit kommen. Ich versuche zu Lesen, avro, dass war es von einem kstream und bijection-avro hat nicht funktioniert für mich.
- oh o.k. wie ich sagte, es könnte eine Weile dauern, aber sobald ich es herausfinden ich werde gleich hier
- Ja, bijection-avro funktionieren sollte.
InformationsquelleAutor Michael G. Noll

Wie oben erwähnt, als der Funke 2.1.0 gibt es Unterstützung für die avro mit der batch-reader aber nicht mit SparkSession.readStream(). Hier ist, wie ich es geschafft habe in Scala basiert auf die anderen Antworten. Ich habe vereinfacht das schema für die Kürze.

package com.sevone.sparkscala.mypackage

import org.apache.spark.sql._
import org.apache.avro.io.DecoderFactory
import org.apache.avro.Schema
import org.apache.avro.generic.{GenericDatumReader, GenericRecord}

object MyMain {

    //Create avro schema and reader
    case class KafkaMessage (
        deviceId: Int,
        deviceName: String
    )
    val schemaString = """{
        "fields": [
            { "name":  "deviceId",      "type": "int"},
            { "name":  "deviceName",    "type": "string"},
        ],
        "name": "kafkamsg",
        "type": "record"
    }""""
    val messageSchema = new Schema.Parser().parse(schemaString)
    val reader = new GenericDatumReader[GenericRecord](messageSchema)
    //Factory to deserialize binary avro data
    val avroDecoderFactory = DecoderFactory.get()
    //Register implicit encoder for map operation
    implicit val encoder: Encoder[GenericRecord] = org.apache.spark.sql.Encoders.kryo[GenericRecord]

    def main(args: Array[String]) {

        val KafkaBroker =  args(0);
        val InTopic = args(1);
        val OutTopic = args(2);

        //Get Spark session
        val session = SparkSession
                .builder
                .master("local[*]")
                .appName("myapp")
                .getOrCreate()

        //Load streaming data
        import session.implicits._
        val data = session
                .readStream
                .format("kafka")
                .option("kafka.bootstrap.servers", KafkaBroker)
                .option("subscribe", InTopic)
                .load()
                .select($"value".as[Array[Byte]])
                .map(d => {
                    val rec = reader.read(null, avroDecoderFactory.binaryDecoder(d, null))
                    val deviceId = rec.get("deviceId").asInstanceOf[Int]
                    val deviceName = rec.get("deviceName").asInstanceOf[org.apache.avro.util.Utf8].toString
                    new KafkaMessage(deviceId, deviceName)
                })

es hat nicht für mich gearbeitet ,Verursacht durch: java.io.EOFException Fehler
Diese Lösung nicht gearbeitet schema registry aktiviert kafka. Er berichtete, "Verursacht durch: org.apache.avro.AvroRuntimeException: Fehlerhafte Daten. Länge ist negativ: -13"

InformationsquelleAutor Ralph Gonzalez

Also tatsächlich jemand in meiner Firma das Problem gelöst für mich, Also poste ich es hier für zukünftige Leser.

im Grunde, was ich habe auf der Spitze von dem, was miguno vorgeschlagen, ist die decode-Teil:

def decodeMessages(iter: Iterator[KafkaMessage], schemaRegistryUrl: String) : Iterator[<YourObject>] = {
val decoder = AvroTo<YourObject>Decoder.getDecoder(schemaRegistryUrl)
iter.map(message => {
  val record = decoder.fromBytes(message.value).asInstanceOf[GenericData.Record]
  val field1 = record.get("field1Name").asInstanceOf[GenericData.Record]
  val field2 = record.get("field1Name").asInstanceOf[GenericData.String]
        ...
  //create an object with the fields extracted from genericRecord
  })
}

jetzt können Sie Lesen Nachrichten aus kafka und decodieren Sie Sie wie so:

val ds = spark
  .readStream
  .format(config.getString(ConfigUtil.inputFormat))
  .option("kafka.bootstrap.servers", config.getString(ConfigUtil.kafkaBootstrapServers))
  .option("subscribe", config.getString(ConfigUtil.subscribeTopic))
  .load()
  .as[KafkaMessage]

val decodedDs  = ds.mapPartitions(decodeMessages(_, schemaRegistryUrl))

*KafkaMessage ist einfach nur Klasse mit dem generischen Objekt, das Sie erhalten, wenn das Lesen von Kafka (key,value,topic,partition,offset,timestamp)

AvroTo<YourObject>Decoder ist Klasse, dass werde Dekodieren, Ihr Objekt in einem gegebenen schema Registrierungs-url.

Beispielsweise mit Konfluent ist KafkaAvroDeserializer und schema-Registrierung.

val kafkaProps = Map("schema.registry.url" -> schemaRegistryUrl)
val client = new CachedSchemaRegistryClient(schemaRegistryUrl, 20)

//If you have Avro encoded keys
val keyDeserializer = new KafkaAvroDeserializer(client)
keyDeserializer.configure(kafkaProps.asJava, true) //isKey = true

//Avro encoded values
valueDeserializer = new KafkaAvroDeserializer(client)
valueDeserializer.configure(kafkaProps.asJava, false) //isKey = false

Aus diesen, nennen .deserialize(topicName, bytes).asInstanceOf[GenericRecord] um eine avro-Objekt.

Hoffe, dies hilft jemand

Also meinst du wir müssen im Zusammenhang mit Fall Klasse neben avro generierte Klasse? Könnten Sie uns zeigen Ihre import-Anweisung? Wo bekommen Sie die "Deocder-Klasse" in dieser Aussage? val-decoder = AvroTo<YourObject>Decoder.getDecoder(schemaRegistryUrl)

InformationsquelleAutor Tal Joffe

Verwenden Sie die folgenden Schritte aus:

Definieren einer Kafka-Nachricht.
Definieren, Verbraucher-Dienstprogramm, das gibt einen DataSet zurück, der YourAvroObject.
Definieren Sie Ihre logischen code.

Kafka Nachricht:

case class KafkaMessage(key: String, value: Array[Byte],
                                    topic: String, partition: String, offset: Long, timestamp: Timestamp)

Kafka Verbraucher:

import java.util.Collections

import com.typesafe.config.{Config, ConfigFactory}
import io.confluent.kafka.serializers.KafkaAvroDeserializer
import org.apache.avro.Schema
import org.apache.avro.generic.GenericRecord
import org.apache.spark.sql.SparkSession

import scala.reflect.runtime.universe._


object KafkaAvroConsumer {

  private val conf: Config = ConfigFactory.load().getConfig("kafka.consumer")
  val valueDeserializer = new KafkaAvroDeserializer()
  valueDeserializer.configure(Collections.singletonMap("schema.registry.url",
    conf.getString("schema.registry.url")), false)

  def transform[T <: GenericRecord : TypeTag](msg: KafkaMessage, schemaStr: String) = {
    val schema = new Schema.Parser().parse(schemaStr)
    Utils.convert[T](schema)(valueDeserializer.deserialize(msg.topic, msg.value))
  }

  def createDataStream[T <: GenericRecord with Product with Serializable : TypeTag]
  (schemaStr: String)
  (subscribeType: String, topics: String, appName: String, startingOffsets: String = "latest") = {

    val spark = SparkSession
      .builder
      .master("local[*]")
      .appName(appName)
      .getOrCreate()

    import spark.implicits._

    //Create DataSet representing the stream of KafkaMessage from kafka
    val ds = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", conf.getString("bootstrap.servers"))
      .option(subscribeType, topics)
      .option("startingOffsets", "earliest")
      .load()
      .as[KafkaMessage]
      .map(msg => KafkaAvroConsumer.transform[T](msg, schemaStr)) //Transform it Avro object.

    ds
  }

}

Update

Utils:

import org.apache.avro.Schema
import org.apache.avro.file.DataFileReader
import org.apache.avro.generic.{GenericDatumReader, GenericRecord}
import org.apache.avro.specific.SpecificData

import scala.reflect.runtime.universe._

object Utils {


  def convert[T <: GenericRecord: TypeTag](targetSchema: Schema)(record: AnyRef): T = {
      SpecificData.get.deepCopy(targetSchema, record).asInstanceOf[T]
  }


}

Können Sie bitte geben Sie die volle Beispiel, oder teilen Sie den code in github
Wie funktioniert Utils.convert-Methode definieren?
Was ist ein TypeTag? Was, wenn Sie nicht wollen, hart-code-reader-schema string und was zu verwenden die Schema-ID in der Nachricht?
Ich habe die utility-Funktion, ich hoffe, dass es dir hilft. Sorry, aber es ist eine alte code - & ich habe nicht gehalten repository.
bitte Lesen Sie über die schema registry & Schema-evolution. Das schema ist nicht hart codiert. docs.oracle.com/database/nosql-11.2.2.0/GettingStartedGuide/...
Ich weiß über die Schema-Evolution. Das war nicht mein Kommentar. Ich weiß auch um die schema registry. Meine Frage war über Ihre parameter schemaStr... Diese sollte nicht notwendig sein, als die KafkaAvroDeserializer Klasse ist in der Lage zu erkennen das Magic Byte + Schema-ID, die Konfluent die Avro-Kodierung verwendet, dann wird ein lookup vor der Registrierung für dieses schema string. In anderen Worten, ich denke, es sollte möglich sein, nicht "hard-code" ein Leser-schema string, und lassen Sie es dynamisch extrahiert aus der registry
du hast Recht. die schemaStr wird verwendet für die Umwandlung.
Ich denke, meine Frage ist, warum Sie benötigen, oder wo in diesem Beispiel würden Sie es definieren? Ich kann verstehen, wenn Sie den client, um die neuesten schema, das rückwärts kompatibel ist, aber dann hast du schon ein schema-Objekt. Keine Notwendigkeit, eine Zeichenfolge zu analysieren
Angenommen, Sie haben eine Komponente, die ein Objekt mit schema s1 und einige Verbraucher benötigen unterschiedliche Sicht auf die Daten (z.B. manche setzen s1, und andere mit s2, s3 & s4).Sie können die schema-evolution als Mechanismus für die. Natürlich, es ist nicht immer eine gute Idee.

InformationsquelleAutor user2550587

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.