Hive Erstellen Multi-kleine Dateien, die für die einzelnen insert-HDFS

folgenden ist bereits erreicht

Kafka Producer-Daten von twitter mit Spark Streaming.
Kafka Verbraucher Einlesen von Daten in Externen Hive-Tabelle(HDFS).

während dies gut funktioniert, so weit.
es gibt nur ein Problem ich bin vor, während meine app einfügen von Daten in Hive-Tabelle, erstellt er kleine Datei, in der jede Zeile die Daten pro Datei.

unten ist der code

//Define which topics to read from
  val topic = "topic_twitter"
  val groupId = "group-1"
  val consumer = KafkaConsumer(topic, groupId, "localhost:2181")

//Create SparkContext
  val sparkContext = new SparkContext("local[2]", "KafkaConsumer")

//Create HiveContext  
  val hiveContext = new org.apache.spark.sql.hive.HiveContext(sparkContext)

  hiveContext.sql("CREATE EXTERNAL TABLE IF NOT EXISTS twitter_data (tweetId BIGINT, tweetText STRING, userName STRING, tweetTimeStamp STRING,   userLang STRING)")
  hiveContext.sql("CREATE EXTERNAL TABLE IF NOT EXISTS demo (foo STRING)")

Hive demo-Tabelle bereits gefüllt mit einem einzelnen Datensatz.
Kafka Verbraucher loop-thru werden die Daten für Thema ="topic_twitter" in process jeder Zeile und füllen Sie in der Hive-Tabelle

val hiveSql = "INSERT INTO TABLE twitter_data SELECT STACK( 1," + 
    tweetID        +","  + 
    tweetText      +"," + 
    userName       +"," +
    tweetTimeStamp +","  +
    userLang + ") FROM demo limit 1"

hiveContext.sql(hiveSql)

unten sind die Bilder von meinem Hadoop-Umgebung. twitter_data, demo
Hive Erstellen Multi-kleine Dateien, die für die einzelnen insert-HDFS

letzten 10 erstellten Dateien in HDFS
Hive Erstellen Multi-kleine Dateien, die für die einzelnen insert-HDFS

wie Sie sehen können ist die Dateigröße nicht mehr als 200KB, gibt es eine Möglichkeit, die ich Zusammenführen dieser Dateien in einer Datei?

InformationsquelleAutor Nihal Bhagchandani | 2015-08-19

2

[2] OK, so kann man nicht richtig "streamen" von Daten in Hive. Aber Sie können eine periodische Verdichtung post-processing-job...
- erstellen Sie Ihre Tabelle mit 3 Partitionen z.B. (role='collectA'), (role='collectB'), (role='archive')
- zeigen Sie Ihre Zündkerzen-Einsätze auf (role='activeA')
- irgendwann wechseln (role='activeB')
- dann dump jeden Datensatz, die Sie gesammelt haben, in die "A" - partition
  in "Archiv", in der Hoffnung, dass Hive-default-config machen einen guten job der Begrenzung der Fragmentierung
  
  INSERT INTO TABLE twitter_data PARTITION (role='archive') SELECT ... FROM twitter_data WHERE role='activeA' ; TRUNCATE TABLE twitter_data PARTITION (role='activeA') ;
- irgendwann, wechseln Sie zurück zu "A" usw.
Ein letztes Wort: wenn der Hive noch schafft zu viele Dateien auf jedem Verdichtung job, dann versuchen tweaken einiger Parameter in Ihrer Sitzung, kurz vor dem EINFÜGEN z.B.
```
set hive.merge.mapfiles =true;
set hive.merge.mapredfiles =true;
set hive.merge.smallfiles.avgsize=1024000000;
```
InformationsquelleAutor Samson Scharfrichter
0

Struktur wurde konzipiert für massive batch-Verarbeitung, nicht für Transaktionen. Das ist, warum Sie haben mindestens eine Daten-Datei für jeden LAST-oder INSERT-SELECT-Befehl. Und das ist auch der Grund, warum du keine EINFÜGEN-WERTE-Befehl, damit die lame-syntax angezeigt, die in Ihrem Beitrag als eine notwendige Abhilfe.

Gut... das stimmte auch, bis transaction support eingeführt wurde. In einer nussschale, die Sie brauchen (a) Hive-V0.14 und später (b) ein ORC Tabelle (c) Transaktionsunterstützung aktiviert, die auf die Tabelle (d.h. Schlösser, periodische hintergrund, Verdichtung, etc)

Wiki über Streaming-Daten-ingest in Hive könnte ein guter Anfang sein.
- Danke Samson für Ihre Antwort. In spark-1.4 intern verwendet den Hive-0.13 🙁
- HCat-Streaming-API eingeführt wurde in V13.1 (duh!) mit einigen Einschränkungen. Und es scheint, dass Sturm hat einen Stecker (henning.kropponline.de/2015/01/24/hive-streaming-with-storm), aber die Funke hat noch keine (apache-spark-user-list.1001560.n3.nabble.com/...)
InformationsquelleAutor Samson Scharfrichter
0

können Sie diese Optionen zusammen.
1. schalten Säure
2. erstellen orc Tabelle K
  mit Transaktions-Eigenschaft.
3. legen viele Male in K.
  durch das streaming oder einfach nur insert dml.
4. hive erstellt automatisch kleine delta-Dateien
5. kleine ir-Dur Komprimierungen passieren wird
6. kleine Dateien, die zusammengeführt werden, um zu große Datei.
- bedeutet das nur Arbeit für die orc-Dateien?
- richtig, es ist nur für den Transaktions-orc-Tabelle
InformationsquelleAutor Jihun No

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.