Tag: parquet

Parkett ist ein columnar storage format für Hadoop.

Lesen lokales Parkett-Dateien in Spark 2.0

Anzahl der Antworten 1 Antworten
Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um

Mehrere spark-Aufträge anfügen Parkett Daten zu gleichen base Pfad mit der Partitionierung

Anzahl der Antworten 4 Antworten
Ich habe mehrere jobs, die ich will, um parallel ausgeführt werden, append Daten werden täglich in den gleichen Pfad mit der Partitionierung. z.B. dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parquet("s3://bucket/save/path"); Job 1 - category = "billing_events" Job 2 -

Wie Sie Lesen und schreiben Map<String, Object> von/für Parkett-Datei in Java oder Scala?

Anzahl der Antworten 3 Antworten
Suche nach einem prägnanten Beispiel, wie man Lesen und schreiben Map<String, Object> ab/bis Parkett-Datei in Java oder Scala? Hier wird erwartet, Struktur, mit com.fasterxml.jackson.databind.ObjectMapper als Serialisierung in Java (d.h. Suche für gleichwertig mit Parkett): public static Map<String,

Gelesen von Kafka und schreiben auf hdfs in Parkett

Anzahl der Antworten 3 Antworten
Ich bin neu in der BigData-eco-system und die Art der Vorbereitungen. Habe ich gelesen mehrere Artikel, die über das Lesen einer kafka-Thema der Verwendung von spark-streaming, aber würde gerne wissen, ob es möglich ist, zu Lesen von

wie funktioniert hive-Tabelle erstellen mit Parkett und bissig

Anzahl der Antworten 2 Antworten
Kenne ich die syntax für das erstellen einer Tabelle mit Parkett, aber ich möchte wissen, was bedeutet das für das erstellen von Tabellen mit Parkett-format und komprimiert, bissig und wie wir das tun ? bitte helfen Sie

Konvertieren Sie csv zu Parkett-Datei mit python

Anzahl der Antworten 2 Antworten
Ich versuche zu konvertieren .csv-Datei ein .Parkett-Datei. Die csv-Datei (Temp.csv) hat das folgende format 1,Jon,Doe,Denver Ich bin mit dem folgenden python-code zu konvertieren es in Parkett from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import

Impala - konvertieren Sie vorhandene Tabelle zu Parkett-format

Anzahl der Antworten 1 Antworten
Ich habe eine Tabelle mit Partitionen und ich benutze avro-Dateien oder text-Dateien zu erstellen und in eine Tabelle einfügen. Sobald die Tabelle fertig ist, ist es ein Weg, um konvertieren in das Parkett. Ich meine, ich weiß,

Data type mismatch, während die Umwandlung von Daten in spark-dataset

Anzahl der Antworten 1 Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

Mit pyarrow wie Sie anfügen zu Parkett-Datei?

Anzahl der Antworten 3 Antworten
Wie Sie append/update auf eine parquet - Datei mit pyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3

Wie die Steuerung der Anzahl von Ausgabe-Dateien erstellt von Spark job beim schreiben?

Anzahl der Antworten 2 Antworten
Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code

Wie passend Dataframe Spaltennamen Scala Fall Attribute der Klasse?

Anzahl der Antworten 1 Antworten
Den Namen der Spalten in diesem Beispiel aus der spark-sql-kommen aus der case class Person. case class Person(name: String, age: Int) val people: RDD[Person] = ... //An RDD of case class objects, from the previous example. //The

wie liest man einen Parkett-Datei, die in einem eigenständigen java-code?

Anzahl der Antworten 2 Antworten
Parkett docs von cloudera zeigt Beispiele der integration mit pig/hive/impala. aber in vielen Fällen, die ich Lesen will der Parkett-Datei selbst für debugging-Zwecke. gibt es eine einfache java-reader-api zu Lesen, dass ein Parkett-Datei ? Dank Yang Dies

Index im Parkett

Anzahl der Antworten 2 Antworten
Ich würde gerne in der Lage sein, um einen schnellen Auswahl-Abfrage auf einem Parkett-Tabelle. Die Menge der Daten, die zurückgegeben werden, ist sehr klein im Vergleich zur Gesamtgröße, sondern weil eine ganze Spalte scan muss durchgeführt werden,

Apache Parkett, der nicht Lesen Konnte Fußzeile: java.io.IOException:

Anzahl der Antworten 3 Antworten
Ich habe eine SPARK-Projekt und läuft auf einem Cloudera VM. Auf meinem Projekt, das ich zum laden der Daten aus einer Parkett-Datei und dann die Daten verarbeiten. Alles funktioniert einwandfrei, aber Das problem ist, dass ich brauche,

Wie bekomme ich schema / Spaltennamen aus Parkett-Datei?

Anzahl der Antworten 3 Antworten
Habe ich eine gespeicherte Datei im HDFS als part-m-00000.gz.parquet Habe ich versucht zu laufen hdfs dfs -text dir/part-m-00000.gz.parquet aber es ist komprimiert, also lief ich gunzip part-m-00000.gz.parquet aber nicht Dekomprimieren Sie die Datei, da es nicht erkennen

Avro vs. Parkett

Anzahl der Antworten 7 Antworten
Ich bin Planung, um die Verwendung eines hadoop-file-format für meine hadoop-bezogenen Projekt. Ich verstehen Parkett ist effizient für Spalte-basierte Abfrage-und avro für full scan oder wenn wir müssen alle Spalten Daten! Bevor ich gehen und wählen Sie

Nicht in der Lage, zu folgern schema beim laden von Parkett-Datei

Anzahl der Antworten 7 Antworten
response = "mi_or_chd_5" outcome = sqlc.sql("""select eid,{response} as response from outcomes where {response} IS NOT NULL""".format(response=response)) outcome.write.parquet(response, mode="overwrite") # Success print outcome.schema StructType(List(StructField(eid,IntegerType,true),StructField(response,ShortType,true))) Aber dann: outcome2 = sqlc.read.parquet(response) # fail schlägt fehl mit: AnalysisException: u'Unable to infer

Methoden für das schreiben von Parkett-Dateien mit Python?

Anzahl der Antworten 3 Antworten
Ich habe Probleme bei der Suche eine Bibliothek, die es ermöglicht Parkett-Dateien geschrieben werden, mit Python. Bonus Punkte, wenn ich Bissig oder eine ähnliche Kompression Mechanismus in Verbindung mit Ihr. Bisher die einzige Methode, die ich gefunden

Wie konvertieren von spark SchemaRDD in RDD meinem Fall Klasse?

Anzahl der Antworten 4 Antworten
In der Funke docs ist auch klar, wie zu erstellen, Parkett-Dateien von RDD Ihre eigenen Fall-Klassen; (aus der Dokumentation) val people: RDD[Person] = ??? //An RDD of case class objects, from the previous example. //The RDD is

Wie umgehen mit Aufgaben, die zu lange läuft (im Vergleich zu anderen in-job) in Garn-client?

Anzahl der Antworten 2 Antworten
Verwenden wir eine Spark-cluster als yarn-client zu berechnen, die mehrere business, aber manchmal haben wir eine Aufgabe ausführen zu lange Zeit: Wir nicht festlegen timeout-aber ich denke, dass Standard-timeout einen Funken Aufgabe ist nicht zu lang, so

Gewusst wie: anzeigen von Apache Parkett-Datei in Windows?

Anzahl der Antworten 3 Antworten
Konnte ich nicht finden keine plain-Englisch Erklärungen zu Apache Parkett-Dateien. Wie: Was sind Sie? Brauche ich HDFS-Hadoop oder zum anzeigen/erstellen/speichern? Wie kann ich erstellen, Parkett-Dateien? Wie kann ich Parkett-Dateien? Jede Hilfe in Bezug auf diese Fragen sehr

Json-Objekt zu Parkett-format mit Java ohne Konvertierung in AVRO(Ohne Verwendung von Spark, Hive, Pig,Impala)

Anzahl der Antworten 2 Antworten
Habe ich ein Szenario, wo konvertieren Sie die Nachrichten präsentieren als Json-Objekt zu Apache Parkett-format mit Java. Jede sample-code oder Beispiele wären hilfreich. Soweit was ich gefunden habe, konvertieren Sie die Nachrichten auf das Parkett entweder Hive,

Bekam Ausnahme laufen Sqoop: java.lang.NullPointerException mit -Abfrage-und-wie-parquetfile

Anzahl der Antworten 1 Antworten
Ich versuche, eine Tabelle importieren-Daten aus der Rotverschiebung zu HDFS (mit Parkett-format) und mit Blick auf die Fehlermeldung, die unten gezeigt: 15/06/25 11:05:42 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException java.lang.NullPointerException at org.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:97) at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:478) at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:605)

Wie zum Anhängen von Daten an eine vorhandene Parkett-Datei

Anzahl der Antworten 2 Antworten
Ich bin mit dem folgenden code zu erstellen ParquetWriter und schreiben von Datensätzen. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); final GenericRecord record = new GenericData.Record(avroSchema); parquetWriter.write(record); Sondern es nur ermöglicht das erstellen neuer Dateien(im

Wie zum kopieren und konvertieren von Parkett-Dateien zu csv

Anzahl der Antworten 3 Antworten
Habe ich Zugang zu einem hdfs-Dateisystem und kann sehen Parkett-Dateien mit hadoop fs -ls /user/foo Wie kann ich kopieren Sie diese Parkett-Dateien auf meinem lokalen system und konvertieren Sie Sie in csv, damit ich Sie verwenden kann?

SPARK DataFrame: Wie effizient split dataframe für jede Gruppe auf Basis der gleichen Werte in der Spalte

Anzahl der Antworten 2 Antworten
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value").alias("TotalValue")) .sort($"Hour".asc,$"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1|

Dynamisch erstellen externen Hive-Tabelle mit Avro-schema auf Parkett-Daten

Anzahl der Antworten 1 Antworten
Ich versuche, dynamisch (ohne Auflistung von Spaltennamen und-Typen in Hive-DDL) anlegen einer externen Hive-Tabelle, die auf Parkett-Dateien. Ich habe die Avro-schema der zugrunde liegenden Parkett-Datei. Meinen versuchen ist, verwenden Sie die folgende DDL: CREATE EXTERNAL TABLE parquet_test

Funke : Lesen einer Datei nur, wenn der Pfad vorhanden ist

Anzahl der Antworten 2 Antworten
Ich versuche, die Dateien Lesen, die anwesend Sequence Wege in scala. Ist unten das Beispiel (pseudo -) code: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*) Nun, in der oben genannten Reihenfolge, einige

Lesen Sie einige Parkett-Dateien zur gleichen Zeit Funken

Anzahl der Antworten 4 Antworten
Ich Lesen kann, einige json-Dateien zur gleichen Zeit mit * (Stern): sqlContext.jsonFile('/path/to/dir/*.json') Gibt es eine Möglichkeit, das gleiche zu tun, für Parkett? Sterne nicht funktioniert. InformationsquelleAutor SkyFox | 2015-05-24

Erstellen von Hive-Tabelle zu Lesen Parkett-Dateien aus Parkett - /avro-schema

Anzahl der Antworten 1 Antworten
Sind wir auf der Suche nach einer Lösung, um eine externe hive-Tabelle zum Lesen von Daten aus Parkett-Dateien nach einem Parkett - /avro-schema. in anderer Weise, so erzeugen Sie eine hive-Tabelle aus einer Parkett - /avro-schema ?

erstellen, Parkett-Dateien in java

Anzahl der Antworten 2 Antworten
Gibt es eine Möglichkeit zu schaffen, Parkett-Dateien von java? Ich habe Daten im Speicher (java-Klassen), und ich will schreiben Sie ihn in einen Parkett-Datei, um Sie später zu Lesen von apache-drill. Gibt es eine einfache Möglichkeit, dies

Wie kontrollieren Sie die Größe der Ausgabe-Datei?

Anzahl der Antworten 4 Antworten
In der Funke, was ist der beste Weg zu kontrollieren, Datei-Größe der Ausgabe-Datei. Zum Beispiel, in log4j können wir angeben, max Datei-Größe, nach dem sich die Datei rotiert. Ich bin auf der Suche nach ähnlichen Lösung für

Spark Ausnahme : Aufgabe fehlgeschlagen ist, beim schreiben der Zeilen

Anzahl der Antworten 5 Antworten
Bin ich das Lesen von text-Dateien und konvertiert Sie zu Parkett-Dateien. Ich mache es über spark-code. Aber wenn ich versuche den code auszuführen bekomme ich folgende exception org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in

So speichern Sie eine partitionierte Parkett-Datei in Spark 2.1?

Anzahl der Antworten 2 Antworten
Ich versuche, zu testen, wie das schreiben von Daten in HDFS 2.7 Verwendung von Spark-2.1. Meine Daten ist eine einfache Abfolge von dummy-Werte und die Ausgabe sollte partitioniert werden durch die Attribute: id und Schlüssel. //Simple case

Spark SQL saveAsTable ist nicht kompatibel mit Hive als partition angegeben ist

Anzahl der Antworten 2 Antworten
Art von edge-Fall, beim speichern von Parkett-Tabelle in Spark SQL mit partition #schema definitioin final StructType schema = DataTypes.createStructType(Arrays.asList( DataTypes.createStructField("time", DataTypes.StringType, true), DataTypes.createStructField("accountId", DataTypes.StringType, true), ... DataFrame df = hiveContext.read().schema(schema).json(stringJavaRDD); df.coalesce(1) .write() .mode(SaveMode.Append) .format("parquet") .partitionBy("year") .saveAsTable("tblclick8partitioned"); Funke

Lesen Parkett-Dateien aus mehreren Verzeichnissen in Pyspark

Anzahl der Antworten 3 Antworten
Ich Lesen müssen, Parkett-Dateien aus mehreren Pfaden, die nicht über-oder untergeordnete Verzeichnisse. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ------- dir2_2 sqlContext.read.parquet(dir1) liest Parkett-Dateien von dir1_1 und dir1_2 Recht

Wie zum einfügen von Daten in Parkett-Tabelle in Hive

Anzahl der Antworten 5 Antworten
Habe ich einfachen text-Tabelle (getrennt durch ",") mit dem folgenden format: orderID INT, CustID INT, OrderTotal FLOAT, OrderNumItems INT, OrderDesc STRING Ich einfügen möchte, werden diese Daten in ein Parkett-Tabelle: Ich habe die Tabelle angelegt mit: CREATE

So konvertieren Sie eine JSON-Datei, Parkett, Apache Spark?

Anzahl der Antworten 1 Antworten
Ich bin neu in Apache Spark 1.3.1. Wie konvertiere ich eine JSON-Datei zu Parkett? Sie können auch mithilfe von Apache Drill (vielleicht leichter zu setup), können Sie konvertieren von JSON aus einem lokalen Dateisystem HDFS-Parkett in 1

Deaktivieren Parkett-Metadaten Zusammenfassung Funken

Anzahl der Antworten 2 Antworten
Ich habe eine spark-Arbeit (1.4.1) empfängt einen Strom von kafka Veranstaltungen. Ich möchte speichern Sie Sie ständig als Parkett auf tachyon. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2) lines.window(Seconds(1), Seconds(1)).foreachRDD { (rdd, time) => if (rdd.count() >

Spark SQL - Unterschied zwischen gzip-vs snappy vs lzo-Komprimierung-Formate

Anzahl der Antworten 2 Antworten
Ich versuche, mit Spark SQL zu schreiben parquet Datei. Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo. Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für

Können wir laden, Parkett-Datei in Hive direkt?

Anzahl der Antworten 4 Antworten
Ich weiß, wir können Last-Parkett-Datei mit Spark SQL und der Verwendung von Impala, aber Frage mich, ob wir das gleiche tun mit Hive. Ich lese viele Artikel, aber ich bin immer noch verwirrt. Einfach gesagt, ich habe

wie Zusammenführen mehrerer Parkett-Dateien in einzelne Parkett-Datei mit linux-oder hdfs-Befehl?

Anzahl der Antworten 2 Antworten
Habe ich mehrere kleine parquet - Dateien generiert, die als Ausgabe des hive-ql-job, ich möchte die Zusammenführung der output-Dateien zu einzelnen Parkett-Datei? was ist der beste Weg, es zu tun mit einigen hdfs or linux commands? wir

Erstellen von hive-Tabelle mit Parkett-Datei-Metadaten

Anzahl der Antworten 5 Antworten
Schrieb ich einen DataFrame, wie Parkett-Datei. Und, ich möchte die Datei zu Lesen, mithilfe von Hive mit Hilfe der Metadaten aus Parkett. Ausgabe vom schreiben Parkett schreiben _common_metadata part-r-00000-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet part-r-00002-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet _SUCCESS _metadata part-r-00001-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet part-r-00003-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet Hive-Tabelle CREATE TABLE

Fügt neue Daten in partitionierte Parkett-Dateien

Anzahl der Antworten 2 Antworten
Schreibe ich ein ETL-Prozess, wo ich Lesen muss stündlich log-Dateien, partition die Daten, und speichern Sie es. Ich bin mit Funken (in der Databricks). Die log-Dateien sind CSV, damit ich Sie Lesen, und wenden Sie ein schema,

Überprüfen Parkett von der Kommandozeile aus

Anzahl der Antworten 5 Antworten
Wie kann ich überprüfen den Inhalt einer Parkett-Datei von der Befehlszeile aus? Ist die einzige option die ich sehe ist jetzt $ hadoop fs -get my-path local-file $ parquet-tools head local-file | less Möchte ich zu vermeiden,

Wie zu partitionieren und zu schreiben DataFrame in Funken, ohne das löschen von Partitionen, ohne dass neue Daten?

Anzahl der Antworten 2 Antworten
Ich versuche zu sparen DataFrame auf HDFS in Parkett-format mit DataFrameWriter, aufgeteilt durch drei Spalte mit Werten wie diesen: dataFrame.write.mode(SaveMode.Overwrite).partitionBy("eventdate", "hour", "processtime").parquet(path) Wie bereits in diese Frage, partitionBy wird, löschen Sie die vollständigen bestehende Hierarchie von Partitionen

Wie teilt Parkett-Dateien in viele Partitionen in der Funke?

Anzahl der Antworten 5 Antworten
Also ich habe nur 1 Parkett-Datei lese ich mit der Funke (mit der SQL-Zeug) und ich möchte es verarbeitet werden mit 100 Partitionen. Ich habe versucht Einstellung spark.default.parallelism auf 100, wir haben auch versucht, die änderung der

Wie lese ich einen Parkett in R und konvertieren es in ein R DataFrame?

Anzahl der Antworten 4 Antworten
Ich würde gerne Prozess Apache Parkett Dateien (in meinem Fall erzeugte Funken) in die R-Programmiersprache. Ist ein R-reader verfügbar? Oder ist die Arbeit getan, man? Wenn nicht, was wäre die sinnvollste Weg, um dorthin zu gelangen? Hinweis:

Schema evolution in Parkett-format

Anzahl der Antworten 1 Antworten
Derzeit sind wir mit Avro-Daten-format in der Produktion. Aus N gute Punkte von Avro, wir wissen, dass es gut ist, in der schema-evolution. Nun evaluieren wir Parkett-format wegen seiner Effizienz beim Lesen von zufälligen Spalten. Also, bevor

Gewusst wie: konvertieren eine csv-Datei zu Parkett

Anzahl der Antworten 7 Antworten
Ich bin neu im Bereich Big data.Ich brauche zum konvertieren einer csv/txt-Datei für Parkett-format. Ich suchte eine Menge, aber konnte keine direkte Möglichkeit, dies zu tun. Gibt es irgendeine Möglichkeit das zu erreichen? InformationsquelleAutor der Frage author243