Tag: parquet

Parkett ist ein columnar storage format für Hadoop.

Lesen lokales Parkett-Dateien in Spark 2.0

1 Antworten

Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um

Mehrere spark-Aufträge anfügen Parkett Daten zu gleichen base Pfad mit der Partitionierung

4 Antworten

Ich habe mehrere jobs, die ich will, um parallel ausgeführt werden, append Daten werden täglich in den gleichen Pfad mit der Partitionierung. z.B. dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parquet("s3://bucket/save/path"); Job 1 - category = "billing_events" Job 2 -

apache-spark parquet

Wie Sie Lesen und schreiben Map<String, Object> von/für Parkett-Datei in Java oder Scala?

3 Antworten

Suche nach einem prägnanten Beispiel, wie man Lesen und schreiben Map<String, Object> ab/bis Parkett-Datei in Java oder Scala? Hier wird erwartet, Struktur, mit com.fasterxml.jackson.databind.ObjectMapper als Serialisierung in Java (d.h. Suche für gleichwertig mit Parkett): public static Map<String,

avro java parquet scala

Gelesen von Kafka und schreiben auf hdfs in Parkett

3 Antworten

Ich bin neu in der BigData-eco-system und die Art der Vorbereitungen. Habe ich gelesen mehrere Artikel, die über das Lesen einer kafka-Thema der Verwendung von spark-streaming, aber würde gerne wissen, ob es möglich ist, zu Lesen von

apache-kafka apache-spark hadoop hdfs parquet

wie funktioniert hive-Tabelle erstellen mit Parkett und bissig

2 Antworten

Kenne ich die syntax für das erstellen einer Tabelle mit Parkett, aber ich möchte wissen, was bedeutet das für das erstellen von Tabellen mit Parkett-format und komprimiert, bissig und wie wir das tun ? bitte helfen Sie

hive parquet snappy

Konvertieren Sie csv zu Parkett-Datei mit python

2 Antworten

Ich versuche zu konvertieren .csv-Datei ein .Parkett-Datei. Die csv-Datei (Temp.csv) hat das folgende format 1,Jon,Doe,Denver Ich bin mit dem folgenden python-code zu konvertieren es in Parkett from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import

csv parquet python

Impala - konvertieren Sie vorhandene Tabelle zu Parkett-format

1 Antworten

Ich habe eine Tabelle mit Partitionen und ich benutze avro-Dateien oder text-Dateien zu erstellen und in eine Tabelle einfügen. Sobald die Tabelle fertig ist, ist es ein Weg, um konvertieren in das Parkett. Ich meine, ich weiß,

avro impala parquet text-files

Data type mismatch, während die Umwandlung von Daten in spark-dataset

1 Antworten

Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

apache-spark apache-spark-dataset apache-spark-sql java parquet

Mit pyarrow wie Sie anfügen zu Parkett-Datei?

3 Antworten

Wie Sie append/update auf eine parquet - Datei mit pyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3

pandas parquet pyarrow python

Wie die Steuerung der Anzahl von Ausgabe-Dateien erstellt von Spark job beim schreiben?

2 Antworten

Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code

apache-spark apache-spark-sql hive parquet

Wie passend Dataframe Spaltennamen Scala Fall Attribute der Klasse?

1 Antworten

Den Namen der Spalten in diesem Beispiel aus der spark-sql-kommen aus der case class Person. case class Person(name: String, age: Int) val people: RDD[Person] = ... //An RDD of case class objects, from the previous example. //The

apache-spark apache-spark-sql parquet scala

wie liest man einen Parkett-Datei, die in einem eigenständigen java-code?

2 Antworten

Parkett docs von cloudera zeigt Beispiele der integration mit pig/hive/impala. aber in vielen Fällen, die ich Lesen will der Parkett-Datei selbst für debugging-Zwecke. gibt es eine einfache java-reader-api zu Lesen, dass ein Parkett-Datei ? Dank Yang Dies

java parquet

Index im Parkett

2 Antworten

Ich würde gerne in der Lage sein, um einen schnellen Auswahl-Abfrage auf einem Parkett-Tabelle. Die Menge der Daten, die zurückgegeben werden, ist sehr klein im Vergleich zur Gesamtgröße, sondern weil eine ganze Spalte scan muss durchgeführt werden,

indexing parquet

Apache Parkett, der nicht Lesen Konnte Fußzeile: java.io.IOException:

3 Antworten

Ich habe eine SPARK-Projekt und läuft auf einem Cloudera VM. Auf meinem Projekt, das ich zum laden der Daten aus einer Parkett-Datei und dann die Daten verarbeiten. Alles funktioniert einwandfrei, aber Das problem ist, dass ich brauche,

apache-spark hadoop io java parquet

Wie bekomme ich schema / Spaltennamen aus Parkett-Datei?

3 Antworten

Habe ich eine gespeicherte Datei im HDFS als part-m-00000.gz.parquet Habe ich versucht zu laufen hdfs dfs -text dir/part-m-00000.gz.parquet aber es ist komprimiert, also lief ich gunzip part-m-00000.gz.parquet aber nicht Dekomprimieren Sie die Datei, da es nicht erkennen

apache-pig hadoop hdfs parquet

Avro vs. Parkett

7 Antworten

Ich bin Planung, um die Verwendung eines hadoop-file-format für meine hadoop-bezogenen Projekt. Ich verstehen Parkett ist effizient für Spalte-basierte Abfrage-und avro für full scan oder wenn wir müssen alle Spalten Daten! Bevor ich gehen und wählen Sie

avro hadoop parquet

Nicht in der Lage, zu folgern schema beim laden von Parkett-Datei

7 Antworten

response = "mi_or_chd_5" outcome = sqlc.sql("""select eid,{response} as response from outcomes where {response} IS NOT NULL""".format(response=response)) outcome.write.parquet(response, mode="overwrite") # Success print outcome.schema StructType(List(StructField(eid,IntegerType,true),StructField(response,ShortType,true))) Aber dann: outcome2 = sqlc.read.parquet(response) # fail schlägt fehl mit: AnalysisException: u'Unable to infer

apache-spark parquet pyspark

Methoden für das schreiben von Parkett-Dateien mit Python?

3 Antworten

Ich habe Probleme bei der Suche eine Bibliothek, die es ermöglicht Parkett-Dateien geschrieben werden, mit Python. Bonus Punkte, wenn ich Bissig oder eine ähnliche Kompression Mechanismus in Verbindung mit Ihr. Bisher die einzige Methode, die ich gefunden

apache-spark apache-spark-sql parquet python snappy

Wie konvertieren von spark SchemaRDD in RDD meinem Fall Klasse?

4 Antworten

In der Funke docs ist auch klar, wie zu erstellen, Parkett-Dateien von RDD Ihre eigenen Fall-Klassen; (aus der Dokumentation) val people: RDD[Person] = ??? //An RDD of case class objects, from the previous example. //The RDD is

apache-spark parquet sql

Wie umgehen mit Aufgaben, die zu lange läuft (im Vergleich zu anderen in-job) in Garn-client?

2 Antworten

Verwenden wir eine Spark-cluster als yarn-client zu berechnen, die mehrere business, aber manchmal haben wir eine Aufgabe ausführen zu lange Zeit: Wir nicht festlegen timeout-aber ich denke, dass Standard-timeout einen Funken Aufgabe ist nicht zu lang, so

apache-spark parquet yarn

Gewusst wie: anzeigen von Apache Parkett-Datei in Windows?

3 Antworten

Konnte ich nicht finden keine plain-Englisch Erklärungen zu Apache Parkett-Dateien. Wie: Was sind Sie? Brauche ich HDFS-Hadoop oder zum anzeigen/erstellen/speichern? Wie kann ich erstellen, Parkett-Dateien? Wie kann ich Parkett-Dateien? Jede Hilfe in Bezug auf diese Fragen sehr

.net bigdata java parquet

Json-Objekt zu Parkett-format mit Java ohne Konvertierung in AVRO(Ohne Verwendung von Spark, Hive, Pig,Impala)

2 Antworten

Habe ich ein Szenario, wo konvertieren Sie die Nachrichten präsentieren als Json-Objekt zu Apache Parkett-format mit Java. Jede sample-code oder Beispiele wären hilfreich. Soweit was ich gefunden habe, konvertieren Sie die Nachrichten auf das Parkett entweder Hive,

hadoop java json parquet

Bekam Ausnahme laufen Sqoop: java.lang.NullPointerException mit -Abfrage-und-wie-parquetfile

1 Antworten

Ich versuche, eine Tabelle importieren-Daten aus der Rotverschiebung zu HDFS (mit Parkett-format) und mit Blick auf die Fehlermeldung, die unten gezeigt: 15/06/25 11:05:42 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException java.lang.NullPointerException at org.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:97) at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:478) at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:605)

hadoop parquet sqoop

Wie zum Anhängen von Daten an eine vorhandene Parkett-Datei

2 Antworten

Ich bin mit dem folgenden code zu erstellen ParquetWriter und schreiben von Datensätzen. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); final GenericRecord record = new GenericData.Record(avroSchema); parquetWriter.write(record); Sondern es nur ermöglicht das erstellen neuer Dateien(im

hadoop java parquet

Wie zum kopieren und konvertieren von Parkett-Dateien zu csv

3 Antworten

Habe ich Zugang zu einem hdfs-Dateisystem und kann sehen Parkett-Dateien mit hadoop fs -ls /user/foo Wie kann ich kopieren Sie diese Parkett-Dateien auf meinem lokalen system und konvertieren Sie Sie in csv, damit ich Sie verwenden kann?

apache-spark hadoop parquet pyspark python

SPARK DataFrame: Wie effizient split dataframe für jede Gruppe auf Basis der gleichen Werte in der Spalte

2 Antworten

Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value").alias("TotalValue")) .sort($"Hour".asc,$"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1|

apache-spark apache-spark-sql parquet scala spark-dataframe

Dynamisch erstellen externen Hive-Tabelle mit Avro-schema auf Parkett-Daten

1 Antworten

Ich versuche, dynamisch (ohne Auflistung von Spaltennamen und-Typen in Hive-DDL) anlegen einer externen Hive-Tabelle, die auf Parkett-Dateien. Ich habe die Avro-schema der zugrunde liegenden Parkett-Datei. Meinen versuchen ist, verwenden Sie die folgende DDL: CREATE EXTERNAL TABLE parquet_test

avro hive parquet

Funke : Lesen einer Datei nur, wenn der Pfad vorhanden ist

2 Antworten

Ich versuche, die Dateien Lesen, die anwesend Sequence Wege in scala. Ist unten das Beispiel (pseudo -) code: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*) Nun, in der oben genannten Reihenfolge, einige

apache-spark parquet scala

Lesen Sie einige Parkett-Dateien zur gleichen Zeit Funken

4 Antworten

Ich Lesen kann, einige json-Dateien zur gleichen Zeit mit * (Stern): sqlContext.jsonFile('/path/to/dir/*.json') Gibt es eine Möglichkeit, das gleiche zu tun, für Parkett? Sterne nicht funktioniert. InformationsquelleAutor SkyFox | 2015-05-24

apache-spark parquet

Erstellen von Hive-Tabelle zu Lesen Parkett-Dateien aus Parkett - /avro-schema

1 Antworten

Sind wir auf der Suche nach einer Lösung, um eine externe hive-Tabelle zum Lesen von Daten aus Parkett-Dateien nach einem Parkett - /avro-schema. in anderer Weise, so erzeugen Sie eine hive-Tabelle aus einer Parkett - /avro-schema ?

avro hive parquet

erstellen, Parkett-Dateien in java

2 Antworten

Gibt es eine Möglichkeit zu schaffen, Parkett-Dateien von java? Ich habe Daten im Speicher (java-Klassen), und ich will schreiben Sie ihn in einen Parkett-Datei, um Sie später zu Lesen von apache-drill. Gibt es eine einfache Möglichkeit, dies

java parquet

Wie kontrollieren Sie die Größe der Ausgabe-Datei?

4 Antworten

In der Funke, was ist der beste Weg zu kontrollieren, Datei-Größe der Ausgabe-Datei. Zum Beispiel, in log4j können wir angeben, max Datei-Größe, nach dem sich die Datei rotiert. Ich bin auf der Suche nach ähnlichen Lösung für

apache-spark parquet

Spark Ausnahme : Aufgabe fehlgeschlagen ist, beim schreiben der Zeilen

5 Antworten

Bin ich das Lesen von text-Dateien und konvertiert Sie zu Parkett-Dateien. Ich mache es über spark-code. Aber wenn ich versuche den code auszuführen bekomme ich folgende exception org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in

apache-spark apache-spark-sql hadoop java parquet

So speichern Sie eine partitionierte Parkett-Datei in Spark 2.1?

2 Antworten

Ich versuche, zu testen, wie das schreiben von Daten in HDFS 2.7 Verwendung von Spark-2.1. Meine Daten ist eine einfache Abfolge von dummy-Werte und die Ausgabe sollte partitioniert werden durch die Attribute: id und Schlüssel. //Simple case

apache-spark apache-spark-sql parquet scala

Spark SQL saveAsTable ist nicht kompatibel mit Hive als partition angegeben ist

2 Antworten

Art von edge-Fall, beim speichern von Parkett-Tabelle in Spark SQL mit partition #schema definitioin final StructType schema = DataTypes.createStructType(Arrays.asList( DataTypes.createStructField("time", DataTypes.StringType, true), DataTypes.createStructField("accountId", DataTypes.StringType, true), ... DataFrame df = hiveContext.read().schema(schema).json(stringJavaRDD); df.coalesce(1) .write() .mode(SaveMode.Append) .format("parquet") .partitionBy("year") .saveAsTable("tblclick8partitioned"); Funke

apache-spark-sql hive parquet partitioning

Lesen Parkett-Dateien aus mehreren Verzeichnissen in Pyspark

3 Antworten

Ich Lesen müssen, Parkett-Dateien aus mehreren Pfaden, die nicht über-oder untergeordnete Verzeichnisse. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ------- dir2_2 sqlContext.read.parquet(dir1) liest Parkett-Dateien von dir1_1 und dir1_2 Recht

parquet pyspark

Wie zum einfügen von Daten in Parkett-Tabelle in Hive

5 Antworten

Habe ich einfachen text-Tabelle (getrennt durch ",") mit dem folgenden format: orderID INT, CustID INT, OrderTotal FLOAT, OrderNumItems INT, OrderDesc STRING Ich einfügen möchte, werden diese Daten in ein Parkett-Tabelle: Ich habe die Tabelle angelegt mit: CREATE

hadoop hive parquet

So konvertieren Sie eine JSON-Datei, Parkett, Apache Spark?

1 Antworten

Ich bin neu in Apache Spark 1.3.1. Wie konvertiere ich eine JSON-Datei zu Parkett? Sie können auch mithilfe von Apache Drill (vielleicht leichter zu setup), können Sie konvertieren von JSON aus einem lokalen Dateisystem HDFS-Parkett in 1

apache-spark apache-spark-sql json parquet

Deaktivieren Parkett-Metadaten Zusammenfassung Funken

2 Antworten

Ich habe eine spark-Arbeit (1.4.1) empfängt einen Strom von kafka Veranstaltungen. Ich möchte speichern Sie Sie ständig als Parkett auf tachyon. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2) lines.window(Seconds(1), Seconds(1)).foreachRDD { (rdd, time) => if (rdd.count() >

apache-spark parquet

Spark SQL - Unterschied zwischen gzip-vs snappy vs lzo-Komprimierung-Formate

2 Antworten

Ich versuche, mit Spark SQL zu schreiben parquet Datei. Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo. Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für

apache-spark-sql gzip lzo parquet snappy

Können wir laden, Parkett-Datei in Hive direkt?

4 Antworten

Ich weiß, wir können Last-Parkett-Datei mit Spark SQL und der Verwendung von Impala, aber Frage mich, ob wir das gleiche tun mit Hive. Ich lese viele Artikel, aber ich bin immer noch verwirrt. Einfach gesagt, ich habe

apache-spark-sql hadoop hive hiveql parquet

wie Zusammenführen mehrerer Parkett-Dateien in einzelne Parkett-Datei mit linux-oder hdfs-Befehl?

2 Antworten

Habe ich mehrere kleine parquet - Dateien generiert, die als Ausgabe des hive-ql-job, ich möchte die Zusammenführung der output-Dateien zu einzelnen Parkett-Datei? was ist der beste Weg, es zu tun mit einigen hdfs or linux commands? wir

hdfs parquet

Erstellen von hive-Tabelle mit Parkett-Datei-Metadaten

5 Antworten

Schrieb ich einen DataFrame, wie Parkett-Datei. Und, ich möchte die Datei zu Lesen, mithilfe von Hive mit Hilfe der Metadaten aus Parkett. Ausgabe vom schreiben Parkett schreiben _common_metadata part-r-00000-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet part-r-00002-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet _SUCCESS _metadata part-r-00001-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet part-r-00003-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet Hive-Tabelle CREATE TABLE

apache-spark hive parquet scala

Fügt neue Daten in partitionierte Parkett-Dateien

2 Antworten

Schreibe ich ein ETL-Prozess, wo ich Lesen muss stündlich log-Dateien, partition die Daten, und speichern Sie es. Ich bin mit Funken (in der Databricks). Die log-Dateien sind CSV, damit ich Sie Lesen, und wenden Sie ein schema,

apache-spark append parquet scala

Überprüfen Parkett von der Kommandozeile aus

5 Antworten

Wie kann ich überprüfen den Inhalt einer Parkett-Datei von der Befehlszeile aus? Ist die einzige option die ich sehe ist jetzt $ hadoop fs -get my-path local-file $ parquet-tools head local-file | less Möchte ich zu vermeiden,

parquet

Wie zu partitionieren und zu schreiben DataFrame in Funken, ohne das löschen von Partitionen, ohne dass neue Daten?

2 Antworten

Ich versuche zu sparen DataFrame auf HDFS in Parkett-format mit DataFrameWriter, aufgeteilt durch drei Spalte mit Werten wie diesen: dataFrame.write.mode(SaveMode.Overwrite).partitionBy("eventdate", "hour", "processtime").parquet(path) Wie bereits in diese Frage, partitionBy wird, löschen Sie die vollständigen bestehende Hierarchie von Partitionen

apache-spark parquet partitioning spark-dataframe

Wie teilt Parkett-Dateien in viele Partitionen in der Funke?

5 Antworten

Also ich habe nur 1 Parkett-Datei lese ich mit der Funke (mit der SQL-Zeug) und ich möchte es verarbeitet werden mit 100 Partitionen. Ich habe versucht Einstellung spark.default.parallelism auf 100, wir haben auch versucht, die änderung der

apache-spark parquet scala

Wie lese ich einen Parkett in R und konvertieren es in ein R DataFrame?

4 Antworten

Ich würde gerne Prozess Apache Parkett Dateien (in meinem Fall erzeugte Funken) in die R-Programmiersprache. Ist ein R-reader verfügbar? Oder ist die Arbeit getan, man? Wenn nicht, was wäre die sinnvollste Weg, um dorthin zu gelangen? Hinweis:

apache-spark parquet r sparkr

Schema evolution in Parkett-format

1 Antworten

Derzeit sind wir mit Avro-Daten-format in der Produktion. Aus N gute Punkte von Avro, wir wissen, dass es gut ist, in der schema-evolution. Nun evaluieren wir Parkett-format wegen seiner Effizienz beim Lesen von zufälligen Spalten. Also, bevor

apache-spark avro dataformat hadoop parquet

Gewusst wie: konvertieren eine csv-Datei zu Parkett

7 Antworten

Ich bin neu im Bereich Big data.Ich brauche zum konvertieren einer csv/txt-Datei für Parkett-format. Ich suchte eine Menge, aber konnte keine direkte Möglichkeit, dies zu tun. Gibt es irgendeine Möglichkeit das zu erreichen? InformationsquelleAutor der Frage author243

bigdata java parquet