Tag: parquet
Parkett ist ein columnar storage format für Hadoop.
1
Antworten
Zündkerzen 1.6.2 ich bin in der Lage zu Lesen, lokalen Parkett-Dateien aus, indem Sie eine sehr einfache: SQLContext sqlContext = new SQLContext(new SparkContext("local[*]", "Java Spark SQL Example")); DataFrame parquet = sqlContext.read().parquet("file:///C:/files/myfile.csv.parquet"); parquet.show(20); Ich versuche, zu aktualisieren, um
4
Antworten
Ich habe mehrere jobs, die ich will, um parallel ausgeführt werden, append Daten werden täglich in den gleichen Pfad mit der Partitionierung. z.B. dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parquet("s3://bucket/save/path"); Job 1 - category = "billing_events" Job 2 -
3
Antworten
Suche nach einem prägnanten Beispiel, wie man Lesen und schreiben Map<String, Object> ab/bis Parkett-Datei in Java oder Scala? Hier wird erwartet, Struktur, mit com.fasterxml.jackson.databind.ObjectMapper als Serialisierung in Java (d.h. Suche für gleichwertig mit Parkett): public static Map<String,
3
Antworten
Ich bin neu in der BigData-eco-system und die Art der Vorbereitungen. Habe ich gelesen mehrere Artikel, die über das Lesen einer kafka-Thema der Verwendung von spark-streaming, aber würde gerne wissen, ob es möglich ist, zu Lesen von
2
Antworten
Kenne ich die syntax für das erstellen einer Tabelle mit Parkett, aber ich möchte wissen, was bedeutet das für das erstellen von Tabellen mit Parkett-format und komprimiert, bissig und wie wir das tun ? bitte helfen Sie
2
Antworten
Ich versuche zu konvertieren .csv-Datei ein .Parkett-Datei. Die csv-Datei (Temp.csv) hat das folgende format 1,Jon,Doe,Denver Ich bin mit dem folgenden python-code zu konvertieren es in Parkett from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import
1
Antworten
Ich habe eine Tabelle mit Partitionen und ich benutze avro-Dateien oder text-Dateien zu erstellen und in eine Tabelle einfügen. Sobald die Tabelle fertig ist, ist es ein Weg, um konvertieren in das Parkett. Ich meine, ich weiß,
1
Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");
3
Antworten
Wie Sie append/update auf eine parquet - Datei mit pyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3
2
Antworten
Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code
1
Antworten
Den Namen der Spalten in diesem Beispiel aus der spark-sql-kommen aus der case class Person. case class Person(name: String, age: Int) val people: RDD[Person] = ... //An RDD of case class objects, from the previous example. //The
2
Antworten
Parkett docs von cloudera zeigt Beispiele der integration mit pig/hive/impala. aber in vielen Fällen, die ich Lesen will der Parkett-Datei selbst für debugging-Zwecke. gibt es eine einfache java-reader-api zu Lesen, dass ein Parkett-Datei ? Dank Yang Dies
2
Antworten
Ich würde gerne in der Lage sein, um einen schnellen Auswahl-Abfrage auf einem Parkett-Tabelle. Die Menge der Daten, die zurückgegeben werden, ist sehr klein im Vergleich zur Gesamtgröße, sondern weil eine ganze Spalte scan muss durchgeführt werden,
3
Antworten
Ich habe eine SPARK-Projekt und läuft auf einem Cloudera VM. Auf meinem Projekt, das ich zum laden der Daten aus einer Parkett-Datei und dann die Daten verarbeiten. Alles funktioniert einwandfrei, aber Das problem ist, dass ich brauche,
3
Antworten
Habe ich eine gespeicherte Datei im HDFS als part-m-00000.gz.parquet Habe ich versucht zu laufen hdfs dfs -text dir/part-m-00000.gz.parquet aber es ist komprimiert, also lief ich gunzip part-m-00000.gz.parquet aber nicht Dekomprimieren Sie die Datei, da es nicht erkennen
7
Antworten
Ich bin Planung, um die Verwendung eines hadoop-file-format für meine hadoop-bezogenen Projekt. Ich verstehen Parkett ist effizient für Spalte-basierte Abfrage-und avro für full scan oder wenn wir müssen alle Spalten Daten! Bevor ich gehen und wählen Sie
7
Antworten
response = "mi_or_chd_5" outcome = sqlc.sql("""select eid,{response} as response from outcomes where {response} IS NOT NULL""".format(response=response)) outcome.write.parquet(response, mode="overwrite") # Success print outcome.schema StructType(List(StructField(eid,IntegerType,true),StructField(response,ShortType,true))) Aber dann: outcome2 = sqlc.read.parquet(response) # fail schlägt fehl mit: AnalysisException: u'Unable to infer
3
Antworten
Ich habe Probleme bei der Suche eine Bibliothek, die es ermöglicht Parkett-Dateien geschrieben werden, mit Python. Bonus Punkte, wenn ich Bissig oder eine ähnliche Kompression Mechanismus in Verbindung mit Ihr. Bisher die einzige Methode, die ich gefunden
4
Antworten
In der Funke docs ist auch klar, wie zu erstellen, Parkett-Dateien von RDD Ihre eigenen Fall-Klassen; (aus der Dokumentation) val people: RDD[Person] = ??? //An RDD of case class objects, from the previous example. //The RDD is
2
Antworten
Verwenden wir eine Spark-cluster als yarn-client zu berechnen, die mehrere business, aber manchmal haben wir eine Aufgabe ausführen zu lange Zeit: Wir nicht festlegen timeout-aber ich denke, dass Standard-timeout einen Funken Aufgabe ist nicht zu lang, so
3
Antworten
Konnte ich nicht finden keine plain-Englisch Erklärungen zu Apache Parkett-Dateien. Wie: Was sind Sie? Brauche ich HDFS-Hadoop oder zum anzeigen/erstellen/speichern? Wie kann ich erstellen, Parkett-Dateien? Wie kann ich Parkett-Dateien? Jede Hilfe in Bezug auf diese Fragen sehr
2
Antworten
Habe ich ein Szenario, wo konvertieren Sie die Nachrichten präsentieren als Json-Objekt zu Apache Parkett-format mit Java. Jede sample-code oder Beispiele wären hilfreich. Soweit was ich gefunden habe, konvertieren Sie die Nachrichten auf das Parkett entweder Hive,
1
Antworten
Ich versuche, eine Tabelle importieren-Daten aus der Rotverschiebung zu HDFS (mit Parkett-format) und mit Blick auf die Fehlermeldung, die unten gezeigt: 15/06/25 11:05:42 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException java.lang.NullPointerException at org.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:97) at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:478) at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:605)
2
Antworten
Ich bin mit dem folgenden code zu erstellen ParquetWriter und schreiben von Datensätzen. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); final GenericRecord record = new GenericData.Record(avroSchema); parquetWriter.write(record); Sondern es nur ermöglicht das erstellen neuer Dateien(im
3
Antworten
Habe ich Zugang zu einem hdfs-Dateisystem und kann sehen Parkett-Dateien mit hadoop fs -ls /user/foo Wie kann ich kopieren Sie diese Parkett-Dateien auf meinem lokalen system und konvertieren Sie Sie in csv, damit ich Sie verwenden kann?
2
Antworten
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value").alias("TotalValue")) .sort($"Hour".asc,$"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1|
1
Antworten
Ich versuche, dynamisch (ohne Auflistung von Spaltennamen und-Typen in Hive-DDL) anlegen einer externen Hive-Tabelle, die auf Parkett-Dateien. Ich habe die Avro-schema der zugrunde liegenden Parkett-Datei. Meinen versuchen ist, verwenden Sie die folgende DDL: CREATE EXTERNAL TABLE parquet_test
2
Antworten
Ich versuche, die Dateien Lesen, die anwesend Sequence Wege in scala. Ist unten das Beispiel (pseudo -) code: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*) Nun, in der oben genannten Reihenfolge, einige
4
Antworten
Ich Lesen kann, einige json-Dateien zur gleichen Zeit mit * (Stern): sqlContext.jsonFile('/path/to/dir/*.json') Gibt es eine Möglichkeit, das gleiche zu tun, für Parkett? Sterne nicht funktioniert. InformationsquelleAutor SkyFox | 2015-05-24
1
Antworten
Sind wir auf der Suche nach einer Lösung, um eine externe hive-Tabelle zum Lesen von Daten aus Parkett-Dateien nach einem Parkett - /avro-schema. in anderer Weise, so erzeugen Sie eine hive-Tabelle aus einer Parkett - /avro-schema ?
2
Antworten
Gibt es eine Möglichkeit zu schaffen, Parkett-Dateien von java? Ich habe Daten im Speicher (java-Klassen), und ich will schreiben Sie ihn in einen Parkett-Datei, um Sie später zu Lesen von apache-drill. Gibt es eine einfache Möglichkeit, dies
4
Antworten
In der Funke, was ist der beste Weg zu kontrollieren, Datei-Größe der Ausgabe-Datei. Zum Beispiel, in log4j können wir angeben, max Datei-Größe, nach dem sich die Datei rotiert. Ich bin auf der Suche nach ähnlichen Lösung für
5
Antworten
Bin ich das Lesen von text-Dateien und konvertiert Sie zu Parkett-Dateien. Ich mache es über spark-code. Aber wenn ich versuche den code auszuführen bekomme ich folgende exception org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in
2
Antworten
Ich versuche, zu testen, wie das schreiben von Daten in HDFS 2.7 Verwendung von Spark-2.1. Meine Daten ist eine einfache Abfolge von dummy-Werte und die Ausgabe sollte partitioniert werden durch die Attribute: id und Schlüssel. //Simple case
2
Antworten
Art von edge-Fall, beim speichern von Parkett-Tabelle in Spark SQL mit partition #schema definitioin final StructType schema = DataTypes.createStructType(Arrays.asList( DataTypes.createStructField("time", DataTypes.StringType, true), DataTypes.createStructField("accountId", DataTypes.StringType, true), ... DataFrame df = hiveContext.read().schema(schema).json(stringJavaRDD); df.coalesce(1) .write() .mode(SaveMode.Append) .format("parquet") .partitionBy("year") .saveAsTable("tblclick8partitioned"); Funke
3
Antworten
Ich Lesen müssen, Parkett-Dateien aus mehreren Pfaden, die nicht über-oder untergeordnete Verzeichnisse. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ------- dir2_2 sqlContext.read.parquet(dir1) liest Parkett-Dateien von dir1_1 und dir1_2 Recht
5
Antworten
Habe ich einfachen text-Tabelle (getrennt durch ",") mit dem folgenden format: orderID INT, CustID INT, OrderTotal FLOAT, OrderNumItems INT, OrderDesc STRING Ich einfügen möchte, werden diese Daten in ein Parkett-Tabelle: Ich habe die Tabelle angelegt mit: CREATE
1
Antworten
Ich bin neu in Apache Spark 1.3.1. Wie konvertiere ich eine JSON-Datei zu Parkett? Sie können auch mithilfe von Apache Drill (vielleicht leichter zu setup), können Sie konvertieren von JSON aus einem lokalen Dateisystem HDFS-Parkett in 1
2
Antworten
Ich habe eine spark-Arbeit (1.4.1) empfängt einen Strom von kafka Veranstaltungen. Ich möchte speichern Sie Sie ständig als Parkett auf tachyon. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2) lines.window(Seconds(1), Seconds(1)).foreachRDD { (rdd, time) => if (rdd.count() >
2
Antworten
Ich versuche, mit Spark SQL zu schreiben parquet Datei. Standardmäßig Spark SQL unterstützt gzip, aber es unterstützt auch andere Kompressions-Formate wie snappy und lzo. Was ist der Unterschied zwischen diesen Kompressions-Formate und welches ist am besten für
4
Antworten
Ich weiß, wir können Last-Parkett-Datei mit Spark SQL und der Verwendung von Impala, aber Frage mich, ob wir das gleiche tun mit Hive. Ich lese viele Artikel, aber ich bin immer noch verwirrt. Einfach gesagt, ich habe
2
Antworten
Habe ich mehrere kleine parquet - Dateien generiert, die als Ausgabe des hive-ql-job, ich möchte die Zusammenführung der output-Dateien zu einzelnen Parkett-Datei? was ist der beste Weg, es zu tun mit einigen hdfs or linux commands? wir
5
Antworten
Schrieb ich einen DataFrame, wie Parkett-Datei. Und, ich möchte die Datei zu Lesen, mithilfe von Hive mit Hilfe der Metadaten aus Parkett. Ausgabe vom schreiben Parkett schreiben _common_metadata part-r-00000-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet part-r-00002-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet _SUCCESS _metadata part-r-00001-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet part-r-00003-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet Hive-Tabelle CREATE TABLE
2
Antworten
Schreibe ich ein ETL-Prozess, wo ich Lesen muss stündlich log-Dateien, partition die Daten, und speichern Sie es. Ich bin mit Funken (in der Databricks). Die log-Dateien sind CSV, damit ich Sie Lesen, und wenden Sie ein schema,
5
Antworten
Wie kann ich überprüfen den Inhalt einer Parkett-Datei von der Befehlszeile aus? Ist die einzige option die ich sehe ist jetzt $ hadoop fs -get my-path local-file $ parquet-tools head local-file | less Möchte ich zu vermeiden,
2
Antworten
Ich versuche zu sparen DataFrame auf HDFS in Parkett-format mit DataFrameWriter, aufgeteilt durch drei Spalte mit Werten wie diesen: dataFrame.write.mode(SaveMode.Overwrite).partitionBy("eventdate", "hour", "processtime").parquet(path) Wie bereits in diese Frage, partitionBy wird, löschen Sie die vollständigen bestehende Hierarchie von Partitionen
5
Antworten
Also ich habe nur 1 Parkett-Datei lese ich mit der Funke (mit der SQL-Zeug) und ich möchte es verarbeitet werden mit 100 Partitionen. Ich habe versucht Einstellung spark.default.parallelism auf 100, wir haben auch versucht, die änderung der
4
Antworten
Ich würde gerne Prozess Apache Parkett Dateien (in meinem Fall erzeugte Funken) in die R-Programmiersprache. Ist ein R-reader verfügbar? Oder ist die Arbeit getan, man? Wenn nicht, was wäre die sinnvollste Weg, um dorthin zu gelangen? Hinweis:
1
Antworten
Derzeit sind wir mit Avro-Daten-format in der Produktion. Aus N gute Punkte von Avro, wir wissen, dass es gut ist, in der schema-evolution. Nun evaluieren wir Parkett-format wegen seiner Effizienz beim Lesen von zufälligen Spalten. Also, bevor
7
Antworten
Ich bin neu im Bereich Big data.Ich brauche zum konvertieren einer csv/txt-Datei für Parkett-format. Ich suchte eine Menge, aber konnte keine direkte Möglichkeit, dies zu tun. Gibt es irgendeine Möglichkeit das zu erreichen? InformationsquelleAutor der Frage author243