Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Gewusst wie: anwenden einer Funktion auf eine Spalte einer Spark-DataFrame?

2 Antworten

Nehmen wir an, wir haben einen Funken DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame mit dem folgenden schema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) | |-- element: string

Können wir laden, Parkett-Datei in Hive direkt?

4 Antworten

Ich weiß, wir können Last-Parkett-Datei mit Spark SQL und der Verwendung von Impala, aber Frage mich, ob wir das gleiche tun mit Hive. Ich lese viele Artikel, aber ich bin immer noch verwirrt. Einfach gesagt, ich habe

apache-spark-sql hadoop hive hiveql parquet

SparkSQL - Lesen Parkett-Datei direkt

2 Antworten

Ich bin der Migration von Impala zu SparkSQL, verwenden Sie den folgenden code zum Einlesen einer Tabelle: my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table') Wie rufe ich SparkSQL oben, so dass es zurückgeben kann, so etwas wie: 'select col_A, col_B from

apache-spark apache-spark-sql hdfs hive scala

Spark SQL Row_number() PartitionBy Desc Sortieren

1 Antworten

Habe ich erfolgreich eine row_number() partitionBy von Zündkerzen mit Fenster, möchte aber Sortieren Sie diese nach absteigender, anstatt die Standardeinstellung aufsteigend. Hier ist mein Arbeits-code: from pyspark import HiveContext from pyspark.sql.types import * from pyspark.sql import Row,

apache-spark apache-spark-sql pyspark python window-functions

"sparkContext heruntergefahren wurde" während der Ausführung von spark auf einem großen dataset

3 Antworten

Beim laufen sparkJob auf einem cluster an einem bestimmten Daten Größe(~2,5 gb) bin ich immer entweder "Auftrag storniert, weil SparkContext wurde heruntergefahren" oder "Vollstrecker verloren". Bei der Betrachtung Garn gui sehe ich, dass die Arbeit, die getötet

apache-spark apache-spark-sql scala yarn

Was ist der Unterschied zwischen explodieren Funktion und operator?

1 Antworten

Was ist der Unterschied zwischen explode Funktion und explode Betreiber? InformationsquelleAutor Jacek Laskowski | 2017-04-24

apache-spark apache-spark-sql

Wie funktioniert createOrReplaceTempView Arbeit in der Funke?

3 Antworten

Ich bin neu auf Spark und Spark SQL. Wie funktioniert createOrReplaceTempView Arbeit in der Funke? Wenn wir registrieren eine RDD Objekten als Tabelle Funke hält alle Daten im Speicher? InformationsquelleAutor Abir Chokraborty | 2017-05-16

apache-spark apache-spark-sql spark-dataframe

Filtern von Spalten in PySpark

1 Antworten

Ich habe einen dataframe df geladen Hive-Tabelle hat eine timestamp-Spalte, sagen ts mit string-Typ des format dd-MMM-yy hh.mm.ss.MS a (konvertiert python datetime-Bibliothek, diese ist %d-%b-%y %I.%M.%S.%f %p). Nun möchte ich filtern von Zeilen aus der dataframe, die

apache-spark apache-spark-sql lambda pyspark python

Aufbau einer StructType aus einem dataframe in pyspark

2 Antworten

Ich bin neu Funke und python und mit Blick auf die Schwierigkeiten, die der Aufbau eines Schemas aus einer Metadaten-Datei, die angewendet werden können, um meine Daten-Datei. Szenario: Datei mit Metadaten für die Daten-Datei(csv-format) enthält, die Spalten

apache-spark apache-spark-sql dataframe pyspark python

Lesen multiline JSON in Apache Spark

2 Antworten

War ich versucht, einen JSON-Datei als eine kleine DB. Nach dem erstellen einer Vorlage-Tabelle auf DataFrame ich es mit SQL abgefragt und bekam eine Ausnahme. Hier ist mein code: val df = sqlCtx.read.json("/path/to/user.json") df.registerTempTable("user_tt") val info =

apache-spark apache-spark-sql json

Funke : Fehler Nicht gefunden Wert SC

4 Antworten

Ich habe gerade angefangen mit Spark. Ich habe CDH5 Installiert mit Spark . Jedoch, wenn ich versuche zu verwenden sparkcontext es gibt Fehler, wie unten <console>:17: error: not found: value sc val distdata = sc.parallelize(data) Habe ich

apache-spark apache-spark-sql

Lesen von csv-Dateien mit zitiert Felder, die eingebettete Kommas

3 Antworten

Ich lese eine csv-Datei in Pyspark wie folgt: df_raw=spark.read.option("header","true").csv(csv_path) Jedoch, die Daten-Datei angegeben hat Felder mit eingebetteten Kommata in Ihnen die sollte nicht behandelt werden wie Kommas. Wie kann ich mit dieser in Pyspark ? Ich weiß,

apache-spark apache-spark-2.0 apache-spark-sql csv pyspark

PySpark: Nehmen Sie den Durchschnitt einer Spalte nach mit filter-Funktion

1 Antworten

Ich bin mit dem folgenden code, um die Durchschnittliche Alter von Menschen, deren Gehalt größer ist als eine Schwelle. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) die Spalte Alter numeric (float), aber trotzdem bin ich immer diese Fehlermeldung. py4j.protocol.Py4JJavaError: An

apache-spark apache-spark-sql pyspark pyspark-sql python

Funke Lesen von Daten aus mysql parallel

2 Antworten

Im Versuch zum Lesen von Daten aus mysql und schreiben Sie es zurück an Parkett-Datei in s3 mit bestimmten Partitionen wie folgt: df=sqlContext.read.format('jdbc')\ .options(driver='com.mysql.jdbc.Driver',url="""jdbc:mysql://<host>:3306/<>db?user=<usr>&password=<pass>""", dbtable='tbl', numPartitions=4 )\ .load() df2=df.withColumn('updated_date',to_date(df.updated_at)) df2.write.parquet(path='s3n://parquet_location',mode='append',partitionBy=['updated_date']) Mein problem ist, dass es öffnet nur

apache-spark apache-spark-sql mysql pyspark

Das verbinden von zwei DataFrames aus der gleichen Quelle

2 Antworten

Ich bin mit dem DataFrame-API von pyspark (Apache Spark) und bin mit folgendem problem: Wenn ich an zwei DataFrames, die stammen aus der gleichen Quelle DataFrame, die resultierende DF explodieren, eine große Anzahl von Zeilen. Ein kurzes

apache-spark apache-spark-sql pyspark python

Konvertieren string in timestamp für Spark mit Scala

2 Antworten

Ich habe einen dataframe genannt train, hat er das folgende schema : root |-- date_time: string (nullable = true) |-- site_name: integer (nullable = true) |-- posa_continent: integer (nullable = true) Möchte ich warf die date_timeSpalte timestampund

apache-spark apache-spark-sql scala timestamp

So benennen Sie die Spaltennamen in spark SQL

2 Antworten

Ich habe einen dataframe mit konfigurierbare Spalte-Namen, z.B. Journey channelA channelB channelC j1 1 0 0 j1 0 1 0 j1 1 0 0 j2 0 0 1 j2 0 1 0 Durch konfigurierbare ich meine, es

apache-spark-sql dataframe spark-dataframe

Immer bestimmte Feld aus gewählten Zeile in Pyspark DataFrame

1 Antworten

Ich habe eine Spark-DataFrame gebaut durch pyspark aus einer JSON-Datei als sc = SparkContext() sqlc = SQLContext(sc) users_df = sqlc.read.json('users.json') Nun möchte ich Zugriff auf eine chosen_user Daten, wo dies ist das _id Feld. Ich kann tun

apache-spark apache-spark-sql dataframe pyspark python

So ändern Sie den Fall, der ganze Spalte in Kleinbuchstaben?

2 Antworten

apache-spark apache-spark-dataset apache-spark-sql spark-dataframe

PySpark-und broadcast-join Beispiel

2 Antworten

Bin ich mit Spark 1.3 # Read from text file, parse it and then do some basic filtering to get data1 data1.registerTempTable('data1') # Read from text file, parse it and then do some basic filtering to get

apache-spark apache-spark-sql pyspark python

Wie rufe ich eine UDF auf einen Funken DataFrame mit JAVA?

1 Antworten

Ähnliche Frage wie hier, aber haben nicht genug Punkte, um einen Kommentar gibt. Laut der neuesten Spark Dokumentation eine udf verwendet werden kann in zwei unterschiedlichen Möglichkeiten, eine mit SQL und den anderen mit einem DataFrame. Ich

apache-spark apache-spark-sql java user-defined-functions

Wie teilt man eine Spalte?

1 Antworten

Möchte ich sehen, wenn ich split eine Spalte in der Funke dataframes. Wie diese, Select employee, split(department,"_") from Employee InformationsquelleAutor ashK | 2016-03-24

apache-spark-sql spark-dataframe

Spark dataframe filter

3 Antworten

val df = sc.parallelize(Seq((1,"Emailab"), (2,"Phoneab"), (3, "Faxab"),(4,"Mail"),(5,"Other"),(6,"MSL12"),(7,"MSL"),(8,"HCP"),(9,"HCP12"))).toDF("c1","c2") +---+-------+ | c1| c2| +---+-------+ | 1|Emailab| | 2|Phoneab| | 3| Faxab| | 4| Mail| | 5| Other| | 6| MSL12| | 7| MSL| | 8| HCP| | 9| HCP12|

apache-spark apache-spark-sql scala

Verwendung der spark-DataFrame "als" Methode

1 Antworten

Ich bin auf der Suche spark.sql.DataFrame Dokumentation. Es ist def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0 Was ist der Zweck dieser Methode? Wie wird es eingesetzt? Kann es ein Beispiel

apache-spark apache-spark-sql dataframe scala

Warum hat spark-shell schlägt mit "Fehler: nicht gefunden: - Wert der Funke"?

6 Antworten

Ich benutze Spark 2.1.0. Wenn ich spark-shell ich auf diesen Fehler stoßen: <console>:14: error: not found: value spark import spark.implicits._ ^ <console>:14: error: not found: value spark import spark.sql ^ Was könnte der Grund sein? Wie es

apache-spark apache-spark-sql

Gibt es eine Möglichkeit zu filtern, ein Feld nicht mit etwas in einem spark-dataframe mit scala?

2 Antworten

Hoffentlich bin ich dumm und das wird einfach sein. Ich habe einen dataframe mit den Spalten " url " und "referrer'. Möchte ich extrahieren Sie alle Verweise enthalten die top-level-domain 'www.mydomain.com' und 'mydomain.co'. Kann ich verwenden val

apache-spark apache-spark-sql scala

Wie zu tun, left outer join in spark sql?

3 Antworten

Ich versuche zu tun, eine linke äußere Verknüpfung in der Funke (1.6.2) und es funktioniert nicht. Meine sql-Abfrage sieht so aus: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where

apache-spark apache-spark-sql pyspark

Wie kann ich den pass zusätzliche Parameter, um UDFs in Spark SQL?

2 Antworten

Möchte ich analysieren, die Datum-Spalten in einer DataFrame, und für jede Spalte Datum, die Auflösung für das Datum können Sie ändern (D. H. 2011/01/10 => 2011 /01 wenn Sie die Auflösung auf "Monat"). Schrieb ich den folgenden

apache-spark apache-spark-sql scala user-defined-functions

Fügt zwei Spalten zu vorhandenen DataFrame mit withColumn

1 Antworten

Ich habe eine DataFrame mit ein paar Spalten. Ich möchte nun fügen Sie zwei weitere Spalten, um die bestehenden DataFrame. Momentan mache ich dies mit withColumn Methode in DataFrame. zum Beispiel: df.withColumn("newColumn1", udf(col("somecolumn"))) .withColumn("newColumn2", udf(col("somecolumn"))) Eigentlich, ich

apache-spark-sql dataframe scala

Spark 2.0: Relativer Pfad in absoluten URI (Funke-Lager)

1 Antworten

Ich versuche, die Migration von Spark 1.6.1 Spark-Version 2.0.0 und ich erhalte eine seltsame Fehlermeldung, wenn Sie versuchen zu Lesen einer csv-Datei in SparkSQL. Früher, wenn ich lese eine Datei von der lokalen Festplatte in pyspark ich

apache-spark apache-spark-sql pyspark pyspark-sql windows

Wie die Flucht Spaltennamen mit Bindestrich in Spark SQL

3 Antworten

Habe ich importiert eine json-Datei in Spark und konvertierten es in einer Tabelle als myDF.registerTempTable("myDF") Dann möchte ich ausführen von SQL-Abfragen auf diese resultierende Tabelle val newTable = sqlContext.sql("select column-1 from myDF") Jedoch das gibt mir eine

apache-spark apache-spark-sql scala

Wo finde Spark SQL-syntax-Referenz?

2 Antworten

Wissen wir alle syntax-Referenz für spark-sql? Ich meine, der Stil wie MySQL SELECT-syntax, oder PostgreSQL Dokumentation: WÄHLEN Sie. Wenn nicht, was ist die beste Quelle die wir zugreifen können? InformationsquelleAutor Notinlist | 2015-06-17

apache-spark apache-spark-sql

So finden Zählung von Null und Nan-Werte für jede Spalte in einer PySpark dataframe effizient?

2 Antworten

import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))], ('session', "timestamp1", "id2")) Erwartete Ausgabe dataframe mit Graf von

apache-spark apache-spark-sql pyspark pyspark-sql

Spark sql Dataframe - import sqlContext.implicits._

1 Antworten

Habe ich main, erstellt spark Kontext: val sc = new SparkContext(sparkConf) val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ Dann schafft dataframe und hat Filter und Validierungen auf der dataframe. val convertToHourly = udf((time: String) => time.substring(0, time.indexOf(':'))

apache-spark-sql spark-dataframe

Abrufen der eindeutigen Werte in einer Spalte mithilfe von Spark-DataFrame

1 Antworten

Verwendung von Spark-1.6.1 version, die ich brauche zu Holen, verschiedene Werte für eine Spalte und dann führen Sie einige spezielle transformation oben drauf. Die Spalte enthält mehr als 50 Millionen Schallplatten und heranwachsen können. Ich verstehe, dass

apache-spark apache-spark-sql dataframe scala spark-dataframe

Spalte alias nach groupBy in pyspark

3 Antworten

Brauche ich die daraus resultierenden Daten-frame in der Zeile unterhalb, um einen alias-Namen "maxDiff" für den max('diff') - Spalte nach groupBy. Doch die unter Zeile nicht makeany ändern, noch wird ein Fehler ausgelöst. grpdf = joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff") InformationsquelleAutor

apache-spark apache-spark-sql pyspark python scala

Ersetzen Sie leere strings mit Keine/null-Werte in DataFrame

4 Antworten

Ich habe eine Spark 1.5.0 DataFrame mit einer Mischung aus null und leere Zeichenfolgen in der gleichen Spalte. Ich möchte konvertieren alle leeren Zeichenfolgen in alle Spalten null (Nonein Python). Der DataFrame haben Hunderte von Spalten, also

apache-spark apache-spark-sql dataframe pyspark python

Wie teilt man einen dataframe in dataframes mit gleichen Spaltenwerten?

2 Antworten

Mit Scala, wie kann ich die split-dataFrame in mehrere dataFrame (array oder collection) mit gleichen Spalte Wert. Zum Beispiel möchte ich teilen Sie die folgenden DataFrame: ID Rate State 1 24 AL 2 35 MN 3 46

apache-spark apache-spark-sql dataframe scala

Fügen Sie eine leere Spalte auf Spark-DataFrame

2 Antworten

Wie bereits in viele andere Orte auf der Website, das hinzufügen einer neuen Spalte zu einer vorhandenen DataFrame ist nicht einfach. Leider ist es wichtig, diese Funktionalität (auch wenn es ineffizient ist, die in einer verteilten Umgebung)

apache-spark apache-spark-sql dataframe pyspark python

Wert toDF ist nicht ein Mitglied der org.apache.spark.rdd.RDD

4 Antworten

Ausnahme : val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person] Hier ist TestApp.scala Datei: package main.scala import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf case class Record1(k: Int, v: String) object RDDToDataFramesWithCaseClasses

apache-spark-sql sbt

DataFrame Gleichheit in Apache Spark

5 Antworten

Übernehmen df1 und df2 sind zwei DataFrames in Apache Spark, berechnet mit zwei unterschiedlichen Mechanismen, z.B. Spark SQL vs. Scala/Java - /Python-API. Ist es ein idiomatischer Weg um zu bestimmen, ob die zwei Daten-Rahmen sind gleichwertig (gleich,

apache-spark apache-spark-sql dataframe rdd scala

So ändern Sie die Spalte Typ von String auf Datum in DataFrames?

1 Antworten

Habe ich ein dataframe mit zwei Spalten (C, D) definiert als string-Spalte-Typ, aber die Daten in den Spalten sind eigentlich stammt. zum Beispiel Spalte C wird das Datum "01-APR-2015" und Spalte D als "20150401" ich möchte diese

apache-spark apache-spark-sql scala

Spark dataframe verwandeln mehrere Zeilen zu Spalte

2 Antworten

Ich bin ein Neuling zu entfachen, und ich möchte verwandeln unten Quelle dataframe (laden von JSON-Datei): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| |

apache-spark apache-spark-sql dataframe python rdd

Wie aktualisieren Sie die Spalte auf Grundlage einer Bedingung (einem Wert in einer Gruppe)?

5 Antworten

Habe ich Folgendes df: +---+----+-----+ |sno|dept|color| +---+----+-----+ | 1| fn| red| | 2| fn| blue| | 3| fn|green| +---+----+-----+ Wenn eine der color-Spalte Werte ist red ich dann alle Werte der Spalte Farbe sollten aktualisiert werden, um

apache-spark apache-spark-sql scala

Hinzufügen eines neuen Struct-Spalte, um ein DataFrame

2 Antworten

Ich bin gerade dabei, extrahieren Sie eine Datenbank von MongoDB und verwenden von Spark für das Einlesen in ElasticSearch mit geo_points. Den Mongo-Datenbank hat, werden Längen-und Breitengrad-Werte, aber ElasticSearch verlangt, dass Sie gegossen werden in der geo_point

apache-spark apache-spark-sql elasticsearch etl scala

Fehler bei der Verwendung von Hive Kontext, in Funke : die Objekt-Struktur nicht Mitglied der package org.apache.spark.sql

5 Antworten

Ich versuche zu konstruieren, ein Bienenkorb Kontext ,die erbt von SQLContext. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Bekomme ich die folgende Fehlermeldung: error: object hive is not a member of package org.apache.spark.sql val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Ich

apache-spark apache-spark-sql

DataFrame join-Optimierung - Broadcast-Hash-Join

5 Antworten

Ich versuche effektiv zu verbinden zwei DataFrames, von denen der eine groß ist und der zweite ist ein bisschen kleiner. Gibt es eine Möglichkeit, dies zu vermeiden mischen? Ich kann mich nicht festlegen autoBroadCastJoinThreshold, denn es unterstützt

apache-spark apache-spark-1.4 apache-spark-sql dataframe

Aggregieren von mehreren Spalten mit einer benutzerdefinierten Funktion in der Funke

4 Antworten

Ich Frage mich, ob es eine Möglichkeit gibt, geben Sie eine benutzerdefinierte aggregation-Funktion für spark dataframes über mehrere Spalten. Ich habe eine Tabelle wie diese von der Art (name, Artikelnummer, Preis): john | tomato | 1.99 john

apache-spark apache-spark-sql dataframe orc scala

Anzahl reduzieren, Aufgaben Funke

2 Antworten

Was ist die Formel, die Funken verwendet, um zu berechnen, die Zahl der Aufgaben reduzieren? Ich bin mit ein paar spark-sql-Abfragen und die Anzahl von reduce-tasks ist immer 200. Die Anzahl der map-tasks für diese Abfragen ist

apache-spark apache-spark-sql

Un-persistierende alle dataframes in (py)Funken

3 Antworten

Ich bin ein spark-Anwendung mit mehreren Punkten, an denen würde ich gerne beibehalten des aktuellen Status. Dies ist in der Regel nach einem großen Schritt, oder "caching" als einem Zustand, dass ich verwenden möchten, um mehrere Male.

apache-spark apache-spark-sql caching pyspark python