Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Gewusst wie: anwenden einer Funktion auf eine Spalte einer Spark-DataFrame?

Anzahl der Antworten 2 Antworten
Nehmen wir an, wir haben einen Funken DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame mit dem folgenden schema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) | |-- element: string

Können wir laden, Parkett-Datei in Hive direkt?

Anzahl der Antworten 4 Antworten
Ich weiß, wir können Last-Parkett-Datei mit Spark SQL und der Verwendung von Impala, aber Frage mich, ob wir das gleiche tun mit Hive. Ich lese viele Artikel, aber ich bin immer noch verwirrt. Einfach gesagt, ich habe

SparkSQL - Lesen Parkett-Datei direkt

Anzahl der Antworten 2 Antworten
Ich bin der Migration von Impala zu SparkSQL, verwenden Sie den folgenden code zum Einlesen einer Tabelle: my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table') Wie rufe ich SparkSQL oben, so dass es zurückgeben kann, so etwas wie: 'select col_A, col_B from

Spark SQL Row_number() PartitionBy Desc Sortieren

Anzahl der Antworten 1 Antworten
Habe ich erfolgreich eine row_number() partitionBy von Zündkerzen mit Fenster, möchte aber Sortieren Sie diese nach absteigender, anstatt die Standardeinstellung aufsteigend. Hier ist mein Arbeits-code: from pyspark import HiveContext from pyspark.sql.types import * from pyspark.sql import Row,

"sparkContext heruntergefahren wurde" während der Ausführung von spark auf einem großen dataset

Anzahl der Antworten 3 Antworten
Beim laufen sparkJob auf einem cluster an einem bestimmten Daten Größe(~2,5 gb) bin ich immer entweder "Auftrag storniert, weil SparkContext wurde heruntergefahren" oder "Vollstrecker verloren". Bei der Betrachtung Garn gui sehe ich, dass die Arbeit, die getötet

Was ist der Unterschied zwischen explodieren Funktion und operator?

Anzahl der Antworten 1 Antworten
Was ist der Unterschied zwischen explode Funktion und explode Betreiber? InformationsquelleAutor Jacek Laskowski | 2017-04-24

Wie funktioniert createOrReplaceTempView Arbeit in der Funke?

Anzahl der Antworten 3 Antworten
Ich bin neu auf Spark und Spark SQL. Wie funktioniert createOrReplaceTempView Arbeit in der Funke? Wenn wir registrieren eine RDD Objekten als Tabelle Funke hält alle Daten im Speicher? InformationsquelleAutor Abir Chokraborty | 2017-05-16

Filtern von Spalten in PySpark

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe df geladen Hive-Tabelle hat eine timestamp-Spalte, sagen ts mit string-Typ des format dd-MMM-yy hh.mm.ss.MS a (konvertiert python datetime-Bibliothek, diese ist %d-%b-%y %I.%M.%S.%f %p). Nun möchte ich filtern von Zeilen aus der dataframe, die

Aufbau einer StructType aus einem dataframe in pyspark

Anzahl der Antworten 2 Antworten
Ich bin neu Funke und python und mit Blick auf die Schwierigkeiten, die der Aufbau eines Schemas aus einer Metadaten-Datei, die angewendet werden können, um meine Daten-Datei. Szenario: Datei mit Metadaten für die Daten-Datei(csv-format) enthält, die Spalten

Lesen multiline JSON in Apache Spark

Anzahl der Antworten 2 Antworten
War ich versucht, einen JSON-Datei als eine kleine DB. Nach dem erstellen einer Vorlage-Tabelle auf DataFrame ich es mit SQL abgefragt und bekam eine Ausnahme. Hier ist mein code: val df = sqlCtx.read.json("/path/to/user.json") df.registerTempTable("user_tt") val info =

Funke : Fehler Nicht gefunden Wert SC

Anzahl der Antworten 4 Antworten
Ich habe gerade angefangen mit Spark. Ich habe CDH5 Installiert mit Spark . Jedoch, wenn ich versuche zu verwenden sparkcontext es gibt Fehler, wie unten <console>:17: error: not found: value sc val distdata = sc.parallelize(data) Habe ich

Lesen von csv-Dateien mit zitiert Felder, die eingebettete Kommas

Anzahl der Antworten 3 Antworten
Ich lese eine csv-Datei in Pyspark wie folgt: df_raw=spark.read.option("header","true").csv(csv_path) Jedoch, die Daten-Datei angegeben hat Felder mit eingebetteten Kommata in Ihnen die sollte nicht behandelt werden wie Kommas. Wie kann ich mit dieser in Pyspark ? Ich weiß,

PySpark: Nehmen Sie den Durchschnitt einer Spalte nach mit filter-Funktion

Anzahl der Antworten 1 Antworten
Ich bin mit dem folgenden code, um die Durchschnittliche Alter von Menschen, deren Gehalt größer ist als eine Schwelle. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) die Spalte Alter numeric (float), aber trotzdem bin ich immer diese Fehlermeldung. py4j.protocol.Py4JJavaError: An

Funke Lesen von Daten aus mysql parallel

Anzahl der Antworten 2 Antworten
Im Versuch zum Lesen von Daten aus mysql und schreiben Sie es zurück an Parkett-Datei in s3 mit bestimmten Partitionen wie folgt: df=sqlContext.read.format('jdbc')\ .options(driver='com.mysql.jdbc.Driver',url="""jdbc:mysql://<host>:3306/<>db?user=<usr>&password=<pass>""", dbtable='tbl', numPartitions=4 )\ .load() df2=df.withColumn('updated_date',to_date(df.updated_at)) df2.write.parquet(path='s3n://parquet_location',mode='append',partitionBy=['updated_date']) Mein problem ist, dass es öffnet nur

Das verbinden von zwei DataFrames aus der gleichen Quelle

Anzahl der Antworten 2 Antworten
Ich bin mit dem DataFrame-API von pyspark (Apache Spark) und bin mit folgendem problem: Wenn ich an zwei DataFrames, die stammen aus der gleichen Quelle DataFrame, die resultierende DF explodieren, eine große Anzahl von Zeilen. Ein kurzes

Konvertieren string in timestamp für Spark mit Scala

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe genannt train, hat er das folgende schema : root |-- date_time: string (nullable = true) |-- site_name: integer (nullable = true) |-- posa_continent: integer (nullable = true) Möchte ich warf die date_timeSpalte timestampund

So benennen Sie die Spaltennamen in spark SQL

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe mit konfigurierbare Spalte-Namen, z.B. Journey channelA channelB channelC j1 1 0 0 j1 0 1 0 j1 1 0 0 j2 0 0 1 j2 0 1 0 Durch konfigurierbare ich meine, es

Immer bestimmte Feld aus gewählten Zeile in Pyspark DataFrame

Anzahl der Antworten 1 Antworten
Ich habe eine Spark-DataFrame gebaut durch pyspark aus einer JSON-Datei als sc = SparkContext() sqlc = SQLContext(sc) users_df = sqlc.read.json('users.json') Nun möchte ich Zugriff auf eine chosen_user Daten, wo dies ist das _id Feld. Ich kann tun

So ändern Sie den Fall, der ganze Spalte in Kleinbuchstaben?

Anzahl der Antworten 2 Antworten
Möchte ich Ändern bei ganze Spalte in Kleinbuchstaben Funke Dataset Desired Input +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|BRUSH & BROOM HAN...| | XYZ|WHEEL BRUSH PARTS...| +------+--------------------+ Desired Output +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|brush &

PySpark-und broadcast-join Beispiel

Anzahl der Antworten 2 Antworten
Bin ich mit Spark 1.3 # Read from text file, parse it and then do some basic filtering to get data1 data1.registerTempTable('data1') # Read from text file, parse it and then do some basic filtering to get

Wie rufe ich eine UDF auf einen Funken DataFrame mit JAVA?

Anzahl der Antworten 1 Antworten
Ähnliche Frage wie hier, aber haben nicht genug Punkte, um einen Kommentar gibt. Laut der neuesten Spark Dokumentation eine udf verwendet werden kann in zwei unterschiedlichen Möglichkeiten, eine mit SQL und den anderen mit einem DataFrame. Ich

Wie teilt man eine Spalte?

Anzahl der Antworten 1 Antworten
Möchte ich sehen, wenn ich split eine Spalte in der Funke dataframes. Wie diese, Select employee, split(department,"_") from Employee InformationsquelleAutor ashK | 2016-03-24

Spark dataframe filter

Anzahl der Antworten 3 Antworten
val df = sc.parallelize(Seq((1,"Emailab"), (2,"Phoneab"), (3, "Faxab"),(4,"Mail"),(5,"Other"),(6,"MSL12"),(7,"MSL"),(8,"HCP"),(9,"HCP12"))).toDF("c1","c2") +---+-------+ | c1| c2| +---+-------+ | 1|Emailab| | 2|Phoneab| | 3| Faxab| | 4| Mail| | 5| Other| | 6| MSL12| | 7| MSL| | 8| HCP| | 9| HCP12|

Verwendung der spark-DataFrame "als" Methode

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche spark.sql.DataFrame Dokumentation. Es ist def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0 Was ist der Zweck dieser Methode? Wie wird es eingesetzt? Kann es ein Beispiel

Warum hat spark-shell schlägt mit "Fehler: nicht gefunden: - Wert der Funke"?

Anzahl der Antworten 6 Antworten
Ich benutze Spark 2.1.0. Wenn ich spark-shell ich auf diesen Fehler stoßen: <console>:14: error: not found: value spark import spark.implicits._ ^ <console>:14: error: not found: value spark import spark.sql ^ Was könnte der Grund sein? Wie es

Gibt es eine Möglichkeit zu filtern, ein Feld nicht mit etwas in einem spark-dataframe mit scala?

Anzahl der Antworten 2 Antworten
Hoffentlich bin ich dumm und das wird einfach sein. Ich habe einen dataframe mit den Spalten " url " und "referrer'. Möchte ich extrahieren Sie alle Verweise enthalten die top-level-domain 'www.mydomain.com' und 'mydomain.co'. Kann ich verwenden val

Wie zu tun, left outer join in spark sql?

Anzahl der Antworten 3 Antworten
Ich versuche zu tun, eine linke äußere Verknüpfung in der Funke (1.6.2) und es funktioniert nicht. Meine sql-Abfrage sieht so aus: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where

Wie kann ich den pass zusätzliche Parameter, um UDFs in Spark SQL?

Anzahl der Antworten 2 Antworten
Möchte ich analysieren, die Datum-Spalten in einer DataFrame, und für jede Spalte Datum, die Auflösung für das Datum können Sie ändern (D. H. 2011/01/10 => 2011 /01 wenn Sie die Auflösung auf "Monat"). Schrieb ich den folgenden

Fügt zwei Spalten zu vorhandenen DataFrame mit withColumn

Anzahl der Antworten 1 Antworten
Ich habe eine DataFrame mit ein paar Spalten. Ich möchte nun fügen Sie zwei weitere Spalten, um die bestehenden DataFrame. Momentan mache ich dies mit withColumn Methode in DataFrame. zum Beispiel: df.withColumn("newColumn1", udf(col("somecolumn"))) .withColumn("newColumn2", udf(col("somecolumn"))) Eigentlich, ich

Spark 2.0: Relativer Pfad in absoluten URI (Funke-Lager)

Anzahl der Antworten 1 Antworten
Ich versuche, die Migration von Spark 1.6.1 Spark-Version 2.0.0 und ich erhalte eine seltsame Fehlermeldung, wenn Sie versuchen zu Lesen einer csv-Datei in SparkSQL. Früher, wenn ich lese eine Datei von der lokalen Festplatte in pyspark ich

Wie die Flucht Spaltennamen mit Bindestrich in Spark SQL

Anzahl der Antworten 3 Antworten
Habe ich importiert eine json-Datei in Spark und konvertierten es in einer Tabelle als myDF.registerTempTable("myDF") Dann möchte ich ausführen von SQL-Abfragen auf diese resultierende Tabelle val newTable = sqlContext.sql("select column-1 from myDF") Jedoch das gibt mir eine

Wo finde Spark SQL-syntax-Referenz?

Anzahl der Antworten 2 Antworten
Wissen wir alle syntax-Referenz für spark-sql? Ich meine, der Stil wie MySQL SELECT-syntax, oder PostgreSQL Dokumentation: WÄHLEN Sie. Wenn nicht, was ist die beste Quelle die wir zugreifen können? InformationsquelleAutor Notinlist | 2015-06-17

So finden Zählung von Null und Nan-Werte für jede Spalte in einer PySpark dataframe effizient?

Anzahl der Antworten 2 Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))], ('session', "timestamp1", "id2")) Erwartete Ausgabe dataframe mit Graf von

Spark sql Dataframe - import sqlContext.implicits._

Anzahl der Antworten 1 Antworten
Habe ich main, erstellt spark Kontext: val sc = new SparkContext(sparkConf) val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ Dann schafft dataframe und hat Filter und Validierungen auf der dataframe. val convertToHourly = udf((time: String) => time.substring(0, time.indexOf(':'))

Abrufen der eindeutigen Werte in einer Spalte mithilfe von Spark-DataFrame

Anzahl der Antworten 1 Antworten
Verwendung von Spark-1.6.1 version, die ich brauche zu Holen, verschiedene Werte für eine Spalte und dann führen Sie einige spezielle transformation oben drauf. Die Spalte enthält mehr als 50 Millionen Schallplatten und heranwachsen können. Ich verstehe, dass

Spalte alias nach groupBy in pyspark

Anzahl der Antworten 3 Antworten
Brauche ich die daraus resultierenden Daten-frame in der Zeile unterhalb, um einen alias-Namen "maxDiff" für den max('diff') - Spalte nach groupBy. Doch die unter Zeile nicht makeany ändern, noch wird ein Fehler ausgelöst. grpdf = joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff") InformationsquelleAutor

Ersetzen Sie leere strings mit Keine/null-Werte in DataFrame

Anzahl der Antworten 4 Antworten
Ich habe eine Spark 1.5.0 DataFrame mit einer Mischung aus null und leere Zeichenfolgen in der gleichen Spalte. Ich möchte konvertieren alle leeren Zeichenfolgen in alle Spalten null (Nonein Python). Der DataFrame haben Hunderte von Spalten, also

Wie teilt man einen dataframe in dataframes mit gleichen Spaltenwerten?

Anzahl der Antworten 2 Antworten
Mit Scala, wie kann ich die split-dataFrame in mehrere dataFrame (array oder collection) mit gleichen Spalte Wert. Zum Beispiel möchte ich teilen Sie die folgenden DataFrame: ID Rate State 1 24 AL 2 35 MN 3 46

Fügen Sie eine leere Spalte auf Spark-DataFrame

Anzahl der Antworten 2 Antworten
Wie bereits in viele andere Orte auf der Website, das hinzufügen einer neuen Spalte zu einer vorhandenen DataFrame ist nicht einfach. Leider ist es wichtig, diese Funktionalität (auch wenn es ineffizient ist, die in einer verteilten Umgebung)

Wert toDF ist nicht ein Mitglied der org.apache.spark.rdd.RDD

Anzahl der Antworten 4 Antworten
Ausnahme : val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person] Hier ist TestApp.scala Datei: package main.scala import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf case class Record1(k: Int, v: String) object RDDToDataFramesWithCaseClasses

DataFrame Gleichheit in Apache Spark

Anzahl der Antworten 5 Antworten
Übernehmen df1 und df2 sind zwei DataFrames in Apache Spark, berechnet mit zwei unterschiedlichen Mechanismen, z.B. Spark SQL vs. Scala/Java - /Python-API. Ist es ein idiomatischer Weg um zu bestimmen, ob die zwei Daten-Rahmen sind gleichwertig (gleich,

So ändern Sie die Spalte Typ von String auf Datum in DataFrames?

Anzahl der Antworten 1 Antworten
Habe ich ein dataframe mit zwei Spalten (C, D) definiert als string-Spalte-Typ, aber die Daten in den Spalten sind eigentlich stammt. zum Beispiel Spalte C wird das Datum "01-APR-2015" und Spalte D als "20150401" ich möchte diese

Spark dataframe verwandeln mehrere Zeilen zu Spalte

Anzahl der Antworten 2 Antworten
Ich bin ein Neuling zu entfachen, und ich möchte verwandeln unten Quelle dataframe (laden von JSON-Datei): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| |

Wie aktualisieren Sie die Spalte auf Grundlage einer Bedingung (einem Wert in einer Gruppe)?

Anzahl der Antworten 5 Antworten
Habe ich Folgendes df: +---+----+-----+ |sno|dept|color| +---+----+-----+ | 1| fn| red| | 2| fn| blue| | 3| fn|green| +---+----+-----+ Wenn eine der color-Spalte Werte ist red ich dann alle Werte der Spalte Farbe sollten aktualisiert werden, um

Hinzufügen eines neuen Struct-Spalte, um ein DataFrame

Anzahl der Antworten 2 Antworten
Ich bin gerade dabei, extrahieren Sie eine Datenbank von MongoDB und verwenden von Spark für das Einlesen in ElasticSearch mit geo_points. Den Mongo-Datenbank hat, werden Längen-und Breitengrad-Werte, aber ElasticSearch verlangt, dass Sie gegossen werden in der geo_point

Fehler bei der Verwendung von Hive Kontext, in Funke : die Objekt-Struktur nicht Mitglied der package org.apache.spark.sql

Anzahl der Antworten 5 Antworten
Ich versuche zu konstruieren, ein Bienenkorb Kontext ,die erbt von SQLContext. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Bekomme ich die folgende Fehlermeldung: error: object hive is not a member of package org.apache.spark.sql val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Ich

DataFrame join-Optimierung - Broadcast-Hash-Join

Anzahl der Antworten 5 Antworten
Ich versuche effektiv zu verbinden zwei DataFrames, von denen der eine groß ist und der zweite ist ein bisschen kleiner. Gibt es eine Möglichkeit, dies zu vermeiden mischen? Ich kann mich nicht festlegen autoBroadCastJoinThreshold, denn es unterstützt

Aggregieren von mehreren Spalten mit einer benutzerdefinierten Funktion in der Funke

Anzahl der Antworten 4 Antworten
Ich Frage mich, ob es eine Möglichkeit gibt, geben Sie eine benutzerdefinierte aggregation-Funktion für spark dataframes über mehrere Spalten. Ich habe eine Tabelle wie diese von der Art (name, Artikelnummer, Preis): john | tomato | 1.99 john

Anzahl reduzieren, Aufgaben Funke

Anzahl der Antworten 2 Antworten
Was ist die Formel, die Funken verwendet, um zu berechnen, die Zahl der Aufgaben reduzieren? Ich bin mit ein paar spark-sql-Abfragen und die Anzahl von reduce-tasks ist immer 200. Die Anzahl der map-tasks für diese Abfragen ist

Un-persistierende alle dataframes in (py)Funken

Anzahl der Antworten 3 Antworten
Ich bin ein spark-Anwendung mit mehreren Punkten, an denen würde ich gerne beibehalten des aktuellen Status. Dies ist in der Regel nach einem großen Schritt, oder "caching" als einem Zustand, dass ich verwenden möchten, um mehrere Male.