Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
2
Antworten
Nehmen wir an, wir haben einen Funken DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame mit dem folgenden schema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) | |-- element: string
4
Antworten
Ich weiß, wir können Last-Parkett-Datei mit Spark SQL und der Verwendung von Impala, aber Frage mich, ob wir das gleiche tun mit Hive. Ich lese viele Artikel, aber ich bin immer noch verwirrt. Einfach gesagt, ich habe
2
Antworten
Ich bin der Migration von Impala zu SparkSQL, verwenden Sie den folgenden code zum Einlesen einer Tabelle: my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table') Wie rufe ich SparkSQL oben, so dass es zurückgeben kann, so etwas wie: 'select col_A, col_B from
1
Antworten
Habe ich erfolgreich eine row_number() partitionBy von Zündkerzen mit Fenster, möchte aber Sortieren Sie diese nach absteigender, anstatt die Standardeinstellung aufsteigend. Hier ist mein Arbeits-code: from pyspark import HiveContext from pyspark.sql.types import * from pyspark.sql import Row,
3
Antworten
Beim laufen sparkJob auf einem cluster an einem bestimmten Daten Größe(~2,5 gb) bin ich immer entweder "Auftrag storniert, weil SparkContext wurde heruntergefahren" oder "Vollstrecker verloren". Bei der Betrachtung Garn gui sehe ich, dass die Arbeit, die getötet
1
Antworten
Was ist der Unterschied zwischen explode Funktion und explode Betreiber? InformationsquelleAutor Jacek Laskowski | 2017-04-24
3
Antworten
Ich bin neu auf Spark und Spark SQL. Wie funktioniert createOrReplaceTempView Arbeit in der Funke? Wenn wir registrieren eine RDD Objekten als Tabelle Funke hält alle Daten im Speicher? InformationsquelleAutor Abir Chokraborty | 2017-05-16
1
Antworten
Ich habe einen dataframe df geladen Hive-Tabelle hat eine timestamp-Spalte, sagen ts mit string-Typ des format dd-MMM-yy hh.mm.ss.MS a (konvertiert python datetime-Bibliothek, diese ist %d-%b-%y %I.%M.%S.%f %p). Nun möchte ich filtern von Zeilen aus der dataframe, die
2
Antworten
Ich bin neu Funke und python und mit Blick auf die Schwierigkeiten, die der Aufbau eines Schemas aus einer Metadaten-Datei, die angewendet werden können, um meine Daten-Datei. Szenario: Datei mit Metadaten für die Daten-Datei(csv-format) enthält, die Spalten
2
Antworten
War ich versucht, einen JSON-Datei als eine kleine DB. Nach dem erstellen einer Vorlage-Tabelle auf DataFrame ich es mit SQL abgefragt und bekam eine Ausnahme. Hier ist mein code: val df = sqlCtx.read.json("/path/to/user.json") df.registerTempTable("user_tt") val info =
4
Antworten
Ich habe gerade angefangen mit Spark. Ich habe CDH5 Installiert mit Spark . Jedoch, wenn ich versuche zu verwenden sparkcontext es gibt Fehler, wie unten <console>:17: error: not found: value sc val distdata = sc.parallelize(data) Habe ich
3
Antworten
Ich lese eine csv-Datei in Pyspark wie folgt: df_raw=spark.read.option("header","true").csv(csv_path) Jedoch, die Daten-Datei angegeben hat Felder mit eingebetteten Kommata in Ihnen die sollte nicht behandelt werden wie Kommas. Wie kann ich mit dieser in Pyspark ? Ich weiß,
1
Antworten
Ich bin mit dem folgenden code, um die Durchschnittliche Alter von Menschen, deren Gehalt größer ist als eine Schwelle. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) die Spalte Alter numeric (float), aber trotzdem bin ich immer diese Fehlermeldung. py4j.protocol.Py4JJavaError: An
2
Antworten
Im Versuch zum Lesen von Daten aus mysql und schreiben Sie es zurück an Parkett-Datei in s3 mit bestimmten Partitionen wie folgt: df=sqlContext.read.format('jdbc')\ .options(driver='com.mysql.jdbc.Driver',url="""jdbc:mysql://<host>:3306/<>db?user=<usr>&password=<pass>""", dbtable='tbl', numPartitions=4 )\ .load() df2=df.withColumn('updated_date',to_date(df.updated_at)) df2.write.parquet(path='s3n://parquet_location',mode='append',partitionBy=['updated_date']) Mein problem ist, dass es öffnet nur
2
Antworten
Ich bin mit dem DataFrame-API von pyspark (Apache Spark) und bin mit folgendem problem: Wenn ich an zwei DataFrames, die stammen aus der gleichen Quelle DataFrame, die resultierende DF explodieren, eine große Anzahl von Zeilen. Ein kurzes
2
Antworten
Ich habe einen dataframe genannt train, hat er das folgende schema : root |-- date_time: string (nullable = true) |-- site_name: integer (nullable = true) |-- posa_continent: integer (nullable = true) Möchte ich warf die date_timeSpalte timestampund
2
Antworten
Ich habe einen dataframe mit konfigurierbare Spalte-Namen, z.B. Journey channelA channelB channelC j1 1 0 0 j1 0 1 0 j1 1 0 0 j2 0 0 1 j2 0 1 0 Durch konfigurierbare ich meine, es
1
Antworten
Ich habe eine Spark-DataFrame gebaut durch pyspark aus einer JSON-Datei als sc = SparkContext() sqlc = SQLContext(sc) users_df = sqlc.read.json('users.json') Nun möchte ich Zugriff auf eine chosen_user Daten, wo dies ist das _id Feld. Ich kann tun
2
Antworten
Möchte ich Ändern bei ganze Spalte in Kleinbuchstaben Funke Dataset Desired Input +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|BRUSH & BROOM HAN...| | XYZ|WHEEL BRUSH PARTS...| +------+--------------------+ Desired Output +------+--------------------+ |ItemID| Category name| +------+--------------------+ | ABC|brush &
2
Antworten
Bin ich mit Spark 1.3 # Read from text file, parse it and then do some basic filtering to get data1 data1.registerTempTable('data1') # Read from text file, parse it and then do some basic filtering to get
1
Antworten
Ähnliche Frage wie hier, aber haben nicht genug Punkte, um einen Kommentar gibt. Laut der neuesten Spark Dokumentation eine udf verwendet werden kann in zwei unterschiedlichen Möglichkeiten, eine mit SQL und den anderen mit einem DataFrame. Ich
1
Antworten
Möchte ich sehen, wenn ich split eine Spalte in der Funke dataframes. Wie diese, Select employee, split(department,"_") from Employee InformationsquelleAutor ashK | 2016-03-24
3
Antworten
val df = sc.parallelize(Seq((1,"Emailab"), (2,"Phoneab"), (3, "Faxab"),(4,"Mail"),(5,"Other"),(6,"MSL12"),(7,"MSL"),(8,"HCP"),(9,"HCP12"))).toDF("c1","c2") +---+-------+ | c1| c2| +---+-------+ | 1|Emailab| | 2|Phoneab| | 3| Faxab| | 4| Mail| | 5| Other| | 6| MSL12| | 7| MSL| | 8| HCP| | 9| HCP12|
1
Antworten
Ich bin auf der Suche spark.sql.DataFrame Dokumentation. Es ist def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0 Was ist der Zweck dieser Methode? Wie wird es eingesetzt? Kann es ein Beispiel
6
Antworten
Ich benutze Spark 2.1.0. Wenn ich spark-shell ich auf diesen Fehler stoßen: <console>:14: error: not found: value spark import spark.implicits._ ^ <console>:14: error: not found: value spark import spark.sql ^ Was könnte der Grund sein? Wie es
2
Antworten
Hoffentlich bin ich dumm und das wird einfach sein. Ich habe einen dataframe mit den Spalten " url " und "referrer'. Möchte ich extrahieren Sie alle Verweise enthalten die top-level-domain 'www.mydomain.com' und 'mydomain.co'. Kann ich verwenden val
3
Antworten
Ich versuche zu tun, eine linke äußere Verknüpfung in der Funke (1.6.2) und es funktioniert nicht. Meine sql-Abfrage sieht so aus: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where
2
Antworten
Möchte ich analysieren, die Datum-Spalten in einer DataFrame, und für jede Spalte Datum, die Auflösung für das Datum können Sie ändern (D. H. 2011/01/10 => 2011 /01 wenn Sie die Auflösung auf "Monat"). Schrieb ich den folgenden
1
Antworten
Ich habe eine DataFrame mit ein paar Spalten. Ich möchte nun fügen Sie zwei weitere Spalten, um die bestehenden DataFrame. Momentan mache ich dies mit withColumn Methode in DataFrame. zum Beispiel: df.withColumn("newColumn1", udf(col("somecolumn"))) .withColumn("newColumn2", udf(col("somecolumn"))) Eigentlich, ich
1
Antworten
Ich versuche, die Migration von Spark 1.6.1 Spark-Version 2.0.0 und ich erhalte eine seltsame Fehlermeldung, wenn Sie versuchen zu Lesen einer csv-Datei in SparkSQL. Früher, wenn ich lese eine Datei von der lokalen Festplatte in pyspark ich
3
Antworten
Habe ich importiert eine json-Datei in Spark und konvertierten es in einer Tabelle als myDF.registerTempTable("myDF") Dann möchte ich ausführen von SQL-Abfragen auf diese resultierende Tabelle val newTable = sqlContext.sql("select column-1 from myDF") Jedoch das gibt mir eine
2
Antworten
Wissen wir alle syntax-Referenz für spark-sql? Ich meine, der Stil wie MySQL SELECT-syntax, oder PostgreSQL Dokumentation: WÄHLEN Sie. Wenn nicht, was ist die beste Quelle die wir zugreifen können? InformationsquelleAutor Notinlist | 2015-06-17
2
Antworten
import numpy as np df = spark.createDataFrame( [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))], ('session', "timestamp1", "id2")) Erwartete Ausgabe dataframe mit Graf von
1
Antworten
Habe ich main, erstellt spark Kontext: val sc = new SparkContext(sparkConf) val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ Dann schafft dataframe und hat Filter und Validierungen auf der dataframe. val convertToHourly = udf((time: String) => time.substring(0, time.indexOf(':'))
1
Antworten
Verwendung von Spark-1.6.1 version, die ich brauche zu Holen, verschiedene Werte für eine Spalte und dann führen Sie einige spezielle transformation oben drauf. Die Spalte enthält mehr als 50 Millionen Schallplatten und heranwachsen können. Ich verstehe, dass
3
Antworten
Brauche ich die daraus resultierenden Daten-frame in der Zeile unterhalb, um einen alias-Namen "maxDiff" für den max('diff') - Spalte nach groupBy. Doch die unter Zeile nicht makeany ändern, noch wird ein Fehler ausgelöst. grpdf = joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff") InformationsquelleAutor
4
Antworten
Ich habe eine Spark 1.5.0 DataFrame mit einer Mischung aus null und leere Zeichenfolgen in der gleichen Spalte. Ich möchte konvertieren alle leeren Zeichenfolgen in alle Spalten null (Nonein Python). Der DataFrame haben Hunderte von Spalten, also
2
Antworten
Mit Scala, wie kann ich die split-dataFrame in mehrere dataFrame (array oder collection) mit gleichen Spalte Wert. Zum Beispiel möchte ich teilen Sie die folgenden DataFrame: ID Rate State 1 24 AL 2 35 MN 3 46
2
Antworten
Wie bereits in viele andere Orte auf der Website, das hinzufügen einer neuen Spalte zu einer vorhandenen DataFrame ist nicht einfach. Leider ist es wichtig, diese Funktionalität (auch wenn es ineffizient ist, die in einer verteilten Umgebung)
4
Antworten
Ausnahme : val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person] Hier ist TestApp.scala Datei: package main.scala import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf case class Record1(k: Int, v: String) object RDDToDataFramesWithCaseClasses
5
Antworten
Übernehmen df1 und df2 sind zwei DataFrames in Apache Spark, berechnet mit zwei unterschiedlichen Mechanismen, z.B. Spark SQL vs. Scala/Java - /Python-API. Ist es ein idiomatischer Weg um zu bestimmen, ob die zwei Daten-Rahmen sind gleichwertig (gleich,
1
Antworten
Habe ich ein dataframe mit zwei Spalten (C, D) definiert als string-Spalte-Typ, aber die Daten in den Spalten sind eigentlich stammt. zum Beispiel Spalte C wird das Datum "01-APR-2015" und Spalte D als "20150401" ich möchte diese
2
Antworten
Ich bin ein Neuling zu entfachen, und ich möchte verwandeln unten Quelle dataframe (laden von JSON-Datei): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| |
5
Antworten
Habe ich Folgendes df: +---+----+-----+ |sno|dept|color| +---+----+-----+ | 1| fn| red| | 2| fn| blue| | 3| fn|green| +---+----+-----+ Wenn eine der color-Spalte Werte ist red ich dann alle Werte der Spalte Farbe sollten aktualisiert werden, um
2
Antworten
Ich bin gerade dabei, extrahieren Sie eine Datenbank von MongoDB und verwenden von Spark für das Einlesen in ElasticSearch mit geo_points. Den Mongo-Datenbank hat, werden Längen-und Breitengrad-Werte, aber ElasticSearch verlangt, dass Sie gegossen werden in der geo_point
5
Antworten
Ich versuche zu konstruieren, ein Bienenkorb Kontext ,die erbt von SQLContext. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Bekomme ich die folgende Fehlermeldung: error: object hive is not a member of package org.apache.spark.sql val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Ich
5
Antworten
Ich versuche effektiv zu verbinden zwei DataFrames, von denen der eine groß ist und der zweite ist ein bisschen kleiner. Gibt es eine Möglichkeit, dies zu vermeiden mischen? Ich kann mich nicht festlegen autoBroadCastJoinThreshold, denn es unterstützt
4
Antworten
Ich Frage mich, ob es eine Möglichkeit gibt, geben Sie eine benutzerdefinierte aggregation-Funktion für spark dataframes über mehrere Spalten. Ich habe eine Tabelle wie diese von der Art (name, Artikelnummer, Preis): john | tomato | 1.99 john
2
Antworten
Was ist die Formel, die Funken verwendet, um zu berechnen, die Zahl der Aufgaben reduzieren? Ich bin mit ein paar spark-sql-Abfragen und die Anzahl von reduce-tasks ist immer 200. Die Anzahl der map-tasks für diese Abfragen ist
3
Antworten
Ich bin ein spark-Anwendung mit mehreren Punkten, an denen würde ich gerne beibehalten des aktuellen Status. Dies ist in der Regel nach einem großen Schritt, oder "caching" als einem Zustand, dass ich verwenden möchten, um mehrere Male.