Tag: apache-spark-sql

Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.

Codieren und montieren die mehrere Funktionen in PySpark

Anzahl der Antworten 1 Antworten
Habe ich eine Python-Klasse, die ich zum laden und verarbeiten einige Daten in der Funke. Unter den verschiedenen Dinge, die ich tun müssen, ich bin erzeugt eine Liste von dummy-Variablen abgeleitet, die aus verschiedenen Spalten in einer

Filter nach, ob die Spalte Wert eine Liste, in der Funke

Anzahl der Antworten 2 Antworten
Ich versuche zu filtern, einen Funken dataframe, ob die Werte in einer Spalte gleich eine Liste. Ich würde gerne etwas wie das hier tun: filtered_df = df.where(df.a == ['list','of' , 'stuff']) Wo filtered_df nur die Zeilen enthält,

Zählt die Anzahl der nicht-NaN-Einträge in jeder Spalte von Spark dataframe mit Pyspark

Anzahl der Antworten 2 Antworten
Ich habe einen sehr großen Datensatz geladen wird im Bienenstock. Es besteht aus ungefähr 1,9 million Zeilen und 1450 Spalten. Ich brauche, um zu bestimmen, die "Reichweite" der einzelnen Spalten, d.h. der Bruchteil der Zeilen, die nicht-NaN-Werte

So bereiten Sie Daten in einem LibSVM-format von DataFrame?

Anzahl der Antworten 2 Antworten
Möchte ich libsvm-format, also machte ich dataframe, um die gewünschten format, aber ich weiß nicht, wie zu konvertieren, um libsvm-format. Das format ist wie in der Abbildung gezeigt. Ich hoffe, dass die gewünschte libsvm-Typ ist user-item:Bewertung .

No suitable driver found for jdbc Spark

Anzahl der Antworten 2 Antworten
Ich bin mit df.write.mode("append").jdbc("jdbc:mysql://ip:port/database", "table_name", properties) in eine Tabelle einfügen in MySQL. Auch, ich habe Class.forName("com.mysql.jdbc.Driver") in meinem code. Wenn ich meine Funke Anwendung: spark-submit --class MY_MAIN_CLASS --master yarn-client --jars /path/to/mysql-connector-java-5.0.8-bin.jar --driver-class-path /path/to/mysql-connector-java-5.0.8-bin.jar MY_APPLICATION.jar Dieses Garn-client-Modus funktioniert

Pivot-String-Spalte auf Pyspark Dataframe

Anzahl der Antworten 1 Antworten
Habe ich eine einfache dataframe wie diese: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", 2321,"201601", "DOCK") ] ) df_data = sqlContext.createDataFrame(rdd,

'PipelinedRDD' - Objekt hat kein Attribut 'toDF' in PySpark

Anzahl der Antworten 1 Antworten
Ich versuche zu laden, ein SVM-Datei und wandeln Sie es in ein DataFrame so kann ich mit dem ML-Modul (Pipeline ML) aus Funken. Ich habe gerade installiert ein frisches Funke 1.5.0 unter Ubuntu 14.04 (keine spark-env.sh konfiguriert).

Erstellen Funke DataFrame. Lässt sich nicht entnehmen schema für Typ: <type 'float'>

Anzahl der Antworten 1 Antworten
Könnte mir jemand helfen dieses problem zu lösen, habe ich mit Spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =

So definieren Sie eine benutzerdefinierte aggregation-Funktion, um die Summe einer Spalte von Vektoren?

Anzahl der Antworten 2 Antworten
Habe ich ein DataFrame mit zwei Spalten ID Typ Int und Vec Typ Vector (org.apache.spark.mllib.linalg.Vector). Den DataFrame sieht aus wie folgt: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] .... Ich würde gerne eine groupBy($"ID") wenden

Abfragen Spark SQL DataFrame mit komplexen Typen

Anzahl der Antworten 3 Antworten
Wie Kann ich eine Abfrage einer RDD mit komplexen Typen wie Karten/arrays? zum Beispiel, wenn ich Schreibe diesen test-code: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2

Unterschied zwischen DataFrame, Dataset, und RDD Spark

Anzahl der Antworten 14 Antworten
Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor menorah84 | 2015-07-20

Wie kann man einen Iterator von Zeilen mit Dataframe in SparkSQL

Anzahl der Antworten 2 Antworten
Ich habe eine Anwendung in SparkSQL gibt große Anzahl von Zeilen, die sind sehr schwer zu passen in den Speicher, so dass ich nicht in der Lage zu verwenden collect-Funktion auf DataFrame, gibt es eine Möglichkeit mit

Was läuft falsch mit `unionAll` der Funke `DataFrame`?

Anzahl der Antworten 5 Antworten
Verwendung von Spark-1.5.0-und angesichts des folgenden code, ich erwarte, dass union unionAll DataFrames, basierend auf den Spalten-Namen. In dem code, ich bin mit einigen FunSuite für die übergabe in SparkContext sc: object Entities { case class A

Explodieren in PySpark

Anzahl der Antworten 2 Antworten
Ich würde gerne verwandeln, aus einem DataFrame enthält Listen von Wörtern in einen DataFrame mit jedem Wort in einer eigenen Zeile. Wie mache ich explodieren auf eine Spalte in einem DataFrame? Hier ist ein Beispiel mit einigen

Die Definition einer UDF, die akzeptiert ein Array von Objekten in einer Spark-DataFrame?

Anzahl der Antworten 1 Antworten
Beim arbeiten mit Spark ' s DataFrames, User Defined Functions (UDFs) werden für die Zuordnung erforderliche Daten in Spalten. UDFs benötigen, die argument-Typen werden explizit angegeben. In meinem Fall brauche ich zum Bearbeiten einer Spalte, die aus

Spark from_json mit dynamischen schema

Anzahl der Antworten 3 Antworten
Ich versuche, mit Funke für die Verarbeitung von JSON-Daten mit variabler Struktur(verschachtelte JSON). Input JSON-Daten kann sehr groß mit mehr als 1000 Schlüssel pro Zeile und eine batch könnte mehr als 20 GB. Gesamte batch generiert wurde,

Sauberste, effizienteste syntax zum ausführen DataFrame self-join in Spark

Anzahl der Antworten 1 Antworten
In standard-SQL, wenn Sie join einer Tabelle auf sich selbst, Sie können erstellen Sie Aliase für die Tabellen, um zu verfolgen, welche der Spalten Sie sich beziehen: SELECT a.column_name, b.column_name... FROM table1 a, table1 b WHERE a.common_field

Finden maximale Zeile pro Gruppe in den Spark-DataFrame

Anzahl der Antworten 2 Antworten
Ich versuche, Spark dataframes statt RDDs da scheinen Sie mehr high-level als RDDs und neigen dazu, mehr zu produzieren, lesbaren code. In einem 14-Knoten Google Dataproc cluster, ich habe über 6 Millionen Namen, die übersetzt werden ids

Spark Scala: Wie konvertieren von Dataframe[vector] , DataFrame[f1:Doppel -, ..., fn: Double)]

Anzahl der Antworten 2 Antworten
Habe ich nur verwendet, Standard-Scaler zu normalisieren, meine Gesichtszüge für einen ML-Anwendung. Nach der Auswahl der skalierten Funktionen, die ich will, um zu konvertieren zurück zu einem dataframe Verdoppelt, obwohl die Länge der meine Vektoren sind frei

javax.Sicherheit.sasl.SaslException: GSS initiieren fehlgeschlagen [Verursacht durch GSSException: Keine gültige Anmeldeinformationen bereitgestellt

Anzahl der Antworten 2 Antworten
Bin ich immer diese Fehlermeldung wenn ich versuche eine Verbindung zum hive-metastore mit Spark SQL HiveContext. ich bin mit dieser auf standalone-cluster mit Funken-submit-Befehl von meinem desktop, nicht aus dem hadoop-cluster. Ist es etwas mit Sicherheit zu

SparkSQL Funktion benötigen den Typ Decimal

Anzahl der Antworten 1 Antworten
Habe ich die folgende Funktion für die Arbeit mit arrays von beliebigen numerischen Typ: def array_sum[T](item:Traversable[T])(implicit n:Numeric[T]) = item.sum //Registers a function as a UDF so it can be used in SQL statements. sqlContext.udf.register("array_sumD", array_sum(_:Seq[Float])) Aber zu

Durchlaufen von Zeilen und Spalten in Spark-dataframe

Anzahl der Antworten 4 Antworten
Habe ich Folgendes Funke dataframe, dass dynamisch erzeugt wird: val sf1 = StructField("name", StringType, nullable = true) val sf2 = StructField("sector", StringType, nullable = true) val sf3 = StructField("age", IntegerType, nullable = true) val fields = List(sf1,sf2,sf3)

Probleme Mit Pyspark Round-Funktion

Anzahl der Antworten 1 Antworten
Habe einige Mühe, die round-Funktion in pyspark zu arbeiten - ich habe den untenstehenden code-block, wo ich bin versuchen, um die new_bid Spalte auf 2 Dezimalstellen genau und benennen Sie die Spalte als bid danach - ich

Joining mehr als 2 Tabellen In Spark SQL

Anzahl der Antworten 1 Antworten
Ich versuche eine Abfrage schreiben, in SPARK SQL join von drei Tabellen. Aber die Ausgabe der Abfrage null ist. Es ist in Ordnung für eine einzelne Tabelle. Meine Join-Abfrage ist richtig, da habe ich bereits ausgeführt, in

Pandas dataframe zu entfachen, dataframe "Kann nicht verbinden, geben Fehler"

Anzahl der Antworten 1 Antworten
Habe ich csv-Daten und erstellt Pandas dataframe mit read_csv und zwingt alle Spalten als string. Dann, wenn ich versuche, zu schaffen Funke dataframe von den Pandas dataframe, bekomme ich die Fehlermeldung unten. from pyspark import SparkContext from

Unterschied zwischen zwei DataFrames Spalten in pyspark

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche nach einem Weg zu finden, der Unterschied der Werte in Spalten von zwei DataFrame. Zum Beispiel: from pyspark.sql import SQLContext sc = SparkContext() sql_context = SQLContext(sc) df_a = sql_context.createDataFrame([("a", 3), ("b", 5),

Spark Dataframe Geschachtelte Case-When-Anweisung

Anzahl der Antworten 2 Antworten
Muss ich implementieren Sie die folgenden SQL-Logik in der Funke DataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1; Mein

So speichern Sie die Ausgabe von spark sql-Abfrage in eine text-Datei

Anzahl der Antworten 3 Antworten
Ich bin das schreiben eines einfachen Verbraucher-Programm mit spark streaming. Mein code speichern Sie einige der Daten in der Datei, aber nicht ALLE Daten. Kann mir jemand helfen wie dieses Problem zu beheben. Ich bin nicht sicher,

SPARK DataFrame: Wie effizient split dataframe für jede Gruppe auf Basis der gleichen Werte in der Spalte

Anzahl der Antworten 2 Antworten
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value").alias("TotalValue")) .sort($"Hour".asc,$"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1|

Entfernen Sie Leerzeichen aus dem Daten-frame-Spalte Werte in der Funke

Anzahl der Antworten 4 Antworten
Habe ich einen Daten-frame (business_df) schema: |-- business_id: string (nullable = true) |-- categories: array (nullable = true) | |-- element: string (containsNull = true) |-- city: string (nullable = true) |-- full_address: string (nullable = true)

Sie Spalten auswählen, die in Pyspark Dataframe

Anzahl der Antworten 5 Antworten
Ich bin auf der Suche nach einem Weg, um wählen Sie Spalten mein dataframe in pyspark. Für die erste Zeile, die ich kenne, die ich verwenden kann df.first() aber nicht sicher über die Säulen gegeben, dass Sie

AssertionError: col sein sollte, Spalte

Anzahl der Antworten 1 Antworten
So erstellen Sie eine neue Spalte in PySpark und füllen Sie diese Spalte mit dem Datum von heute? Dies ist, was ich versucht habe: import datetime now = datetime.datetime.now() df = df.withColumn("date", str(now)[:10]) Bekomme ich diesen Fehler:

Vergleichsoperator in PySpark (nicht gleich/ !=)

Anzahl der Antworten 2 Antworten
Ich versuche an, um alle Zeilen in einem dataframe, wo zwei flags gesetzt sind, auf " 1 " und anschließend alle diejenigen, wo nur einer von beiden ist gesetzt auf '1' und die andere NICHT GLEICH auf

apache zeppelin gestartet ist, aber es gibt Fehler Verbindung in localhost:8080

Anzahl der Antworten 5 Antworten
nach erfolgreichem build apache zepellin auf Ubuntu 14, ich fange zeppelin, und es sagt erfolgreich gestartet, aber wenn ich auf localhost:8080 Firefox zeigt keine Verbindung Fehler wie es gar nicht gestartet, aber wenn ich überprüfen Zeppelin status

Wo ist die union () - Methode auf dem Spark-DataFrame Klasse?

Anzahl der Antworten 1 Antworten
Ich bin mit dem Java-connector für Spark und möchte union zwei DataFrames aber Bizarr war der DataFrame Klasse hat nur unionAll? Dies ist gewollt und gibt es eine Möglichkeit zu union zwei DataFrames ohne Duplikate? InformationsquelleAutor Milen

Wie um zu überprüfen, ob Funken dataframe ist leer

Anzahl der Antworten 11 Antworten
Gerade jetzt, ich habe zu verwenden df.count > 0 um zu überprüfen, ob die DataFrame leer ist oder nicht. Aber es ist ziemlich ineffizient. Gibt es eine bessere Möglichkeit, das zu tun. Dank. PS: ich will prüfen,

Fehler beim abrufen der Datenbank Standard Rückkehr NoSuchObjectException

Anzahl der Antworten 2 Antworten
Wenn ich starte spark bekomme ich diese Warnungen: Using Scala version 2.10.5 (OpenJDK 64-Bit Server VM, Java 1.8.0_77) Type in expressions to have them evaluated. Type :help for more information. Spark context available as sc. 16/04/03 15:07:31

Spark dataframe Funktion auflösen

Anzahl der Antworten 2 Antworten
Kann bitte jemand erklären, warum Fall Row, Seq[Row] sind nach dem explodieren eines dataframe Feld die Sammlung von Elementen. Und auch können Sie bitte erklären mir den Grund, warum asInstanceOf ist erforderlich, um die Werte aus dem

Parsen von json in spark

Anzahl der Antworten 2 Antworten
War ich mit json-scala-Bibliothek zum Parsen der json-von einem lokalen Laufwerk in spark job : val requestJson=JSON.parseFull(Source.fromFile("c:/data/request.json").mkString) val mainJson=requestJson.get.asInstanceOf[Map[String,Any]].get("Request").get.asInstanceOf[Map[String,Any]] val currency=mainJson.get("currency").get.asInstanceOf[String] Aber wenn ich versuche, mit dem gleichen parser, indem Sie auf hdfs Speicherort der Datei das

Spark dataframes: Extrahieren einer Spalte basierend auf dem Wert einer anderen Spalte

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe mit Transaktionen mit einer verbundenen Preis-Liste: +----------+----------+------+-------+-------+ | paid | currency | EUR | USD | GBP | +----------+----------+------+-------+-------+ | 49.5 | EUR | 99 | 79 | 69 | +----------+----------+------+-------+-------+ Kunde bezahlt

Pyspark: filter dataframe durch regex-string-Formatierung?

Anzahl der Antworten 2 Antworten
Gelesen habe ich mehrere Beiträge über die Verwendung des "like" - operator zum filtern von ein Funke dataframe, die durch die Bedingung enthält, einen string-Ausdruck, aber Frage mich, ob das folgenden ist eine "best-practice" - auf die

PySpark - Erstellen einer Daten-frame aus text-Datei

Anzahl der Antworten 1 Antworten
Habe ich eine einfache text-Datei, die enthält "Transaktionen". 1. Zeile die Spaltennamen wie z.B. "STARTZEIT", "ENDZEIT", "GRÖßE".. über ~100 Spaltennamen. Den Namen der Spalten in der Datei sind ohne Anführungszeichen. Will ich mit Spark, konvertieren Sie diese

bekommen Wert aus dataframe

Anzahl der Antworten 2 Antworten
In Scala kann ich tun get(#) oder getAs[Type](#) um Werte aus einem dataframe. Wie sollte ich es tun, in pyspark? Ich habe zwei Spalten DataFrame: item(string) und salesNum(integers). Ich mache groupby und mean um einen Mittelwert dieser

cast schema eines Daten-frame in Spark und Scala

Anzahl der Antworten 1 Antworten
Möchte ich cast das schema eines dataframe zu ändern den Typ von Spalten Verwendung von Spark-und Scala. Speziell ich bin versucht, das als[U] Funktion, deren Beschreibung lautet: "Gibt ein neues Dataset, in dem jeder Datensatz zugeordnet wurde,

org.apache.spark.sql.AnalysisException: cannot resolve gegebenen input-Spalten

Anzahl der Antworten 2 Antworten
exitTotalDF .filter($"accid" === "dc215673-ef22-4d59-0998-455b82000015") .groupBy("exiturl") .agg(first("accid"), first("segment"), $"exiturl", sum("session"), sum("sessionfirst"), first("date")) .orderBy(desc("session")) .take(500) org.apache.spark.sql.AnalysisException: cannot resolve '`session`' given input columns: [first(accid, false), first(date, false), sum(session), exiturl, sum(sessionfirst), first(segment, false)] Sein, wie die Summe-Funktion kann nicht finden die

Spark SQL - Select-all UND berechnete Spalten?

Anzahl der Antworten 2 Antworten
Dies ist eine totale noob-Frage, tut mir Leid. Spark, ich kann verwenden, wählen Sie als: df.select("*"); //to select everything df.select(df.col("colname")[, df.col("colname")]); //to select one or more columns df.select(df.col("colname"), df.col("colname").plus(1)) //to select a column and a calculated column

Funke-Karte dataframe mit dem dataframe - schema

Anzahl der Antworten 2 Antworten
Ich habe einen dataframe, erstellt von einem JSON-Objekt. Ich kann die Abfrage dieser dataframe und schreiben Sie es auf das Parkett. Da ich folgern, das schema, das ich nicht unbedingt wissen, was in den dataframe. Gibt es

Mehrere Bedingung-filter auf dataframe

Anzahl der Antworten 2 Antworten
Kann jemand mir erklären, warum erhalte ich unterschiedliche Ergebnisse für diese 2 Ausdrücke ? Ich versuche, das filter zwischen 2 Daten: df.filter("act_date <='2017-04-01'" and "act_date >='2016-10-01'")\ .select("col1","col2").distinct().count() Ergebnis : 37M vs df.filter("act_date <='2017-04-01'").filter("act_date >='2016-10-01'")\ .select("col1","col2").distinct().count() Ergebnis: 25M

pyspark approxQuantile Funktion

Anzahl der Antworten 2 Antworten
Habe ich dataframe mit diesen Spalten id, price, timestamp. Ich würde gerne erfahren, median, gruppiert nach id. Ich bin mit diesem code zu finden, aber es ist mir dieser Fehler. from pyspark.sql import DataFrameStatFunctions as statFunc windowSpec

Trim-string-Spalte in PySpark dataframe

Anzahl der Antworten 4 Antworten
Ich bin Anfänger auf Python und Funken. Nach dem erstellen eines DataFrame aus CSV Datei, ich würde gerne wissen, wie ich trimmen kann eine Spalte. Ich habe versucht: df = df.withColumn("Product", df.Product.strip()) df ist meine Daten-frame, Product