Tag: apache-spark-sql
Apache Spark SQL ist ein Werkzeug für „SQL und strukturierte Daten-Verarbeitung“ auf der Funke, der eine schnelle und Allzweck-cluster computing system.
1
Antworten
Habe ich eine Python-Klasse, die ich zum laden und verarbeiten einige Daten in der Funke. Unter den verschiedenen Dinge, die ich tun müssen, ich bin erzeugt eine Liste von dummy-Variablen abgeleitet, die aus verschiedenen Spalten in einer
2
Antworten
Ich versuche zu filtern, einen Funken dataframe, ob die Werte in einer Spalte gleich eine Liste. Ich würde gerne etwas wie das hier tun: filtered_df = df.where(df.a == ['list','of' , 'stuff']) Wo filtered_df nur die Zeilen enthält,
2
Antworten
Ich habe einen sehr großen Datensatz geladen wird im Bienenstock. Es besteht aus ungefähr 1,9 million Zeilen und 1450 Spalten. Ich brauche, um zu bestimmen, die "Reichweite" der einzelnen Spalten, d.h. der Bruchteil der Zeilen, die nicht-NaN-Werte
2
Antworten
Möchte ich libsvm-format, also machte ich dataframe, um die gewünschten format, aber ich weiß nicht, wie zu konvertieren, um libsvm-format. Das format ist wie in der Abbildung gezeigt. Ich hoffe, dass die gewünschte libsvm-Typ ist user-item:Bewertung .
2
Antworten
Ich bin mit df.write.mode("append").jdbc("jdbc:mysql://ip:port/database", "table_name", properties) in eine Tabelle einfügen in MySQL. Auch, ich habe Class.forName("com.mysql.jdbc.Driver") in meinem code. Wenn ich meine Funke Anwendung: spark-submit --class MY_MAIN_CLASS --master yarn-client --jars /path/to/mysql-connector-java-5.0.8-bin.jar --driver-class-path /path/to/mysql-connector-java-5.0.8-bin.jar MY_APPLICATION.jar Dieses Garn-client-Modus funktioniert
1
Antworten
Habe ich eine einfache dataframe wie diese: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", 2321,"201601", "DOCK") ] ) df_data = sqlContext.createDataFrame(rdd,
1
Antworten
Ich versuche zu laden, ein SVM-Datei und wandeln Sie es in ein DataFrame so kann ich mit dem ML-Modul (Pipeline ML) aus Funken. Ich habe gerade installiert ein frisches Funke 1.5.0 unter Ubuntu 14.04 (keine spark-env.sh konfiguriert).
1
Antworten
Könnte mir jemand helfen dieses problem zu lösen, habe ich mit Spark DataFrame? Wenn ich myFloatRDD.toDF() bekomme ich eine Fehlermeldung: TypeError: Lässt sich nicht entnehmen schema für Typ: type 'float' Ich verstehe nicht, warum... Beispiel: myFloatRdd =
2
Antworten
Habe ich ein DataFrame mit zwei Spalten ID Typ Int und Vec Typ Vector (org.apache.spark.mllib.linalg.Vector). Den DataFrame sieht aus wie folgt: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] .... Ich würde gerne eine groupBy($"ID") wenden
3
Antworten
Wie Kann ich eine Abfrage einer RDD mit komplexen Typen wie Karten/arrays? zum Beispiel, wenn ich Schreibe diesen test-code: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2
14
Antworten
Ich Frage mich nur, was ist der Unterschied zwischen einer RDD und DataFrame (Funke 2.0.0 DataFrame ist eine Reine Typ-alias für Dataset[Row]) in Apache Spark? Können Sie konvertieren von einem zum anderen? InformationsquelleAutor menorah84 | 2015-07-20
2
Antworten
Ich habe eine Anwendung in SparkSQL gibt große Anzahl von Zeilen, die sind sehr schwer zu passen in den Speicher, so dass ich nicht in der Lage zu verwenden collect-Funktion auf DataFrame, gibt es eine Möglichkeit mit
5
Antworten
Verwendung von Spark-1.5.0-und angesichts des folgenden code, ich erwarte, dass union unionAll DataFrames, basierend auf den Spalten-Namen. In dem code, ich bin mit einigen FunSuite für die übergabe in SparkContext sc: object Entities { case class A
2
Antworten
Ich würde gerne verwandeln, aus einem DataFrame enthält Listen von Wörtern in einen DataFrame mit jedem Wort in einer eigenen Zeile. Wie mache ich explodieren auf eine Spalte in einem DataFrame? Hier ist ein Beispiel mit einigen
1
Antworten
Beim arbeiten mit Spark ' s DataFrames, User Defined Functions (UDFs) werden für die Zuordnung erforderliche Daten in Spalten. UDFs benötigen, die argument-Typen werden explizit angegeben. In meinem Fall brauche ich zum Bearbeiten einer Spalte, die aus
3
Antworten
Ich versuche, mit Funke für die Verarbeitung von JSON-Daten mit variabler Struktur(verschachtelte JSON). Input JSON-Daten kann sehr groß mit mehr als 1000 Schlüssel pro Zeile und eine batch könnte mehr als 20 GB. Gesamte batch generiert wurde,
1
Antworten
In standard-SQL, wenn Sie join einer Tabelle auf sich selbst, Sie können erstellen Sie Aliase für die Tabellen, um zu verfolgen, welche der Spalten Sie sich beziehen: SELECT a.column_name, b.column_name... FROM table1 a, table1 b WHERE a.common_field
2
Antworten
Ich versuche, Spark dataframes statt RDDs da scheinen Sie mehr high-level als RDDs und neigen dazu, mehr zu produzieren, lesbaren code. In einem 14-Knoten Google Dataproc cluster, ich habe über 6 Millionen Namen, die übersetzt werden ids
2
Antworten
Habe ich nur verwendet, Standard-Scaler zu normalisieren, meine Gesichtszüge für einen ML-Anwendung. Nach der Auswahl der skalierten Funktionen, die ich will, um zu konvertieren zurück zu einem dataframe Verdoppelt, obwohl die Länge der meine Vektoren sind frei
2
Antworten
Bin ich immer diese Fehlermeldung wenn ich versuche eine Verbindung zum hive-metastore mit Spark SQL HiveContext. ich bin mit dieser auf standalone-cluster mit Funken-submit-Befehl von meinem desktop, nicht aus dem hadoop-cluster. Ist es etwas mit Sicherheit zu
1
Antworten
Habe ich die folgende Funktion für die Arbeit mit arrays von beliebigen numerischen Typ: def array_sum[T](item:Traversable[T])(implicit n:Numeric[T]) = item.sum //Registers a function as a UDF so it can be used in SQL statements. sqlContext.udf.register("array_sumD", array_sum(_:Seq[Float])) Aber zu
4
Antworten
Habe ich Folgendes Funke dataframe, dass dynamisch erzeugt wird: val sf1 = StructField("name", StringType, nullable = true) val sf2 = StructField("sector", StringType, nullable = true) val sf3 = StructField("age", IntegerType, nullable = true) val fields = List(sf1,sf2,sf3)
1
Antworten
Habe einige Mühe, die round-Funktion in pyspark zu arbeiten - ich habe den untenstehenden code-block, wo ich bin versuchen, um die new_bid Spalte auf 2 Dezimalstellen genau und benennen Sie die Spalte als bid danach - ich
1
Antworten
Ich versuche eine Abfrage schreiben, in SPARK SQL join von drei Tabellen. Aber die Ausgabe der Abfrage null ist. Es ist in Ordnung für eine einzelne Tabelle. Meine Join-Abfrage ist richtig, da habe ich bereits ausgeführt, in
1
Antworten
Habe ich csv-Daten und erstellt Pandas dataframe mit read_csv und zwingt alle Spalten als string. Dann, wenn ich versuche, zu schaffen Funke dataframe von den Pandas dataframe, bekomme ich die Fehlermeldung unten. from pyspark import SparkContext from
1
Antworten
Ich bin auf der Suche nach einem Weg zu finden, der Unterschied der Werte in Spalten von zwei DataFrame. Zum Beispiel: from pyspark.sql import SQLContext sc = SparkContext() sql_context = SQLContext(sc) df_a = sql_context.createDataFrame([("a", 3), ("b", 5),
2
Antworten
Muss ich implementieren Sie die folgenden SQL-Logik in der Funke DataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1; Mein
3
Antworten
Ich bin das schreiben eines einfachen Verbraucher-Programm mit spark streaming. Mein code speichern Sie einige der Daten in der Datei, aber nicht ALLE Daten. Kann mir jemand helfen wie dieses Problem zu beheben. Ich bin nicht sicher,
2
Antworten
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value").alias("TotalValue")) .sort($"Hour".asc,$"TotalValue".desc)) Die Ergebnisse wie folgt Aussehen: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1|
4
Antworten
Habe ich einen Daten-frame (business_df) schema: |-- business_id: string (nullable = true) |-- categories: array (nullable = true) | |-- element: string (containsNull = true) |-- city: string (nullable = true) |-- full_address: string (nullable = true)
5
Antworten
Ich bin auf der Suche nach einem Weg, um wählen Sie Spalten mein dataframe in pyspark. Für die erste Zeile, die ich kenne, die ich verwenden kann df.first() aber nicht sicher über die Säulen gegeben, dass Sie
1
Antworten
So erstellen Sie eine neue Spalte in PySpark und füllen Sie diese Spalte mit dem Datum von heute? Dies ist, was ich versucht habe: import datetime now = datetime.datetime.now() df = df.withColumn("date", str(now)[:10]) Bekomme ich diesen Fehler:
2
Antworten
Ich versuche an, um alle Zeilen in einem dataframe, wo zwei flags gesetzt sind, auf " 1 " und anschließend alle diejenigen, wo nur einer von beiden ist gesetzt auf '1' und die andere NICHT GLEICH auf
5
Antworten
nach erfolgreichem build apache zepellin auf Ubuntu 14, ich fange zeppelin, und es sagt erfolgreich gestartet, aber wenn ich auf localhost:8080 Firefox zeigt keine Verbindung Fehler wie es gar nicht gestartet, aber wenn ich überprüfen Zeppelin status
1
Antworten
Ich bin mit dem Java-connector für Spark und möchte union zwei DataFrames aber Bizarr war der DataFrame Klasse hat nur unionAll? Dies ist gewollt und gibt es eine Möglichkeit zu union zwei DataFrames ohne Duplikate? InformationsquelleAutor Milen
11
Antworten
Gerade jetzt, ich habe zu verwenden df.count > 0 um zu überprüfen, ob die DataFrame leer ist oder nicht. Aber es ist ziemlich ineffizient. Gibt es eine bessere Möglichkeit, das zu tun. Dank. PS: ich will prüfen,
2
Antworten
Wenn ich starte spark bekomme ich diese Warnungen: Using Scala version 2.10.5 (OpenJDK 64-Bit Server VM, Java 1.8.0_77) Type in expressions to have them evaluated. Type :help for more information. Spark context available as sc. 16/04/03 15:07:31
2
Antworten
Kann bitte jemand erklären, warum Fall Row, Seq[Row] sind nach dem explodieren eines dataframe Feld die Sammlung von Elementen. Und auch können Sie bitte erklären mir den Grund, warum asInstanceOf ist erforderlich, um die Werte aus dem
2
Antworten
War ich mit json-scala-Bibliothek zum Parsen der json-von einem lokalen Laufwerk in spark job : val requestJson=JSON.parseFull(Source.fromFile("c:/data/request.json").mkString) val mainJson=requestJson.get.asInstanceOf[Map[String,Any]].get("Request").get.asInstanceOf[Map[String,Any]] val currency=mainJson.get("currency").get.asInstanceOf[String] Aber wenn ich versuche, mit dem gleichen parser, indem Sie auf hdfs Speicherort der Datei das
2
Antworten
Ich habe einen dataframe mit Transaktionen mit einer verbundenen Preis-Liste: +----------+----------+------+-------+-------+ | paid | currency | EUR | USD | GBP | +----------+----------+------+-------+-------+ | 49.5 | EUR | 99 | 79 | 69 | +----------+----------+------+-------+-------+ Kunde bezahlt
2
Antworten
Gelesen habe ich mehrere Beiträge über die Verwendung des "like" - operator zum filtern von ein Funke dataframe, die durch die Bedingung enthält, einen string-Ausdruck, aber Frage mich, ob das folgenden ist eine "best-practice" - auf die
1
Antworten
Habe ich eine einfache text-Datei, die enthält "Transaktionen". 1. Zeile die Spaltennamen wie z.B. "STARTZEIT", "ENDZEIT", "GRÖßE".. über ~100 Spaltennamen. Den Namen der Spalten in der Datei sind ohne Anführungszeichen. Will ich mit Spark, konvertieren Sie diese
2
Antworten
In Scala kann ich tun get(#) oder getAs[Type](#) um Werte aus einem dataframe. Wie sollte ich es tun, in pyspark? Ich habe zwei Spalten DataFrame: item(string) und salesNum(integers). Ich mache groupby und mean um einen Mittelwert dieser
1
Antworten
Möchte ich cast das schema eines dataframe zu ändern den Typ von Spalten Verwendung von Spark-und Scala. Speziell ich bin versucht, das als[U] Funktion, deren Beschreibung lautet: "Gibt ein neues Dataset, in dem jeder Datensatz zugeordnet wurde,
2
Antworten
exitTotalDF .filter($"accid" === "dc215673-ef22-4d59-0998-455b82000015") .groupBy("exiturl") .agg(first("accid"), first("segment"), $"exiturl", sum("session"), sum("sessionfirst"), first("date")) .orderBy(desc("session")) .take(500) org.apache.spark.sql.AnalysisException: cannot resolve '`session`' given input columns: [first(accid, false), first(date, false), sum(session), exiturl, sum(sessionfirst), first(segment, false)] Sein, wie die Summe-Funktion kann nicht finden die
2
Antworten
Dies ist eine totale noob-Frage, tut mir Leid. Spark, ich kann verwenden, wählen Sie als: df.select("*"); //to select everything df.select(df.col("colname")[, df.col("colname")]); //to select one or more columns df.select(df.col("colname"), df.col("colname").plus(1)) //to select a column and a calculated column
2
Antworten
Ich habe einen dataframe, erstellt von einem JSON-Objekt. Ich kann die Abfrage dieser dataframe und schreiben Sie es auf das Parkett. Da ich folgern, das schema, das ich nicht unbedingt wissen, was in den dataframe. Gibt es
2
Antworten
Kann jemand mir erklären, warum erhalte ich unterschiedliche Ergebnisse für diese 2 Ausdrücke ? Ich versuche, das filter zwischen 2 Daten: df.filter("act_date <='2017-04-01'" and "act_date >='2016-10-01'")\ .select("col1","col2").distinct().count() Ergebnis : 37M vs df.filter("act_date <='2017-04-01'").filter("act_date >='2016-10-01'")\ .select("col1","col2").distinct().count() Ergebnis: 25M
2
Antworten
Habe ich dataframe mit diesen Spalten id, price, timestamp. Ich würde gerne erfahren, median, gruppiert nach id. Ich bin mit diesem code zu finden, aber es ist mir dieser Fehler. from pyspark.sql import DataFrameStatFunctions as statFunc windowSpec
4
Antworten
Ich bin Anfänger auf Python und Funken. Nach dem erstellen eines DataFrame aus CSV Datei, ich würde gerne wissen, wie ich trimmen kann eine Spalte. Ich habe versucht: df = df.withColumn("Product", df.Product.strip()) df ist meine Daten-frame, Product