Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Spark Rotverschiebung mit Python

Anzahl der Antworten 6 Antworten
Ich versuche zu verbinden Spark mit amazon Redshift, aber ich bin immer diese Fehlermeldung : Mein code ist wie folgt : from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="Connect Spark with Redshift") sql_context =

Verarbeitung von json-strings in einem Spark-dataframe Spalte

Anzahl der Antworten 1 Antworten
Als ich nach Möglichkeiten suchen, Parsen von json in einen string-Spalte ein dataframe, das ich immer wieder mit Ergebnissen, die mehr Lesen Sie einfach die json-Datei Quellen. Meine Quelle ist eigentlich ein Bienenstock ORC Tabelle mit einige

(Scala) Konvertieren von Zeichenfolgen in Datumsangaben in Apache Spark

Anzahl der Antworten 2 Antworten
Ich würde gerne eine Lesen .csv-Datei mit Spark und ordnen Sie die Spalten mit passenden Typen. val conf = new SparkConf() .setMaster("local[8]") .setAppName("Name") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val customSchema = StructType(Array(

Wie zu subtrahieren einer Spalte von Tage aus eine Spalte mit Datumsangaben in Pyspark?

Anzahl der Antworten 4 Antworten
Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in

Wie die Summe von Werten in einem iterator in einem PySpark groupByKey()

Anzahl der Antworten 3 Antworten
Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:

Schreiben HBase über Spark: Aufgabe nicht serialisierbar

Anzahl der Antworten 1 Antworten
Bin ich zu schreiben versucht, einige einfache Daten in HBase (0.96.0-hadoop2) mit Spark 1.0 aber ich bekomme immer die Serialisierung Probleme. Hier ist der relevante code: import org.apache.hadoop.hbase.client._ import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.util.Bytes import org.apache.spark.rdd.NewHadoopRDD import org.apache.hadoop.hbase.HBaseConfiguration import

Kann sparklyr verwendet werden, mit spark bereitgestellt Garn-verwaltete hadoop-Clusters?

Anzahl der Antworten 4 Antworten
Ist die sparklyr - R-Paket in der Lage, eine Verbindung zu GARN verwaltete hadoop-Cluster? Dies scheint nicht dokumentiert werden, in dem cluster-deployment Dokumentation. Mit der SparkR - Paket, die Schiffe mit Spark ist es möglich, durch tun:

wordCounts.dstream().saveAsTextFiles("LOCAL FILE SYSTEM PATH", "txt"); nicht in Datei schreiben

Anzahl der Antworten 3 Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

Sind die fehlgeschlagenen tasks erneut übermittelt werden, in Apache Spark?

Anzahl der Antworten 2 Antworten
Gescheitert sind Aufgaben automatisch erneut in Apache Spark auf demselben oder einem anderen Vollstrecker? Fehlgeschlagene Aufgaben Zündkerzen sind neu, oder wenn Sie haben, überprüfen Sie, verwies Sie neu aus dem checkpoint, der Papier) geht weiter ins detail

So finden die nächsten Nachbarn von 1 Milliarde Datensätze mit Spark?

Anzahl der Antworten 3 Antworten
Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top

Wie man Schlüssel und Werte aus MapType Spalte in SparkSQL DataFrame

Anzahl der Antworten 2 Antworten
Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)

So Lesen Sie Datensätze aus Kafka-Thema von Anfang an in der Spark-Streaming?

Anzahl der Antworten 2 Antworten
Ich versuche zu Lesen, Datensätze aus einer Kafka-Thema der Verwendung von Spark-Streaming. Dies ist mein code: object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer],

Zählen Sie auf Spark Dataframe ist extrem langsam

Anzahl der Antworten 2 Antworten
Ich bin erstellen Sie ein neues DataFrame mit einer Handvoll von Datensätzen aus einer Beitreten. val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) joined_df.cache() joined_df.count() Alles ist schnell (unter einer Sekunde), außer die count-Methode.

SparkException: Werte zu montieren kann nicht null sein

Anzahl der Antworten 1 Antworten
Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden

IF-Anweisung Pyspark

Anzahl der Antworten 2 Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

cache-Tabellen in apache spark sql

Anzahl der Antworten 1 Antworten
Vom Funken offizielle Dokument, es sagt: Spark SQL können die cache-Tabellen mit einer in-memory-Spaltenformat von Aufruf sqlContext.cacheTable("tableName") oder dataFrame.cache(). Dann Spark SQL-Scannen wird nur benötigt, Spalten und automatisch optimieren Komprimierung zum minimieren der Speichernutzung und der GC-Druck.

Data type mismatch, während die Umwandlung von Daten in spark-dataset

Anzahl der Antworten 1 Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

org.apache.spark.SparkException: Fehler beim ausführen der benutzerdefinierten Funktion

Anzahl der Antworten 1 Antworten
Ich neu in scala und ich bin versucht, führen Sie den folgenden code: val SetID = udf{(c:String, d: String) => if( c.UpperCase.contains("EXKLUS") == true) {d} else {""} } val ParquetWithID = STG1 .withColumn("ID", SetID( col("line_item"), col("line_item_ID"))) beide

Wie kann ich Lesen Sie diese avro-Datei mit spark & scala?

Anzahl der Antworten 3 Antworten
Ich habe gesehen, verschiedene Zündkerzen-und avro-Fragen (einschließlich Wie kann ich laden, Avro in der Funke mit dem schema an Bord der Avro Datei(en)?), aber keine der Lösungen funktioniert bei mir mit folgenden avro Datei: http://www.4shared.com/file/SxnYcdgJce/sample.html Wenn ich

SparkSQL - Lag-Funktion?

Anzahl der Antworten 1 Antworten
Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich

Die Einstellung in der Funke zu legen die Komprimierung der `Ausgang`?

Anzahl der Antworten 2 Antworten
So, Funke hat die Datei spark-defaults.xml festlegen, welche Einstellungen, einschließlich der Kompressions-codec wird verwendet und in welchem Stadium (RDD, Shuffle). Die meisten Einstellungen können festgelegt werden auf der Anwendungsebene. BEARBEITET: conf = SparkConf() conf.set("spark.hadoop.mapred.output.compress", "true") conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.snappy")

zählen von Zeilen des dataframe mit Bedingung in spark

Anzahl der Antworten 2 Antworten
Ich versuche dieses: df=dfFromJson: {"class":"name 1","stream":"science"} {"class":"name 1","stream":"arts"} {"class":"name 1","stream":"science"} {"class":"name 1","stream":"law"} {"class":"name 1","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} df.groupBy("class").agg(count(col("stream")==="science") as "stream_science", count(col("stream")==="arts") as "stream_arts", count(col("stream")==="law") as "stream_law") Diese nicht

wie speichern von Daten in HDFS mit spark?

Anzahl der Antworten 1 Antworten
Möchte ich mit Spark-Streaming-abrufen von Daten von Kafka. Nun, ich möchte meine Daten in eine remote-HDFS. Ich weiß, dass ich die Funktion saveAsText. Allerdings weiß ich nicht genau, wie man den Pfad angeben. Ist das richtig, wenn

Wie zu dienen eine Spark MLlib Modell?

Anzahl der Antworten 4 Antworten
Ich bin Evaluierung der tools für die Produktion-ML-basierten Anwendungen und eine unserer Optionen ist Spark MLlib , aber ich habe einige Fragen dazu, wie Sie dienen, ein Modell einmal seine geschulten? Beispielsweise in Azure ML, einmal ausgebildet,

pass RDD als parameter und return-dataframe, um eine Funktion - scala

Anzahl der Antworten 1 Antworten
Ich versuche zu erstellen-Funktion, die string-oder RDD als ein argument aber gibt dataframe. Code: def udf1 (input: String) = { val file = sc.textFile(input); file.map(p => Person( (p.substring(1, 15)), p.substring(16, 20))).toDF() } def main() { case class

Kann nicht laufen Spark 1.2 im standalone-Modus auf Mac

Anzahl der Antworten 2 Antworten
Ich versuche zu lernen Funken, indem Sie es im offline-Modus auf meinem MacBook Pro (10.9.2). Ich gedownloadet & baute es mit Hilfe der Anleitung hier: http://spark.apache.org/docs/latest/building-spark.html Ich fing dann an, bis der master-server mit der Anleitung von

Wie der Zugriff auf hdfs-URI bestehend aus H/A namenodes in Spark die äußeren hadoop-cluster?

Anzahl der Antworten 4 Antworten
Nun habe ich einige Spark-Anwendungen, die für die Speicherung der Ausgabe auf HDFS. Da unsere hadoop-cluster ist aus der namenode H/A und spark-cluster außerhalb von hadoop-Clusters (ich weiß, es ist etwas schlecht) muss ich angeben HDFS-URI zur

finden Sie die minimale und maximale Datum aus den Daten in einem RDD in PySpark

Anzahl der Antworten 3 Antworten
Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und

Bedingte Verknüpfung in Spark-DataFrame

Anzahl der Antworten 1 Antworten
Ich versuche zu join zwei DataFrame mit Bedingung. Habe ich zwei dataframe A und B. Enthält eine id,m_cd und c_cd Spalten B enthält m_cd,c_cd-und Datensatz-Spalten Bedingungen - Wenn m_cd null ist, dann treten Sie c_cd von A

So berechnen Sie die kumulative Summe über sqlContext

Anzahl der Antworten 4 Antworten
Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es

Pyspark auf Garn-cluster-Modus

Anzahl der Antworten 1 Antworten
Gibt es eine Möglichkeit zu laufen pyspark Skripte mit Garn-cluster-Modus ohne Verwendung der spark-submit-Skript? Ich brauche es auf diese Weise, weil ich integriere diesen code in eine django-web-app. Wenn ich versuche zum ausführen von Skripts in Garn-cluster-Modus

Py4Java: ImportError: No module named numpy beim ausführen von Python-shell, Apache Spark

Anzahl der Antworten 1 Antworten
Ich versuche, Folgen die live-Codierung in diesem Apache Spark reden Hier ist mein IPython notebook, bis zu dem Punkt, wo ich den Fehler Auftritt: also numpy installiert ist: ~ $ pip install numpy Requirement already satisfied (use

apache zeppelin: java.lang.NullPointerException

Anzahl der Antworten 3 Antworten
Beim ausführen jeder Art von Befehl in zeppelin, ich bin immer eine "java.lang.NullPointerException" - Fehler - selbst einfache Sachen wie sc.appName. Hier ist der vollständige text: java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext_2(SparkInterpreter.java:391) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext(SparkInterpreter.java:380) at org.apache.zeppelin.spark.SparkInterpreter.getSparkContext(SparkInterpreter.java:146)

pyspark split eine Spalte auf mehrere Spalten ohne pandas

Anzahl der Antworten 1 Antworten
meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es

wie interpretieren RDD.treeAggregate

Anzahl der Antworten 1 Antworten
Lief ich in diese Zeile in der Apache-Spark source code val (gradientSum, lossSum, miniBatchSize) = data .sample(false, miniBatchFraction, 42 + i) .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))( seqOp = (c, v) => { //c: (grad, loss, count), v: (label, features)

Py4J Fehler beim erstellen einer spark-dataframe mit pyspark

Anzahl der Antworten 5 Antworten
Habe ich installiert pyspark mit python 3.6 und ich bin mit jupyter notebook zu initialisieren einer spark-Sitzung. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("test").enableHieSupport.getOrCreate() läuft ohne Fehler Aber ich Schreibe, df = spark.range(10) df.show() Wirft es mir

Wie die Steuerung der Anzahl von Ausgabe-Dateien erstellt von Spark job beim schreiben?

Anzahl der Antworten 2 Antworten
Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code

Speichern von aggregierten Wert eines PySpark dataframe Spalte in eine variable

Anzahl der Antworten 4 Antworten
Arbeite ich mit PySpark dataframes hier. "test1" ist mein PySpark dataframe und event_date ist ein TimestampType. Also, wenn ich versuche mir ein distinct count von event_date, das Ergebnis ist eine integer-variable, aber wenn ich versuche max von

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

Anzahl der Antworten 2 Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

Wie zu Kodieren kategoriale Funktionen in Apache Spark

Anzahl der Antworten 3 Antworten
Habe ich eine Reihe von Daten, auf deren Grundlage erstellen Sie ein klassifikationsmodell. Jede Zeile hat die folgende form: user1,class1,product1 user1,class1,product2 user1,class1,product5 user2,class1,product2 user2,class1,product5 user3,class2,product1 Gibt es rund 1M-Benutzer, 2 Klassen, und 1M-Produkte. Was möchte ich als

Was ist StringIndexer , VectorIndexer, und wie benutzt man Sie?

Anzahl der Antworten 2 Antworten
Dataset<Row> dataFrame = ... ; StringIndexerModel labelIndexer = new StringIndexer() .setInputCol("label") .setOutputCol("indexedLabel") .fit(dataFrame); VectorIndexerModel featureIndexer = new VectorIndexer() .setInputCol("s") .setOutputCol("indexedFeatures") .setMaxCategories(4) .fit(dataFrame); IndexToString labelConverter = new IndexToString() .setInputCol("prediction") .setOutputCol("predictedLabel") .setLabels(labelIndexer.labels()); Was ist StringIndexer, VectorIndexer, IndexToString und was

Warum Spark Anwendung auf GARN schlägt mit FetchFailedException durch die Verbindung verweigert?

Anzahl der Antworten 2 Antworten
Ich bin mit spark version 1.6.3 und yarn version 2.7.1.2.3 kommt mit HDP-2.3.0.0-2557. Weil, spark version ist zu alt, das HDP-version, die ich benutze, ich benutze lieber eine andere Funke als Garn-Modus aus der Ferne. Hier ist,

Laufende Garn mit spark funktioniert nicht mit Java 8

Anzahl der Antworten 1 Antworten
Habe ich cluster mit 1 master und 6 slaves verwendet pre-built version von hadoop 2.6.0 und Funken 1.6.2. Ich war laufen, hadoop MR und der Funken Arbeitsplätze, ohne irgendein problem mit openjdk 7 installiert auf allen Knoten.

Warum wird ausgehend spark-shell schlägt fehl "wir konnten keine externe IP-Adresse!" auf Windows?

Anzahl der Antworten 1 Antworten
Ich habe Probleme beim starten Funke-shell auf meinem Windows-computer jetzt. Die version von Spark, die ich verwende, ist 1.5.2 pre-built for Hadoop 2.4 oder höher. Ich denke, spark-shell.cmd laufen konnte, direkt, ohne Konfiguration, da es fertig aufgebaut

PySpark & MLLib: Klasse Wahrscheinlichkeiten von Random Forest Vorhersagen

Anzahl der Antworten 4 Antworten
Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich

wie Sie zu sammeln, spark sql-Ausgabe in eine Datei?

Anzahl der Antworten 3 Antworten
Unten ist mein spark sql-Skript lädt eine Datei und verwendet den SQL oben drauf, ich will zu sammeln, die die Ausgabe der sql-Abfrage aus und schreibt Sie in eine Datei, die nicht sicher sind, wie Sie kann

java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StorageStatistics

Anzahl der Antworten 1 Antworten
Ich versuche, führen Sie eine einfache Funke s3 app von einem server, aber ich bekomme immer folgende Fehlermeldung, weil der server hadoop 2.7.3 installiert und es sieht aus wie es nicht die GlobalStorageStatistics Klasse. http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/api/org/apache/hadoop/fs/GlobalStorageStatistics.html.I haben hadoop-2.8.x

Karte RDD zu PairRDD in Scala

Anzahl der Antworten 3 Antworten
Ich versuche, anzeigen RDD zu pairRDD in scala, so könnte ich reduceByKey später. Hier ist was ich getan habe: userRecords ist der org.apache.spark.rdd.RDD[UserElement] Ich versuchen, erstellen Sie eine pairRDD von userRecords wie unten: val userPairs: PairRDDFunctions[String, UserElement]

Spark - UbuntuVM - insufficient memory for the Java Runtime Environment

Anzahl der Antworten 2 Antworten
Ich versuche zu installieren Spark1.5.1 auf Ubuntu14.04 VM. Nach un-teert die Datei, die ich geändert habe das Verzeichnis zu dem entpackten Ordner und den Befehl ausgeführt "./bin/pyspark" das Feuer sollte die pyspark shell. Aber ich bekam eine

Text-Vorverarbeitung in Spark-Scala

Anzahl der Antworten 3 Antworten
Ich möchte preprocessing-phase auf eine große Menge von text-Daten in die Funke-Scala wie Lemmatization - Stop-Wörter Entfernen(mittels Tf-Idf) - POS-tagging , gibt es eine Möglichkeit, diese umzusetzen Spark - Scala ? zum Beispiel hier ist ein Beispiel