Tag: apache-spark

Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.

Spark Rotverschiebung mit Python

6 Antworten

Ich versuche zu verbinden Spark mit amazon Redshift, aber ich bin immer diese Fehlermeldung : Mein code ist wie folgt : from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="Connect Spark with Redshift") sql_context =

Verarbeitung von json-strings in einem Spark-dataframe Spalte

1 Antworten

Als ich nach Möglichkeiten suchen, Parsen von json in einen string-Spalte ein dataframe, das ich immer wieder mit Ergebnissen, die mehr Lesen Sie einfach die json-Datei Quellen. Meine Quelle ist eigentlich ein Bienenstock ORC Tabelle mit einige

apache-spark

(Scala) Konvertieren von Zeichenfolgen in Datumsangaben in Apache Spark

2 Antworten

Ich würde gerne eine Lesen .csv-Datei mit Spark und ordnen Sie die Spalten mit passenden Typen. val conf = new SparkConf() .setMaster("local[8]") .setAppName("Name") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val customSchema = StructType(Array(

apache-spark csv scala sql

Wie zu subtrahieren einer Spalte von Tage aus eine Spalte mit Datumsangaben in Pyspark?

4 Antworten

Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in

apache-spark apache-spark-sql pyspark python user-defined-functions

Wie die Summe von Werten in einem iterator in einem PySpark groupByKey()

3 Antworten

Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:

apache-spark iterator pyspark python rdd

Schreiben HBase über Spark: Aufgabe nicht serialisierbar

1 Antworten

Bin ich zu schreiben versucht, einige einfache Daten in HBase (0.96.0-hadoop2) mit Spark 1.0 aber ich bekomme immer die Serialisierung Probleme. Hier ist der relevante code: import org.apache.hadoop.hbase.client._ import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.util.Bytes import org.apache.spark.rdd.NewHadoopRDD import org.apache.hadoop.hbase.HBaseConfiguration import

apache-spark hbase scala

Kann sparklyr verwendet werden, mit spark bereitgestellt Garn-verwaltete hadoop-Clusters?

4 Antworten

Ist die sparklyr - R-Paket in der Lage, eine Verbindung zu GARN verwaltete hadoop-Cluster? Dies scheint nicht dokumentiert werden, in dem cluster-deployment Dokumentation. Mit der SparkR - Paket, die Schiffe mit Spark ist es möglich, durch tun:

apache-spark r sparkapi sparklyr yarn

wordCounts.dstream().saveAsTextFiles("LOCAL FILE SYSTEM PATH", "txt"); nicht in Datei schreiben

3 Antworten

Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

apache-spark hadoop-streaming pyspark spark-streaming streaming

Sind die fehlgeschlagenen tasks erneut übermittelt werden, in Apache Spark?

2 Antworten

Gescheitert sind Aufgaben automatisch erneut in Apache Spark auf demselben oder einem anderen Vollstrecker? Fehlgeschlagene Aufgaben Zündkerzen sind neu, oder wenn Sie haben, überprüfen Sie, verwies Sie neu aus dem checkpoint, der Papier) geht weiter ins detail

apache-spark

So finden die nächsten Nachbarn von 1 Milliarde Datensätze mit Spark?

3 Antworten

Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top

apache-spark euclidean-distance nearest-neighbor pyspark spark-dataframe

Wie man Schlüssel und Werte aus MapType Spalte in SparkSQL DataFrame

2 Antworten

Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)

apache-spark apache-spark-dataset apache-spark-sql dataframe scala

So Lesen Sie Datensätze aus Kafka-Thema von Anfang an in der Spark-Streaming?

2 Antworten

Ich versuche zu Lesen, Datensätze aus einer Kafka-Thema der Verwendung von Spark-Streaming. Dies ist mein code: object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer],

apache-kafka apache-spark scala spark-streaming

Zählen Sie auf Spark Dataframe ist extrem langsam

2 Antworten

Ich bin erstellen Sie ein neues DataFrame mit einer Handvoll von Datensätzen aus einer Beitreten. val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) joined_df.cache() joined_df.count() Alles ist schnell (unter einer Sekunde), außer die count-Methode.

apache-spark count rdd scala spark-dataframe

SparkException: Werte zu montieren kann nicht null sein

1 Antworten

Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden

apache-spark apache-spark-ml apache-spark-sql

IF-Anweisung Pyspark

2 Antworten

Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|

apache-spark apache-spark-sql if-statement pyspark pyspark-sql

cache-Tabellen in apache spark sql

1 Antworten

Vom Funken offizielle Dokument, es sagt: Spark SQL können die cache-Tabellen mit einer in-memory-Spaltenformat von Aufruf sqlContext.cacheTable("tableName") oder dataFrame.cache(). Dann Spark SQL-Scannen wird nur benötigt, Spalten und automatisch optimieren Komprimierung zum minimieren der Speichernutzung und der GC-Druck.

apache-spark apache-spark-sql caching

Data type mismatch, während die Umwandlung von Daten in spark-dataset

1 Antworten

Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");

apache-spark apache-spark-dataset apache-spark-sql java parquet

org.apache.spark.SparkException: Fehler beim ausführen der benutzerdefinierten Funktion

1 Antworten

Ich neu in scala und ich bin versucht, führen Sie den folgenden code: val SetID = udf{(c:String, d: String) => if( c.UpperCase.contains("EXKLUS") == true) {d} else {""} } val ParquetWithID = STG1 .withColumn("ID", SetID( col("line_item"), col("line_item_ID"))) beide

apache-spark apache-spark-sql nullpointerexception scala

Wie kann ich Lesen Sie diese avro-Datei mit spark & scala?

3 Antworten

Ich habe gesehen, verschiedene Zündkerzen-und avro-Fragen (einschließlich Wie kann ich laden, Avro in der Funke mit dem schema an Bord der Avro Datei(en)?), aber keine der Lösungen funktioniert bei mir mit folgenden avro Datei: http://www.4shared.com/file/SxnYcdgJce/sample.html Wenn ich

apache-spark scala

SparkSQL - Lag-Funktion?

1 Antworten

Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich

apache-spark apache-spark-sql pyspark sql window-functions

Die Einstellung in der Funke zu legen die Komprimierung der `Ausgang`?

2 Antworten

So, Funke hat die Datei spark-defaults.xml festlegen, welche Einstellungen, einschließlich der Kompressions-codec wird verwendet und in welchem Stadium (RDD, Shuffle). Die meisten Einstellungen können festgelegt werden auf der Anwendungsebene. BEARBEITET: conf = SparkConf() conf.set("spark.hadoop.mapred.output.compress", "true") conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.snappy")

apache-spark hadoop hadoop-plugins

zählen von Zeilen des dataframe mit Bedingung in spark

2 Antworten

Ich versuche dieses: df=dfFromJson: {"class":"name 1","stream":"science"} {"class":"name 1","stream":"arts"} {"class":"name 1","stream":"science"} {"class":"name 1","stream":"law"} {"class":"name 1","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} df.groupBy("class").agg(count(col("stream")==="science") as "stream_science", count(col("stream")==="arts") as "stream_arts", count(col("stream")==="law") as "stream_law") Diese nicht

apache-spark apache-spark-sql dataframe json scala

wie speichern von Daten in HDFS mit spark?

1 Antworten

Möchte ich mit Spark-Streaming-abrufen von Daten von Kafka. Nun, ich möchte meine Daten in eine remote-HDFS. Ich weiß, dass ich die Funktion saveAsText. Allerdings weiß ich nicht genau, wie man den Pfad angeben. Ist das richtig, wenn

apache-spark hadoop hdfs spark-streaming

Wie zu dienen eine Spark MLlib Modell?

4 Antworten

Ich bin Evaluierung der tools für die Produktion-ML-basierten Anwendungen und eine unserer Optionen ist Spark MLlib , aber ich habe einige Fragen dazu, wie Sie dienen, ein Modell einmal seine geschulten? Beispielsweise in Azure ML, einmal ausgebildet,

apache-spark apache-spark-mllib machine-learning

pass RDD als parameter und return-dataframe, um eine Funktion - scala

1 Antworten

Ich versuche zu erstellen-Funktion, die string-oder RDD als ein argument aber gibt dataframe. Code: def udf1 (input: String) = { val file = sc.textFile(input); file.map(p => Person( (p.substring(1, 15)), p.substring(16, 20))).toDF() } def main() { case class

apache-spark scala spark-dataframe

Kann nicht laufen Spark 1.2 im standalone-Modus auf Mac

2 Antworten

Ich versuche zu lernen Funken, indem Sie es im offline-Modus auf meinem MacBook Pro (10.9.2). Ich gedownloadet & baute es mit Hilfe der Anleitung hier: http://spark.apache.org/docs/latest/building-spark.html Ich fing dann an, bis der master-server mit der Anleitung von

apache-spark

Wie der Zugriff auf hdfs-URI bestehend aus H/A namenodes in Spark die äußeren hadoop-cluster?

4 Antworten

Nun habe ich einige Spark-Anwendungen, die für die Speicherung der Ausgabe auf HDFS. Da unsere hadoop-cluster ist aus der namenode H/A und spark-cluster außerhalb von hadoop-Clusters (ich weiß, es ist etwas schlecht) muss ich angeben HDFS-URI zur

apache-spark hadoop hdfs

finden Sie die minimale und maximale Datum aus den Daten in einem RDD in PySpark

3 Antworten

Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und

apache-spark datetime pyspark python rdd

Bedingte Verknüpfung in Spark-DataFrame

1 Antworten

Ich versuche zu join zwei DataFrame mit Bedingung. Habe ich zwei dataframe A und B. Enthält eine id,m_cd und c_cd Spalten B enthält m_cd,c_cd-und Datensatz-Spalten Bedingungen - Wenn m_cd null ist, dann treten Sie c_cd von A

apache-spark scala

So berechnen Sie die kumulative Summe über sqlContext

4 Antworten

Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es

apache-spark apache-spark-sql pyspark python

Pyspark auf Garn-cluster-Modus

1 Antworten

Gibt es eine Möglichkeit zu laufen pyspark Skripte mit Garn-cluster-Modus ohne Verwendung der spark-submit-Skript? Ich brauche es auf diese Weise, weil ich integriere diesen code in eine django-web-app. Wenn ich versuche zum ausführen von Skripts in Garn-cluster-Modus

apache-spark pyspark yarn

Py4Java: ImportError: No module named numpy beim ausführen von Python-shell, Apache Spark

1 Antworten

Ich versuche, Folgen die live-Codierung in diesem Apache Spark reden Hier ist mein IPython notebook, bis zu dem Punkt, wo ich den Fehler Auftritt: also numpy installiert ist: ~ $ pip install numpy Requirement already satisfied (use

apache-spark numpy py4j python

apache zeppelin: java.lang.NullPointerException

3 Antworten

Beim ausführen jeder Art von Befehl in zeppelin, ich bin immer eine "java.lang.NullPointerException" - Fehler - selbst einfache Sachen wie sc.appName. Hier ist der vollständige text: java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext_2(SparkInterpreter.java:391) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext(SparkInterpreter.java:380) at org.apache.zeppelin.spark.SparkInterpreter.getSparkContext(SparkInterpreter.java:146)

apache-spark apache-zeppelin nullpointerexception

pyspark split eine Spalte auf mehrere Spalten ohne pandas

1 Antworten

meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es

apache-spark apache-spark-sql pyspark python

wie interpretieren RDD.treeAggregate

1 Antworten

Lief ich in diese Zeile in der Apache-Spark source code val (gradientSum, lossSum, miniBatchSize) = data .sample(false, miniBatchFraction, 42 + i) .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))( seqOp = (c, v) => { //c: (grad, loss, count), v: (label, features)

apache-spark distributed-computing rdd scala

Py4J Fehler beim erstellen einer spark-dataframe mit pyspark

5 Antworten

Habe ich installiert pyspark mit python 3.6 und ich bin mit jupyter notebook zu initialisieren einer spark-Sitzung. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("test").enableHieSupport.getOrCreate() läuft ohne Fehler Aber ich Schreibe, df = spark.range(10) df.show() Wirft es mir

apache-spark pyspark python

Wie die Steuerung der Anzahl von Ausgabe-Dateien erstellt von Spark job beim schreiben?

2 Antworten

Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code

apache-spark apache-spark-sql hive parquet

Speichern von aggregierten Wert eines PySpark dataframe Spalte in eine variable

4 Antworten

Arbeite ich mit PySpark dataframes hier. "test1" ist mein PySpark dataframe und event_date ist ein TimestampType. Also, wenn ich versuche mir ein distinct count von event_date, das Ergebnis ist eine integer-variable, aber wenn ich versuche max von

apache-spark pyspark

Was ist der richtige Weg, um die Summe verschiedener dataframe Spalten in einer Liste in pyspark?

2 Antworten

Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df

apache-spark apache-spark-sql pyspark pyspark-sql python

Wie zu Kodieren kategoriale Funktionen in Apache Spark

3 Antworten

Habe ich eine Reihe von Daten, auf deren Grundlage erstellen Sie ein klassifikationsmodell. Jede Zeile hat die folgende form: user1,class1,product1 user1,class1,product2 user1,class1,product5 user2,class1,product2 user2,class1,product5 user3,class2,product1 Gibt es rund 1M-Benutzer, 2 Klassen, und 1M-Produkte. Was möchte ich als

apache-spark apache-spark-1.2 apache-spark-mllib scala

Was ist StringIndexer , VectorIndexer, und wie benutzt man Sie?

2 Antworten

Dataset<Row> dataFrame = ... ; StringIndexerModel labelIndexer = new StringIndexer() .setInputCol("label") .setOutputCol("indexedLabel") .fit(dataFrame); VectorIndexerModel featureIndexer = new VectorIndexer() .setInputCol("s") .setOutputCol("indexedFeatures") .setMaxCategories(4) .fit(dataFrame); IndexToString labelConverter = new IndexToString() .setInputCol("prediction") .setOutputCol("predictedLabel") .setLabels(labelIndexer.labels()); Was ist StringIndexer, VectorIndexer, IndexToString und was

apache-spark dataset spark-dataframe

Warum Spark Anwendung auf GARN schlägt mit FetchFailedException durch die Verbindung verweigert?

2 Antworten

Ich bin mit spark version 1.6.3 und yarn version 2.7.1.2.3 kommt mit HDP-2.3.0.0-2557. Weil, spark version ist zu alt, das HDP-version, die ich benutze, ich benutze lieber eine andere Funke als Garn-Modus aus der Ferne. Hier ist,

apache-spark apache-spark-1.6 yarn

Laufende Garn mit spark funktioniert nicht mit Java 8

1 Antworten

Habe ich cluster mit 1 master und 6 slaves verwendet pre-built version von hadoop 2.6.0 und Funken 1.6.2. Ich war laufen, hadoop MR und der Funken Arbeitsplätze, ohne irgendein problem mit openjdk 7 installiert auf allen Knoten.

apache-spark hadoop yarn

Warum wird ausgehend spark-shell schlägt fehl "wir konnten keine externe IP-Adresse!" auf Windows?

1 Antworten

Ich habe Probleme beim starten Funke-shell auf meinem Windows-computer jetzt. Die version von Spark, die ich verwende, ist 1.5.2 pre-built for Hadoop 2.4 oder höher. Ich denke, spark-shell.cmd laufen konnte, direkt, ohne Konfiguration, da es fertig aufgebaut

apache-spark

PySpark & MLLib: Klasse Wahrscheinlichkeiten von Random Forest Vorhersagen

4 Antworten

Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich

apache-spark apache-spark-mllib pyspark random-forest

wie Sie zu sammeln, spark sql-Ausgabe in eine Datei?

3 Antworten

Unten ist mein spark sql-Skript lädt eine Datei und verwendet den SQL oben drauf, ich will zu sammeln, die die Ausgabe der sql-Abfrage aus und schreibt Sie in eine Datei, die nicht sicher sind, wie Sie kann

apache-spark apache-spark-sql scala

java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StorageStatistics

1 Antworten

Ich versuche, führen Sie eine einfache Funke s3 app von einem server, aber ich bekomme immer folgende Fehlermeldung, weil der server hadoop 2.7.3 installiert und es sieht aus wie es nicht die GlobalStorageStatistics Klasse. http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/api/org/apache/hadoop/fs/GlobalStorageStatistics.html.I haben hadoop-2.8.x

apache-spark hadoop

Karte RDD zu PairRDD in Scala

3 Antworten

Ich versuche, anzeigen RDD zu pairRDD in scala, so könnte ich reduceByKey später. Hier ist was ich getan habe: userRecords ist der org.apache.spark.rdd.RDD[UserElement] Ich versuchen, erstellen Sie eine pairRDD von userRecords wie unten: val userPairs: PairRDDFunctions[String, UserElement]

apache-spark java rdd scala

Spark - UbuntuVM - insufficient memory for the Java Runtime Environment

2 Antworten

Ich versuche zu installieren Spark1.5.1 auf Ubuntu14.04 VM. Nach un-teert die Datei, die ich geändert habe das Verzeichnis zu dem entpackten Ordner und den Befehl ausgeführt "./bin/pyspark" das Feuer sollte die pyspark shell. Aber ich bekam eine

apache-spark openjdk ubuntu-14.04

Text-Vorverarbeitung in Spark-Scala

3 Antworten

Ich möchte preprocessing-phase auf eine große Menge von text-Daten in die Funke-Scala wie Lemmatization - Stop-Wörter Entfernen(mittels Tf-Idf) - POS-tagging , gibt es eine Möglichkeit, diese umzusetzen Spark - Scala ? zum Beispiel hier ist ein Beispiel

apache-spark preprocessor scala text text-mining