Tag: apache-spark
Apache Spark ist ein open-source-verteilte Datenverarbeitung-Bibliothek für large-scale in-memory data analytics-computing.
6
Antworten
Ich versuche zu verbinden Spark mit amazon Redshift, aber ich bin immer diese Fehlermeldung : Mein code ist wie folgt : from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="Connect Spark with Redshift") sql_context =
1
Antworten
Als ich nach Möglichkeiten suchen, Parsen von json in einen string-Spalte ein dataframe, das ich immer wieder mit Ergebnissen, die mehr Lesen Sie einfach die json-Datei Quellen. Meine Quelle ist eigentlich ein Bienenstock ORC Tabelle mit einige
2
Antworten
Ich würde gerne eine Lesen .csv-Datei mit Spark und ordnen Sie die Spalten mit passenden Typen. val conf = new SparkConf() .setMaster("local[8]") .setAppName("Name") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val customSchema = StructType(Array(
4
Antworten
Angesichts der folgenden PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10), ('2015-02-15', 5)], ('date_col', 'days_col')) Wie können die Tage in Spalte subtrahiert werden aus der Spalte Datum? In diesem Beispiel die resultierende Spalte sollte ['2015-01-05', '2015-02-10']. Schaute ich in
3
Antworten
Mache ich meine ersten Schritte auf Spark (Python) und ich bin zu kämpfen, mit der ein iterator innerhalb einer groupByKey(). Ich bin nicht in der Lage, um die Summe der Werte: Mein code sieht wie folgt aus:
1
Antworten
Bin ich zu schreiben versucht, einige einfache Daten in HBase (0.96.0-hadoop2) mit Spark 1.0 aber ich bekomme immer die Serialisierung Probleme. Hier ist der relevante code: import org.apache.hadoop.hbase.client._ import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.util.Bytes import org.apache.spark.rdd.NewHadoopRDD import org.apache.hadoop.hbase.HBaseConfiguration import
4
Antworten
Ist die sparklyr - R-Paket in der Lage, eine Verbindung zu GARN verwaltete hadoop-Cluster? Dies scheint nicht dokumentiert werden, in dem cluster-deployment Dokumentation. Mit der SparkR - Paket, die Schiffe mit Spark ist es möglich, durch tun:
3
Antworten
Ich bin versucht, zu schreiben JavaPairRDD in einer Datei im lokalen system. Code unter: JavaPairDStream<String, Integer> wordCounts = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }
2
Antworten
Gescheitert sind Aufgaben automatisch erneut in Apache Spark auf demselben oder einem anderen Vollstrecker? Fehlgeschlagene Aufgaben Zündkerzen sind neu, oder wenn Sie haben, überprüfen Sie, verwies Sie neu aus dem checkpoint, der Papier) geht weiter ins detail
3
Antworten
Angesichts 1 Milliarde Datensätze mit folgenden Informationen: ID x1 x2 x3 ... x100 1 0.1 0.12 1.3 ... -2.00 2 -1 1.2 2 ... 3 ... Für jede ID, die oben, ich möchte finden Sie die top
2
Antworten
Ich habe Daten in einer Parkett-Datei, die hat 2 Felder: object_id: String und alpha: Map<>. Einlesen in einen Daten-frame in sparkSQL und das schema sieht wie folgt aus: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true)
2
Antworten
Ich versuche zu Lesen, Datensätze aus einer Kafka-Thema der Verwendung von Spark-Streaming. Dies ist mein code: object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer],
2
Antworten
Ich bin erstellen Sie ein neues DataFrame mit einer Handvoll von Datensätzen aus einer Beitreten. val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) joined_df.cache() joined_df.count() Alles ist schnell (unter einer Sekunde), außer die count-Methode.
1
Antworten
Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden
2
Antworten
Meiner Daten sieht wie folgt aus: +----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...|
1
Antworten
Vom Funken offizielle Dokument, es sagt: Spark SQL können die cache-Tabellen mit einer in-memory-Spaltenformat von Aufruf sqlContext.cacheTable("tableName") oder dataFrame.cache(). Dann Spark SQL-Scannen wird nur benötigt, Spalten und automatisch optimieren Komprimierung zum minimieren der Speichernutzung und der GC-Druck.
1
Antworten
Erstellte ich eine Parkett-Struktur aus einer csv-Datei mit spark: Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parquet"); Bin ich beim Lesen des Parkett-Struktur, und ich versuche, zum transformieren der Daten in einem dataset: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet");
1
Antworten
Ich neu in scala und ich bin versucht, führen Sie den folgenden code: val SetID = udf{(c:String, d: String) => if( c.UpperCase.contains("EXKLUS") == true) {d} else {""} } val ParquetWithID = STG1 .withColumn("ID", SetID( col("line_item"), col("line_item_ID"))) beide
3
Antworten
Ich habe gesehen, verschiedene Zündkerzen-und avro-Fragen (einschließlich Wie kann ich laden, Avro in der Funke mit dem schema an Bord der Avro Datei(en)?), aber keine der Lösungen funktioniert bei mir mit folgenden avro Datei: http://www.4shared.com/file/SxnYcdgJce/sample.html Wenn ich
1
Antworten
Sehe ich in diesem DataBricks post, es gibt Unterstützung für window-Funktionen in SparkSql, in allem, was ich versuche zu verwenden die lag() Funktion Fenster. Habe ich Zeilen von Kreditkarten-Transaktionen, und ich habe sortiert Sie, jetzt will ich
2
Antworten
So, Funke hat die Datei spark-defaults.xml festlegen, welche Einstellungen, einschließlich der Kompressions-codec wird verwendet und in welchem Stadium (RDD, Shuffle). Die meisten Einstellungen können festgelegt werden auf der Anwendungsebene. BEARBEITET: conf = SparkConf() conf.set("spark.hadoop.mapred.output.compress", "true") conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.snappy")
2
Antworten
Ich versuche dieses: df=dfFromJson: {"class":"name 1","stream":"science"} {"class":"name 1","stream":"arts"} {"class":"name 1","stream":"science"} {"class":"name 1","stream":"law"} {"class":"name 1","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} {"class":"name 2","stream":"science"} {"class":"name 2","stream":"arts"} {"class":"name 2","stream":"law"} df.groupBy("class").agg(count(col("stream")==="science") as "stream_science", count(col("stream")==="arts") as "stream_arts", count(col("stream")==="law") as "stream_law") Diese nicht
1
Antworten
Möchte ich mit Spark-Streaming-abrufen von Daten von Kafka. Nun, ich möchte meine Daten in eine remote-HDFS. Ich weiß, dass ich die Funktion saveAsText. Allerdings weiß ich nicht genau, wie man den Pfad angeben. Ist das richtig, wenn
4
Antworten
Ich bin Evaluierung der tools für die Produktion-ML-basierten Anwendungen und eine unserer Optionen ist Spark MLlib , aber ich habe einige Fragen dazu, wie Sie dienen, ein Modell einmal seine geschulten? Beispielsweise in Azure ML, einmal ausgebildet,
1
Antworten
Ich versuche zu erstellen-Funktion, die string-oder RDD als ein argument aber gibt dataframe. Code: def udf1 (input: String) = { val file = sc.textFile(input); file.map(p => Person( (p.substring(1, 15)), p.substring(16, 20))).toDF() } def main() { case class
2
Antworten
Ich versuche zu lernen Funken, indem Sie es im offline-Modus auf meinem MacBook Pro (10.9.2). Ich gedownloadet & baute es mit Hilfe der Anleitung hier: http://spark.apache.org/docs/latest/building-spark.html Ich fing dann an, bis der master-server mit der Anleitung von
4
Antworten
Nun habe ich einige Spark-Anwendungen, die für die Speicherung der Ausgabe auf HDFS. Da unsere hadoop-cluster ist aus der namenode H/A und spark-cluster außerhalb von hadoop-Clusters (ich weiß, es ist etwas schlecht) muss ich angeben HDFS-URI zur
3
Antworten
Ich bin mit Spark mit Ipython und haben eine RDD die Daten in diesem format gedruckt: print rdd1.collect() [u'2010-12-08 00:00:00', u'2010-12-18 01:20:00', u'2012-05-13 00:00:00',....] Einzelnen Daten ist eine datetimestamp und ich will zu finden, das minimum und
1
Antworten
Ich versuche zu join zwei DataFrame mit Bedingung. Habe ich zwei dataframe A und B. Enthält eine id,m_cd und c_cd Spalten B enthält m_cd,c_cd-und Datensatz-Spalten Bedingungen - Wenn m_cd null ist, dann treten Sie c_cd von A
4
Antworten
Ich weiß, wir können Fenster-Funktion in pyspark zur Berechnung der kumulativen Summe. Aber das Fenster wird nur unterstützt, in HiveContext und nicht in SQLContext. Ich SQLContext als HiveContext kann nicht ausgeführt werden in der multi-Prozesse. Gibt es
1
Antworten
Gibt es eine Möglichkeit zu laufen pyspark Skripte mit Garn-cluster-Modus ohne Verwendung der spark-submit-Skript? Ich brauche es auf diese Weise, weil ich integriere diesen code in eine django-web-app. Wenn ich versuche zum ausführen von Skripts in Garn-cluster-Modus
1
Antworten
Ich versuche, Folgen die live-Codierung in diesem Apache Spark reden Hier ist mein IPython notebook, bis zu dem Punkt, wo ich den Fehler Auftritt: also numpy installiert ist: ~ $ pip install numpy Requirement already satisfied (use
3
Antworten
Beim ausführen jeder Art von Befehl in zeppelin, ich bin immer eine "java.lang.NullPointerException" - Fehler - selbst einfache Sachen wie sc.appName. Hier ist der vollständige text: java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext_2(SparkInterpreter.java:391) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext(SparkInterpreter.java:380) at org.apache.zeppelin.spark.SparkInterpreter.getSparkContext(SparkInterpreter.java:146)
1
Antworten
meine Frage ist, wie man split eine Spalte auf mehrere Spalten. Ich weiß nicht, warum df.toPandas() funktioniert nicht. Zum Beispiel würde ich gerne ändern 'df_test' zu 'df_test2'. Ich sah viele Beispiele, die über das pandas-Modul. Gibt es
1
Antworten
Lief ich in diese Zeile in der Apache-Spark source code val (gradientSum, lossSum, miniBatchSize) = data .sample(false, miniBatchFraction, 42 + i) .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))( seqOp = (c, v) => { //c: (grad, loss, count), v: (label, features)
5
Antworten
Habe ich installiert pyspark mit python 3.6 und ich bin mit jupyter notebook zu initialisieren einer spark-Sitzung. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("test").enableHieSupport.getOrCreate() läuft ohne Fehler Aber ich Schreibe, df = spark.range(10) df.show() Wirft es mir
2
Antworten
Hallo, ich bin mit paar Funken Arbeitsplätze, die Prozesse, die Tausende von Dateien jeden Tag. Datei-Größe kann sehr von MBs an GBs. Nach Beendigung der Arbeit, die ich in der Regel sparen Sie mit dem folgenden code
4
Antworten
Arbeite ich mit PySpark dataframes hier. "test1" ist mein PySpark dataframe und event_date ist ein TimestampType. Also, wenn ich versuche mir ein distinct count von event_date, das Ergebnis ist eine integer-variable, aber wenn ich versuche max von
2
Antworten
Möchte ich die Summe verschiedener Spalten in einer spark-dataframe. Code from pyspark.sql import functions as F cols = ["A.p1","B.p1"] df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols) # 1. Works df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]])) #2. Doesnt work df
3
Antworten
Habe ich eine Reihe von Daten, auf deren Grundlage erstellen Sie ein klassifikationsmodell. Jede Zeile hat die folgende form: user1,class1,product1 user1,class1,product2 user1,class1,product5 user2,class1,product2 user2,class1,product5 user3,class2,product1 Gibt es rund 1M-Benutzer, 2 Klassen, und 1M-Produkte. Was möchte ich als
2
Antworten
Dataset<Row> dataFrame = ... ; StringIndexerModel labelIndexer = new StringIndexer() .setInputCol("label") .setOutputCol("indexedLabel") .fit(dataFrame); VectorIndexerModel featureIndexer = new VectorIndexer() .setInputCol("s") .setOutputCol("indexedFeatures") .setMaxCategories(4) .fit(dataFrame); IndexToString labelConverter = new IndexToString() .setInputCol("prediction") .setOutputCol("predictedLabel") .setLabels(labelIndexer.labels()); Was ist StringIndexer, VectorIndexer, IndexToString und was
2
Antworten
Ich bin mit spark version 1.6.3 und yarn version 2.7.1.2.3 kommt mit HDP-2.3.0.0-2557. Weil, spark version ist zu alt, das HDP-version, die ich benutze, ich benutze lieber eine andere Funke als Garn-Modus aus der Ferne. Hier ist,
1
Antworten
Habe ich cluster mit 1 master und 6 slaves verwendet pre-built version von hadoop 2.6.0 und Funken 1.6.2. Ich war laufen, hadoop MR und der Funken Arbeitsplätze, ohne irgendein problem mit openjdk 7 installiert auf allen Knoten.
1
Antworten
Ich habe Probleme beim starten Funke-shell auf meinem Windows-computer jetzt. Die version von Spark, die ich verwende, ist 1.5.2 pre-built for Hadoop 2.4 oder höher. Ich denke, spark-shell.cmd laufen konnte, direkt, ohne Konfiguration, da es fertig aufgebaut
4
Antworten
Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich
3
Antworten
Unten ist mein spark sql-Skript lädt eine Datei und verwendet den SQL oben drauf, ich will zu sammeln, die die Ausgabe der sql-Abfrage aus und schreibt Sie in eine Datei, die nicht sicher sind, wie Sie kann
1
Antworten
Ich versuche, führen Sie eine einfache Funke s3 app von einem server, aber ich bekomme immer folgende Fehlermeldung, weil der server hadoop 2.7.3 installiert und es sieht aus wie es nicht die GlobalStorageStatistics Klasse. http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/api/org/apache/hadoop/fs/GlobalStorageStatistics.html.I haben hadoop-2.8.x
3
Antworten
Ich versuche, anzeigen RDD zu pairRDD in scala, so könnte ich reduceByKey später. Hier ist was ich getan habe: userRecords ist der org.apache.spark.rdd.RDD[UserElement] Ich versuchen, erstellen Sie eine pairRDD von userRecords wie unten: val userPairs: PairRDDFunctions[String, UserElement]
2
Antworten
Ich versuche zu installieren Spark1.5.1 auf Ubuntu14.04 VM. Nach un-teert die Datei, die ich geändert habe das Verzeichnis zu dem entpackten Ordner und den Befehl ausgeführt "./bin/pyspark" das Feuer sollte die pyspark shell. Aber ich bekam eine
3
Antworten
Ich möchte preprocessing-phase auf eine große Menge von text-Daten in die Funke-Scala wie Lemmatization - Stop-Wörter Entfernen(mittels Tf-Idf) - POS-tagging , gibt es eine Möglichkeit, diese umzusetzen Spark - Scala ? zum Beispiel hier ist ein Beispiel