Tag: apache-spark-mllib

MLlib ist eine machine learning library für Apache Spark

wie die lineare regression der MLlib von apache spark?

2 Antworten

Ich bin neu auf der apache spark, und aus dem Dokument der MLlib, ich fand ein Beispiel von scala, aber ich weiß wirklich nicht, scala, ist kennt jemand ein Beispiel in java? danke! der Beispiel-code ist import

(Funke) - Objekt {name} ist nicht Mitglied in-Paket org.apache.spark.ml

2 Antworten

Ich versuche zu laufen, eigenständige Anwendung mit scala auf der Basis von apache spark, basierend auf Beispiel hier: http://spark.apache.org/docs/latest/ml-pipeline.html Hier ist mein vollständiger code: import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.ml.param.ParamMap import org.apache.spark.sql.Row object mllibexample1 { def

apache-spark apache-spark-mllib sbt scala

Wie zu dienen eine Spark MLlib Modell?

4 Antworten

Ich bin Evaluierung der tools für die Produktion-ML-basierten Anwendungen und eine unserer Optionen ist Spark MLlib , aber ich habe einige Fragen dazu, wie Sie dienen, ein Modell einmal seine geschulten? Beispielsweise in Azure ML, einmal ausgebildet,

apache-spark apache-spark-mllib machine-learning

Wie zu Kodieren kategoriale Funktionen in Apache Spark

3 Antworten

Habe ich eine Reihe von Daten, auf deren Grundlage erstellen Sie ein klassifikationsmodell. Jede Zeile hat die folgende form: user1,class1,product1 user1,class1,product2 user1,class1,product5 user2,class1,product2 user2,class1,product5 user3,class2,product1 Gibt es rund 1M-Benutzer, 2 Klassen, und 1M-Produkte. Was möchte ich als

apache-spark apache-spark-1.2 apache-spark-mllib scala

PySpark & MLLib: Klasse Wahrscheinlichkeiten von Random Forest Vorhersagen

4 Antworten

Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich

apache-spark apache-spark-mllib pyspark random-forest

gelten OneHotEncoder für mehrere kategorische Spalten in SparkMlib

2 Antworten

Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',

apache-spark apache-spark-ml apache-spark-mllib pyspark python

pyspark Lineare Regression Beispiel aus der offiziellen Dokumentation - Schlechte Ergebnisse?

1 Antworten

Ich Plane, verwenden Sie die Lineare Regression in der Funke. Um loszulegen, ich habe das Beispiel aus der offiziellen Dokumentation (die finden Sie hier) Fand ich auch diese Frage auf stackoverflow, die im wesentlichen die gleiche Frage

apache-spark apache-spark-mllib linear-regression pyspark python

Geteilte Inhalte von String-Spalte in PySpark Dataframe

1 Antworten

Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good

apache-spark apache-spark-mllib pyspark spark-dataframe

Wie zu beheben "MetadataFetchFailedException: Fehlt eine Ausgabe Speicherort für shuffle"?

1 Antworten

Wenn ich erhöhen Sie die Modell-Größe meiner word2vec Modell ich fange an, diese Art von Ausnahme in meinen melden: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 6 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:542) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:538) at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)

apache-spark apache-spark-mllib scala word2vec

java.io.IOException: Nein Dateisystem für die Regelung : hdfs

3 Antworten

Ich bin mit Cloudera Quickstart VM CDH5.3.0 (in Bezug auf Pakete bündeln) und Funke 1.2.0 mit $SPARK_HOME=/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark und Absenden Spark-Anwendung mit dem Befehl ./bin/spark-submit --class <Spark_App_Main_Class_Name> --master spark://localhost.localdomain:7077 --deploy-mode client --executor-memory 4G ../apps/<Spark_App_Target_Jar_Name>.jar Spark_App_Main_Class_Name.scala import org.apache.spark.SparkContext import

apache-spark apache-spark-mllib hadoop hdfs scala

Was ist der richtige Weg, um zu speichern\laden von Modellen in Spark\PySpark

4 Antworten

Arbeite ich mit der Funke 1.3.0 mit PySpark und MLlib und ich muss das speichern und laden meine Modelle. Ich verwende code wie folgt (entnommen aus der offiziellen Dokumentation ) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data

apache-spark apache-spark-mllib pyspark python

Wie konvertiert org.apache.spark.rdd.RDD[Array[Double]] zu Array[Double], die erforderlich ist von Spark MLlib

1 Antworten

Bin ich versucht zu implementieren KMeans using Apache Spark. val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20) auf dem ich die folgende Fehlermeldung erhalten : error: overloaded method value train with

apache-spark apache-spark-mllib

Fehler ExecutorLostFailure beim ausführen einer Aufgabe in der Funke

4 Antworten

, wenn ich versuche, führen Sie es auf diesen Ordner, es wirft mich ExecutorLostFailure jedesmal, wenn Hallo ich bin ein Anfänger in der Funke. Ich versuche zu laufen, einen job auf Spark 1.4.1 mit 8 slave-Knoten mit

apache-spark apache-spark-mllib collect pyspark

Wie konvertieren von spark DataFrame zu RDD mllib LabeledPoints?

1 Antworten

Habe ich versucht zu übernehmen PCA auf meine Daten und dann anwenden, RandomForest, um die transformierten Daten. Allerdings PCA.transform(Daten) gab mir einen DataFrame, aber ich brauche eine mllib LabeledPoints zu ernähren, meine RandomForest. Wie kann ich das

apache-spark apache-spark-mllib pca rdd scala

Spark Multiclass Klassifizierung Beispiel

2 Antworten

Tun Sie Jungs wissen, wo finde ich Beispiele für multiclass Klassifizierung Funken. Ich verbrachte viel Zeit mit der Suche in Büchern und im web, und so weit ich weiß nur, dass es möglich ist, da die neueste

apache-spark apache-spark-ml apache-spark-mllib random-forest scala

Apache Spark: Wie erstellen Sie eine matrix aus einem DataFrame?

1 Antworten

Ich habe einen DataFrame in Apache Spark mit einem array von Ganzzahlen, die Quelle eine Reihe von Bildern. Ich letzten Endes tun wollen, PCA, aber ich habe nur ärger erzeugen einer matrix aus meinen arrays. Wie erstelle

apache-spark apache-spark-mllib matrix pyspark python

Wie das speichern und laden von MLLib Modell in Apache Spark?

1 Antworten

Ich trainierte klassifikationsmodell in Apache Spark (mit pyspark). Ich gespeichert, das Modell in ein Objekt, LogisticRegressionModel. Nun, ich möchte, um Vorhersagen auf neuen Daten. Ich möchte speichern Sie das Modell, und Lesen Sie es wieder in ein

apache-spark apache-spark-mllib pyspark python

Umgang mit unausgeglichenen Datensätzen in Spark MLlib

3 Antworten

Arbeite ich an einem bestimmten binäre Klassifikation problem mit einem sehr unausgeglichen dataset, und ich Frage mich, ob jemand versucht hat, die für die Umsetzung spezifischer Techniken für den Umgang mit unausgeglichenen Datensätzen (wie SCHLUG) in der

apache-spark apache-spark-mllib classification machine-learning

So erstellen Sie eine Zeile von einer Liste oder Array in Spark mit java

3 Antworten

In Java, ich benutze RowFactory.create() erstellt eine Zeile: Row row = RowFactory.create(record.getLong(1), record.getInt(2), record.getString(3)); wo "record" ist ein Datensatz aus einer Datenbank, aber ich kann nicht wissen, die Länge der "record" im Voraus, also ich will eine

apache-spark apache-spark-mllib java

Wie führe ich die Funke Entscheidungsbaum mit einer kategorischen feature-set mit Scala?

3 Antworten

Ich habe ein feature-set, das mit einem entsprechenden categoricalFeaturesInfo: Map[Int,Int]. Aber für das Leben von mir ich kann nicht herausfinden, wie ich bin, soll die Klasse DecisionTree zu arbeiten. Es wird nicht alles akzeptieren, aber eine LabeledPoint

apache-spark apache-spark-mllib categorical-data scala tree

Wie zu extrahieren Modell hyper-Parameter von spark.ml in PySpark?

6 Antworten

Bin ich basteln mit einigen cross-Validierung code aus dem PySpark Dokumentation, und zu versuchen, PySpark, um mir zu sagen, welches Modell gewählt wurde: from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning

apache-spark-ml apache-spark-mllib cross-validation modeling pyspark

Wie konvertieren von Typ Zeile in den Vektor zu füttern, um die KMeans

2 Antworten

wenn ich versuche zu füttern df2 zu kmeans, bekomme ich folgenden Fehler clusters = KMeans.train(df2, 10, maxIterations=30, runs=10, initializationMode="random") Den Fehler bekomme ich: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector df2 ist ein dataframe erstellt wie folgt:

apache-spark apache-spark-mllib k-means pyspark pyspark-sql

Wie kann ich einen TF-IDF für die Text-Klassifizierung mit den Funken?

1 Antworten

Ich habe eine CSV-Datei mit dem folgenden format : product_id1,product_title1 product_id2,product_title2 product_id3,product_title3 product_id4,product_title4 product_id5,product_title5 [...] Den product_idX ist ein integer und die product_titleX ist ein String, Beispiel : 453478692, Apple iPhone 4 8Go Ich versuche zu schaffen,

apache-spark apache-spark-mllib scala tf-idf

Erstellen labeledPoints von Spark DataFrame in Python

1 Antworten

Was .map() Funktion in python verwende ich zum erstellen einer Reihe von labeledPoints aus einem Funken dataframe? Was ist die notation, wenn Das label/Ergebnis nicht die erste Spalte, aber ich kann finden Sie in der Spalte name,

apache-spark apache-spark-ml apache-spark-mllib pandas python

Wie behandeln kategorische Merkmale mit spark-ml?

4 Antworten

Wie gehe ich mit kategorischen Daten mit spark-ml und nicht spark-mllib ? Dachte, die Dokumentation ist nicht sehr klar, es scheint, dass Klassifikatoren, z.B. RandomForestClassifier, LogisticRegression haben eine featuresCol argument gibt den Namen der Spalte Funktionen der

apache-spark apache-spark-ml apache-spark-mllib categorical-data

Wie man word-details von TF-Vektor-RDD in Spark ML Lib?

1 Antworten

Ich erstellt habe, Begriff Frequenz mit HashingTF im Spark. Ich habe den Begriff Frequenzen mit tf.transform für jedes Wort. Aber die Ergebnisse zeigen in diesem format. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...] ,[termFrequencyofWord1, termFrequencyOfWord2 ....] zB: (1048576,[105,3116],[1.0,2.0]) Ich bin in der

apache-spark apache-spark-ml apache-spark-mllib tf-idf

Codieren und montieren die mehrere Funktionen in PySpark

1 Antworten

Habe ich eine Python-Klasse, die ich zum laden und verarbeiten einige Daten in der Funke. Unter den verschiedenen Dinge, die ich tun müssen, ich bin erzeugt eine Liste von dummy-Variablen abgeleitet, die aus verschiedenen Spalten in einer

apache-spark apache-spark-ml apache-spark-mllib apache-spark-sql python

Spark DataFrame übergabe leerer String in OneHotEncoder

3 Antworten

Bin ich den Import einer CSV-Datei (mit Funken -, csv) in eine DataFrame die leere String Werte. Bei Anwendung der OneHotEncoder werden, stürzt die Anwendung mit Fehler requirement failed: Cannot have an empty string for name.. Gibt

apache-spark apache-spark-ml apache-spark-mllib scala spark-csv

So bereiten Sie Daten in einem LibSVM-format von DataFrame?

2 Antworten

Möchte ich libsvm-format, also machte ich dataframe, um die gewünschten format, aber ich weiß nicht, wie zu konvertieren, um libsvm-format. Das format ist wie in der Abbildung gezeigt. Ich hoffe, dass die gewünschte libsvm-Typ ist user-item:Bewertung .

apache-spark apache-spark-ml apache-spark-mllib apache-spark-sql libsvm

Aufruf von Java - /Scala-Funktion aus Aufgabe

1 Antworten

Hintergrund Meine ursprüngliche Frage hier war Warum DecisionTreeModel.predict im inneren map-Funktion löst eine Ausnahme? und Wie generieren Tupel von (original-Label predicted label) auf Spark mit MLlib? Wenn wir die Scala-API eine empfohlene Weg der erste Vorhersagen für

apache-spark apache-spark-mllib pyspark python scala

Speichern ML Modell für die zukünftige Verwendung

2 Antworten

Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter

apache-spark apache-spark-ml apache-spark-mllib pyspark

Time series forecasting in Funke & Funke-Streaming

1 Antworten

Ich bin ganz neu maschinelles lernen, so brauche ich etwas Hilfe. Habe ich spark streaming job, die nimmt Daten über Benutzer, den Stromverbrauch in Cassandra. Ich fülle mehrere Tabellen mit Daten, von denen die wichtigste ist "hourly_data",

apache-spark apache-spark-ml apache-spark-mllib machine-learning regression

Matrix-Multiplikation in Apache Spark

1 Antworten

Ich versuche zum durchführen der matrix-Multiplikation unter Verwendung von Apache Spark und Java. Habe ich 2 wesentliche Fragen: How to create RDD vertreten kann matrix in Apache Spark? Wie multiplizieren von zwei solchen RDDs? InformationsquelleAutor Jigar |

apache-spark apache-spark-mllib java rdd scala

So konvertieren Sie eine Karte zu Spark ' s RDD

2 Antworten

Habe ich ein Daten-set, die in form von etwas verschachtelten maps, und seine Scala-Typ: Map[String, (LabelType,Map[Int, Double])] Den ersten String Schlüssel ist eine eindeutige Kennung für jede Probe, und der Wert ist ein Tupel enthält, das label

apache-spark apache-spark-mllib libsvm scala

extrahieren von numpy-array aus Pyspark Dataframe

1 Antworten

Ich habe einen dataframe gi_man_df wo die Gruppe kann n: +------------------+-----------------+--------+--------------+ | group | number|rand_int| rand_double| +------------------+-----------------+--------+--------------+ | 'GI_MAN'| 7| 3| 124.2| | 'GI_MAN'| 7| 10| 121.15| | 'GI_MAN'| 7| 11| 129.0| | 'GI_MAN'| 7| 12| 125.0|

apache-spark apache-spark-mllib numpy pyspark spark-dataframe

Der Wert von “Funken.Garn.executor.memoryOverhead" - Einstellung?

1 Antworten

Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09

apache-spark apache-spark-mllib apache-spark-sql spark-streaming

Neben zwei RDD[mllib.linalg.Vektor -]'s

2 Antworten

Ich brauche addition von zwei Matrizen, sind in zwei Dateien gespeichert. Den Inhalt latest1.txt und latest2.txt hat die nächste str: 1 2 3 4 5 6 7 8 9 Lese ich die Dateien wie folgt: scala> val

apache-spark apache-spark-mllib scala

Konvertieren eines vector-Spalte in ein dataframe zurück in ein array, Spalte

3 Antworten

Habe ich ein dataframe mit zwei Spalten, die eine davon (genannt "dist") ist ein dichtes Vektor. Wie kann ich es konvertieren zurück in eine array Spalte von zahlen. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| |3.0|[6.0]| |4.0|[8.0]|

apache-spark apache-spark-mllib

Wie berechnen Sie den Mittelwert mit Apache spark?

2 Antworten

Ich über eine Liste mit Doppelt wie folgt gespeichert : JavaRDD<Double> myDoubles Möchte ich berechnen Sie den Mittelwert dieser Liste. Nach der Dokumentation, : Alle MLlib Methoden, mittels Java-freundlichen Arten, so können Sie importieren und rufen Sie

apache-spark apache-spark-mllib java scala

Konvertieren von RDD[org.apache.spark.sql.Zeile] RDD[org.apache.spark.mllib.linalg.Vektor]

3 Antworten

Ich bin relativ neu zu entfachen und Scala. Ich bin ab den folgenden dataframe (einzelne Spalte aus einer dichten Vektor-Doppel): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vector] scala> scaledDataOnly_pruned.show(5) +--------------------+ | features| +--------------------+ |[-0.0948337274182...|

apache-spark apache-spark-mllib rdd scala spark-dataframe

Sparse-Vektor vs Dichten Vektor

2 Antworten

Wie erstellen SparseVector dicht und Vektor-Repräsentationen wenn die DenseVector ist: denseV = np.array([0., 3., 0., 4.]) Was wird das Sparse-Vektor-Darstellung ? Für diejenigen, die Lesen den Titel des "Sparse Vector vs Dichten Vector" und waren auf der

apache-spark apache-spark-mllib

PySpark & MLLib: Random Forest-Funktion Wichtigkeiten

5 Antworten

Ich versuche zu extrahieren, die Funktion Wichtigkeiten eines random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel dafür irgendwo in der Dokumentation, noch ist es eine Methode, RandomForestModel. Wie kann ich die extrahieren-Funktion

apache-spark apache-spark-mllib pyspark random-forest

Von DataFrame zu RDD[LabeledPoint]

2 Antworten

Ich versuche zu implementieren ist ein Dokument classifier mit Apache Spark MLlib und ich bin mit einigen Problemen, die die Daten. Mein code ist der folgende: import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types.{StringType, StructField, StructType} import org.apache.spark.ml.feature.Tokenizer import org.apache.spark.ml.feature.HashingTF

apache-spark apache-spark-mllib scala

AttributeError: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

1 Antworten

Ich umbauen wollte der Funke data frame hinzufügen mit dem folgenden code: from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c in data])) model = KMeans.train(rdd, 2, maxIterations=10, runs=30, initializationMode="random") Die detaillierte

apache-spark apache-spark-mllib pyspark python spark-dataframe

Wie erstellt man einen korrekten Datenrahmen für die Klassifizierung in Spark ML?

3 Antworten

Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen

apache-spark apache-spark-mllib apache-spark-sql scala

Was ist der Unterschied zwischen Apache Mahout und MLlib von Apache Spark?

2 Antworten

Unter Berücksichtigung einer MySQL - products Datenbank mit 10 Millionen Produkte für ein e-commerce-website. Ich versuche zum einrichten einer Klassifikation zu kategorisieren Produkte. Ich bin mit Apache Sqoop import von Daten aus MySQL zu Hadoop. Wollte ich

apache-spark apache-spark-mllib mahout

Zuweisen eindeutiger zusammenhängender Zahlen zu Elementen in einer Spark-RDD

5 Antworten

Ich habe einen Datensatz von (user, product, review) und füttern wollen es in mllib ist ALS Algorithmus. Muss der Algorithmus-Benutzer und-Produkte zu zahlen, während meine sind String-Benutzernamen und-String-SKUs. Gerade jetzt, ich bekomme die verschiedene Benutzer und SKUs,

apache-spark apache-spark-mllib

Wie kann man das RandomForest Modell validieren?

2 Antworten

Möchte ich bewerten, ein random forest ausgebildet, auf einige Daten. Gibt es eine utility, die in Apache Spark, das gleiche zu tun oder habe ich zu erledigen-Kreuzvalidierung manuell? InformationsquelleAutor der Frage ashishsjsu | 2015-09-24

apache-spark apache-spark-ml apache-spark-mllib cross-validation random-forest

Speichern Sie das ML-Modell für die zukünftige Verwendung

2 Antworten

Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter

apache-spark apache-spark-ml apache-spark-mllib pyspark