Tag: apache-spark-mllib

MLlib ist eine machine learning library für Apache Spark

wie die lineare regression der MLlib von apache spark?

Anzahl der Antworten 2 Antworten
Ich bin neu auf der apache spark, und aus dem Dokument der MLlib, ich fand ein Beispiel von scala, aber ich weiß wirklich nicht, scala, ist kennt jemand ein Beispiel in java? danke! der Beispiel-code ist import

(Funke) - Objekt {name} ist nicht Mitglied in-Paket org.apache.spark.ml

Anzahl der Antworten 2 Antworten
Ich versuche zu laufen, eigenständige Anwendung mit scala auf der Basis von apache spark, basierend auf Beispiel hier: http://spark.apache.org/docs/latest/ml-pipeline.html Hier ist mein vollständiger code: import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.ml.param.ParamMap import org.apache.spark.sql.Row object mllibexample1 { def

Wie zu dienen eine Spark MLlib Modell?

Anzahl der Antworten 4 Antworten
Ich bin Evaluierung der tools für die Produktion-ML-basierten Anwendungen und eine unserer Optionen ist Spark MLlib , aber ich habe einige Fragen dazu, wie Sie dienen, ein Modell einmal seine geschulten? Beispielsweise in Azure ML, einmal ausgebildet,

Wie zu Kodieren kategoriale Funktionen in Apache Spark

Anzahl der Antworten 3 Antworten
Habe ich eine Reihe von Daten, auf deren Grundlage erstellen Sie ein klassifikationsmodell. Jede Zeile hat die folgende form: user1,class1,product1 user1,class1,product2 user1,class1,product5 user2,class1,product2 user2,class1,product5 user3,class2,product1 Gibt es rund 1M-Benutzer, 2 Klassen, und 1M-Produkte. Was möchte ich als

PySpark & MLLib: Klasse Wahrscheinlichkeiten von Random Forest Vorhersagen

Anzahl der Antworten 4 Antworten
Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich

gelten OneHotEncoder für mehrere kategorische Spalten in SparkMlib

Anzahl der Antworten 2 Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',

pyspark Lineare Regression Beispiel aus der offiziellen Dokumentation - Schlechte Ergebnisse?

Anzahl der Antworten 1 Antworten
Ich Plane, verwenden Sie die Lineare Regression in der Funke. Um loszulegen, ich habe das Beispiel aus der offiziellen Dokumentation (die finden Sie hier) Fand ich auch diese Frage auf stackoverflow, die im wesentlichen die gleiche Frage

Geteilte Inhalte von String-Spalte in PySpark Dataframe

Anzahl der Antworten 1 Antworten
Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good

Wie zu beheben "MetadataFetchFailedException: Fehlt eine Ausgabe Speicherort für shuffle"?

Anzahl der Antworten 1 Antworten
Wenn ich erhöhen Sie die Modell-Größe meiner word2vec Modell ich fange an, diese Art von Ausnahme in meinen melden: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 6 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:542) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:538) at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)

java.io.IOException: Nein Dateisystem für die Regelung : hdfs

Anzahl der Antworten 3 Antworten
Ich bin mit Cloudera Quickstart VM CDH5.3.0 (in Bezug auf Pakete bündeln) und Funke 1.2.0 mit $SPARK_HOME=/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark und Absenden Spark-Anwendung mit dem Befehl ./bin/spark-submit --class <Spark_App_Main_Class_Name> --master spark://localhost.localdomain:7077 --deploy-mode client --executor-memory 4G ../apps/<Spark_App_Target_Jar_Name>.jar Spark_App_Main_Class_Name.scala import org.apache.spark.SparkContext import

Was ist der richtige Weg, um zu speichern\laden von Modellen in Spark\PySpark

Anzahl der Antworten 4 Antworten
Arbeite ich mit der Funke 1.3.0 mit PySpark und MLlib und ich muss das speichern und laden meine Modelle. Ich verwende code wie folgt (entnommen aus der offiziellen Dokumentation ) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data

Wie konvertiert org.apache.spark.rdd.RDD[Array[Double]] zu Array[Double], die erforderlich ist von Spark MLlib

Anzahl der Antworten 1 Antworten
Bin ich versucht zu implementieren KMeans using Apache Spark. val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20) auf dem ich die folgende Fehlermeldung erhalten : error: overloaded method value train with

Fehler ExecutorLostFailure beim ausführen einer Aufgabe in der Funke

Anzahl der Antworten 4 Antworten
, wenn ich versuche, führen Sie es auf diesen Ordner, es wirft mich ExecutorLostFailure jedesmal, wenn Hallo ich bin ein Anfänger in der Funke. Ich versuche zu laufen, einen job auf Spark 1.4.1 mit 8 slave-Knoten mit

Wie konvertieren von spark DataFrame zu RDD mllib LabeledPoints?

Anzahl der Antworten 1 Antworten
Habe ich versucht zu übernehmen PCA auf meine Daten und dann anwenden, RandomForest, um die transformierten Daten. Allerdings PCA.transform(Daten) gab mir einen DataFrame, aber ich brauche eine mllib LabeledPoints zu ernähren, meine RandomForest. Wie kann ich das

Spark Multiclass Klassifizierung Beispiel

Anzahl der Antworten 2 Antworten
Tun Sie Jungs wissen, wo finde ich Beispiele für multiclass Klassifizierung Funken. Ich verbrachte viel Zeit mit der Suche in Büchern und im web, und so weit ich weiß nur, dass es möglich ist, da die neueste

Apache Spark: Wie erstellen Sie eine matrix aus einem DataFrame?

Anzahl der Antworten 1 Antworten
Ich habe einen DataFrame in Apache Spark mit einem array von Ganzzahlen, die Quelle eine Reihe von Bildern. Ich letzten Endes tun wollen, PCA, aber ich habe nur ärger erzeugen einer matrix aus meinen arrays. Wie erstelle

Wie das speichern und laden von MLLib Modell in Apache Spark?

Anzahl der Antworten 1 Antworten
Ich trainierte klassifikationsmodell in Apache Spark (mit pyspark). Ich gespeichert, das Modell in ein Objekt, LogisticRegressionModel. Nun, ich möchte, um Vorhersagen auf neuen Daten. Ich möchte speichern Sie das Modell, und Lesen Sie es wieder in ein

Umgang mit unausgeglichenen Datensätzen in Spark MLlib

Anzahl der Antworten 3 Antworten
Arbeite ich an einem bestimmten binäre Klassifikation problem mit einem sehr unausgeglichen dataset, und ich Frage mich, ob jemand versucht hat, die für die Umsetzung spezifischer Techniken für den Umgang mit unausgeglichenen Datensätzen (wie SCHLUG) in der

So erstellen Sie eine Zeile von einer Liste oder Array in Spark mit java

Anzahl der Antworten 3 Antworten
In Java, ich benutze RowFactory.create() erstellt eine Zeile: Row row = RowFactory.create(record.getLong(1), record.getInt(2), record.getString(3)); wo "record" ist ein Datensatz aus einer Datenbank, aber ich kann nicht wissen, die Länge der "record" im Voraus, also ich will eine

Wie führe ich die Funke Entscheidungsbaum mit einer kategorischen feature-set mit Scala?

Anzahl der Antworten 3 Antworten
Ich habe ein feature-set, das mit einem entsprechenden categoricalFeaturesInfo: Map[Int,Int]. Aber für das Leben von mir ich kann nicht herausfinden, wie ich bin, soll die Klasse DecisionTree zu arbeiten. Es wird nicht alles akzeptieren, aber eine LabeledPoint

Wie zu extrahieren Modell hyper-Parameter von spark.ml in PySpark?

Anzahl der Antworten 6 Antworten
Bin ich basteln mit einigen cross-Validierung code aus dem PySpark Dokumentation, und zu versuchen, PySpark, um mir zu sagen, welches Modell gewählt wurde: from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning

Wie konvertieren von Typ Zeile in den Vektor zu füttern, um die KMeans

Anzahl der Antworten 2 Antworten
wenn ich versuche zu füttern df2 zu kmeans, bekomme ich folgenden Fehler clusters = KMeans.train(df2, 10, maxIterations=30, runs=10, initializationMode="random") Den Fehler bekomme ich: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector df2 ist ein dataframe erstellt wie folgt:

Wie kann ich einen TF-IDF für die Text-Klassifizierung mit den Funken?

Anzahl der Antworten 1 Antworten
Ich habe eine CSV-Datei mit dem folgenden format : product_id1,product_title1 product_id2,product_title2 product_id3,product_title3 product_id4,product_title4 product_id5,product_title5 [...] Den product_idX ist ein integer und die product_titleX ist ein String, Beispiel : 453478692, Apple iPhone 4 8Go Ich versuche zu schaffen,

Erstellen labeledPoints von Spark DataFrame in Python

Anzahl der Antworten 1 Antworten
Was .map() Funktion in python verwende ich zum erstellen einer Reihe von labeledPoints aus einem Funken dataframe? Was ist die notation, wenn Das label/Ergebnis nicht die erste Spalte, aber ich kann finden Sie in der Spalte name,

Wie behandeln kategorische Merkmale mit spark-ml?

Anzahl der Antworten 4 Antworten
Wie gehe ich mit kategorischen Daten mit spark-ml und nicht spark-mllib ? Dachte, die Dokumentation ist nicht sehr klar, es scheint, dass Klassifikatoren, z.B. RandomForestClassifier, LogisticRegression haben eine featuresCol argument gibt den Namen der Spalte Funktionen der

Wie man word-details von TF-Vektor-RDD in Spark ML Lib?

Anzahl der Antworten 1 Antworten
Ich erstellt habe, Begriff Frequenz mit HashingTF im Spark. Ich habe den Begriff Frequenzen mit tf.transform für jedes Wort. Aber die Ergebnisse zeigen in diesem format. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...] ,[termFrequencyofWord1, termFrequencyOfWord2 ....] zB: (1048576,[105,3116],[1.0,2.0]) Ich bin in der

Codieren und montieren die mehrere Funktionen in PySpark

Anzahl der Antworten 1 Antworten
Habe ich eine Python-Klasse, die ich zum laden und verarbeiten einige Daten in der Funke. Unter den verschiedenen Dinge, die ich tun müssen, ich bin erzeugt eine Liste von dummy-Variablen abgeleitet, die aus verschiedenen Spalten in einer

Spark DataFrame übergabe leerer String in OneHotEncoder

Anzahl der Antworten 3 Antworten
Bin ich den Import einer CSV-Datei (mit Funken -, csv) in eine DataFrame die leere String Werte. Bei Anwendung der OneHotEncoder werden, stürzt die Anwendung mit Fehler requirement failed: Cannot have an empty string for name.. Gibt

So bereiten Sie Daten in einem LibSVM-format von DataFrame?

Anzahl der Antworten 2 Antworten
Möchte ich libsvm-format, also machte ich dataframe, um die gewünschten format, aber ich weiß nicht, wie zu konvertieren, um libsvm-format. Das format ist wie in der Abbildung gezeigt. Ich hoffe, dass die gewünschte libsvm-Typ ist user-item:Bewertung .

Aufruf von Java - /Scala-Funktion aus Aufgabe

Anzahl der Antworten 1 Antworten
Hintergrund Meine ursprüngliche Frage hier war Warum DecisionTreeModel.predict im inneren map-Funktion löst eine Ausnahme? und Wie generieren Tupel von (original-Label predicted label) auf Spark mit MLlib? Wenn wir die Scala-API eine empfohlene Weg der erste Vorhersagen für

Speichern ML Modell für die zukünftige Verwendung

Anzahl der Antworten 2 Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter

Time series forecasting in Funke & Funke-Streaming

Anzahl der Antworten 1 Antworten
Ich bin ganz neu maschinelles lernen, so brauche ich etwas Hilfe. Habe ich spark streaming job, die nimmt Daten über Benutzer, den Stromverbrauch in Cassandra. Ich fülle mehrere Tabellen mit Daten, von denen die wichtigste ist "hourly_data",

Matrix-Multiplikation in Apache Spark

Anzahl der Antworten 1 Antworten
Ich versuche zum durchführen der matrix-Multiplikation unter Verwendung von Apache Spark und Java. Habe ich 2 wesentliche Fragen: How to create RDD vertreten kann matrix in Apache Spark? Wie multiplizieren von zwei solchen RDDs? InformationsquelleAutor Jigar |

So konvertieren Sie eine Karte zu Spark ' s RDD

Anzahl der Antworten 2 Antworten
Habe ich ein Daten-set, die in form von etwas verschachtelten maps, und seine Scala-Typ: Map[String, (LabelType,Map[Int, Double])] Den ersten String Schlüssel ist eine eindeutige Kennung für jede Probe, und der Wert ist ein Tupel enthält, das label

extrahieren von numpy-array aus Pyspark Dataframe

Anzahl der Antworten 1 Antworten
Ich habe einen dataframe gi_man_df wo die Gruppe kann n: +------------------+-----------------+--------+--------------+ | group | number|rand_int| rand_double| +------------------+-----------------+--------+--------------+ | 'GI_MAN'| 7| 3| 124.2| | 'GI_MAN'| 7| 10| 121.15| | 'GI_MAN'| 7| 11| 129.0| | 'GI_MAN'| 7| 12| 125.0|

Der Wert von “Funken.Garn.executor.memoryOverhead" - Einstellung?

Anzahl der Antworten 1 Antworten
Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09

Neben zwei RDD[mllib.linalg.Vektor -]'s

Anzahl der Antworten 2 Antworten
Ich brauche addition von zwei Matrizen, sind in zwei Dateien gespeichert. Den Inhalt latest1.txt und latest2.txt hat die nächste str: 1 2 3 4 5 6 7 8 9 Lese ich die Dateien wie folgt: scala> val

Konvertieren eines vector-Spalte in ein dataframe zurück in ein array, Spalte

Anzahl der Antworten 3 Antworten
Habe ich ein dataframe mit zwei Spalten, die eine davon (genannt "dist") ist ein dichtes Vektor. Wie kann ich es konvertieren zurück in eine array Spalte von zahlen. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| |3.0|[6.0]| |4.0|[8.0]|

Wie berechnen Sie den Mittelwert mit Apache spark?

Anzahl der Antworten 2 Antworten
Ich über eine Liste mit Doppelt wie folgt gespeichert : JavaRDD<Double> myDoubles Möchte ich berechnen Sie den Mittelwert dieser Liste. Nach der Dokumentation, : Alle MLlib Methoden, mittels Java-freundlichen Arten, so können Sie importieren und rufen Sie

Konvertieren von RDD[org.apache.spark.sql.Zeile] RDD[org.apache.spark.mllib.linalg.Vektor]

Anzahl der Antworten 3 Antworten
Ich bin relativ neu zu entfachen und Scala. Ich bin ab den folgenden dataframe (einzelne Spalte aus einer dichten Vektor-Doppel): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vector] scala> scaledDataOnly_pruned.show(5) +--------------------+ | features| +--------------------+ |[-0.0948337274182...|

Sparse-Vektor vs Dichten Vektor

Anzahl der Antworten 2 Antworten
Wie erstellen SparseVector dicht und Vektor-Repräsentationen wenn die DenseVector ist: denseV = np.array([0., 3., 0., 4.]) Was wird das Sparse-Vektor-Darstellung ? Für diejenigen, die Lesen den Titel des "Sparse Vector vs Dichten Vector" und waren auf der

PySpark & MLLib: Random Forest-Funktion Wichtigkeiten

Anzahl der Antworten 5 Antworten
Ich versuche zu extrahieren, die Funktion Wichtigkeiten eines random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel dafür irgendwo in der Dokumentation, noch ist es eine Methode, RandomForestModel. Wie kann ich die extrahieren-Funktion

Von DataFrame zu RDD[LabeledPoint]

Anzahl der Antworten 2 Antworten
Ich versuche zu implementieren ist ein Dokument classifier mit Apache Spark MLlib und ich bin mit einigen Problemen, die die Daten. Mein code ist der folgende: import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types.{StringType, StructField, StructType} import org.apache.spark.ml.feature.Tokenizer import org.apache.spark.ml.feature.HashingTF

AttributeError: 'DataFrame' - Objekt hat kein Attribut 'anzeigen'

Anzahl der Antworten 1 Antworten
Ich umbauen wollte der Funke data frame hinzufügen mit dem folgenden code: from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c in data])) model = KMeans.train(rdd, 2, maxIterations=10, runs=30, initializationMode="random") Die detaillierte

Wie erstellt man einen korrekten Datenrahmen für die Klassifizierung in Spark ML?

Anzahl der Antworten 3 Antworten
Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen

Was ist der Unterschied zwischen Apache Mahout und MLlib von Apache Spark?

Anzahl der Antworten 2 Antworten
Unter Berücksichtigung einer MySQL - products Datenbank mit 10 Millionen Produkte für ein e-commerce-website. Ich versuche zum einrichten einer Klassifikation zu kategorisieren Produkte. Ich bin mit Apache Sqoop import von Daten aus MySQL zu Hadoop. Wollte ich

Zuweisen eindeutiger zusammenhängender Zahlen zu Elementen in einer Spark-RDD

Anzahl der Antworten 5 Antworten
Ich habe einen Datensatz von (user, product, review) und füttern wollen es in mllib ist ALS Algorithmus. Muss der Algorithmus-Benutzer und-Produkte zu zahlen, während meine sind String-Benutzernamen und-String-SKUs. Gerade jetzt, ich bekomme die verschiedene Benutzer und SKUs,

Wie kann man das RandomForest Modell validieren?

Anzahl der Antworten 2 Antworten
Möchte ich bewerten, ein random forest ausgebildet, auf einige Daten. Gibt es eine utility, die in Apache Spark, das gleiche zu tun oder habe ich zu erledigen-Kreuzvalidierung manuell? InformationsquelleAutor der Frage ashishsjsu | 2015-09-24

Speichern Sie das ML-Modell für die zukünftige Verwendung

Anzahl der Antworten 2 Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter