Tag: apache-spark-mllib
MLlib ist eine machine learning library für Apache Spark
2
Antworten
Ich bin neu auf der apache spark, und aus dem Dokument der MLlib, ich fand ein Beispiel von scala, aber ich weiß wirklich nicht, scala, ist kennt jemand ein Beispiel in java? danke! der Beispiel-code ist import
2
Antworten
Ich versuche zu laufen, eigenständige Anwendung mit scala auf der Basis von apache spark, basierend auf Beispiel hier: http://spark.apache.org/docs/latest/ml-pipeline.html Hier ist mein vollständiger code: import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg.{Vector, Vectors} import org.apache.spark.ml.param.ParamMap import org.apache.spark.sql.Row object mllibexample1 { def
4
Antworten
Ich bin Evaluierung der tools für die Produktion-ML-basierten Anwendungen und eine unserer Optionen ist Spark MLlib , aber ich habe einige Fragen dazu, wie Sie dienen, ein Modell einmal seine geschulten? Beispielsweise in Azure ML, einmal ausgebildet,
3
Antworten
Habe ich eine Reihe von Daten, auf deren Grundlage erstellen Sie ein klassifikationsmodell. Jede Zeile hat die folgende form: user1,class1,product1 user1,class1,product2 user1,class1,product5 user2,class1,product2 user2,class1,product5 user3,class2,product1 Gibt es rund 1M-Benutzer, 2 Klassen, und 1M-Produkte. Was möchte ich als
4
Antworten
Ich versuche, zu extrahieren die Klasse Wahrscheinlichkeiten der random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel von ihm überall in der Dokumentation, noch ist es eine Methode der RandomForestModel. Wie kann ich
2
Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',
1
Antworten
Ich Plane, verwenden Sie die Lineare Regression in der Funke. Um loszulegen, ich habe das Beispiel aus der offiziellen Dokumentation (die finden Sie hier) Fand ich auch diese Frage auf stackoverflow, die im wesentlichen die gleiche Frage
1
Antworten
Ich habe eine pyspark Daten-frame whih hat eine Spalte mit strings. Ich will split in dieser Spalte in Worte Code: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') >>> sentenceData.show(truncate=False) +---+---------------------------+ |key|desc | +---+---------------------------+ |1 |Virat is good
1
Antworten
Wenn ich erhöhen Sie die Modell-Größe meiner word2vec Modell ich fange an, diese Art von Ausnahme in meinen melden: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 6 at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:542) at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:538) at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
3
Antworten
Ich bin mit Cloudera Quickstart VM CDH5.3.0 (in Bezug auf Pakete bündeln) und Funke 1.2.0 mit $SPARK_HOME=/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark und Absenden Spark-Anwendung mit dem Befehl ./bin/spark-submit --class <Spark_App_Main_Class_Name> --master spark://localhost.localdomain:7077 --deploy-mode client --executor-memory 4G ../apps/<Spark_App_Target_Jar_Name>.jar Spark_App_Main_Class_Name.scala import org.apache.spark.SparkContext import
4
Antworten
Arbeite ich mit der Funke 1.3.0 mit PySpark und MLlib und ich muss das speichern und laden meine Modelle. Ich verwende code wie folgt (entnommen aus der offiziellen Dokumentation ) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data
1
Antworten
Bin ich versucht zu implementieren KMeans using Apache Spark. val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20) auf dem ich die folgende Fehlermeldung erhalten : error: overloaded method value train with
4
Antworten
, wenn ich versuche, führen Sie es auf diesen Ordner, es wirft mich ExecutorLostFailure jedesmal, wenn Hallo ich bin ein Anfänger in der Funke. Ich versuche zu laufen, einen job auf Spark 1.4.1 mit 8 slave-Knoten mit
1
Antworten
Habe ich versucht zu übernehmen PCA auf meine Daten und dann anwenden, RandomForest, um die transformierten Daten. Allerdings PCA.transform(Daten) gab mir einen DataFrame, aber ich brauche eine mllib LabeledPoints zu ernähren, meine RandomForest. Wie kann ich das
2
Antworten
Tun Sie Jungs wissen, wo finde ich Beispiele für multiclass Klassifizierung Funken. Ich verbrachte viel Zeit mit der Suche in Büchern und im web, und so weit ich weiß nur, dass es möglich ist, da die neueste
1
Antworten
Ich habe einen DataFrame in Apache Spark mit einem array von Ganzzahlen, die Quelle eine Reihe von Bildern. Ich letzten Endes tun wollen, PCA, aber ich habe nur ärger erzeugen einer matrix aus meinen arrays. Wie erstelle
1
Antworten
Ich trainierte klassifikationsmodell in Apache Spark (mit pyspark). Ich gespeichert, das Modell in ein Objekt, LogisticRegressionModel. Nun, ich möchte, um Vorhersagen auf neuen Daten. Ich möchte speichern Sie das Modell, und Lesen Sie es wieder in ein
3
Antworten
Arbeite ich an einem bestimmten binäre Klassifikation problem mit einem sehr unausgeglichen dataset, und ich Frage mich, ob jemand versucht hat, die für die Umsetzung spezifischer Techniken für den Umgang mit unausgeglichenen Datensätzen (wie SCHLUG) in der
3
Antworten
In Java, ich benutze RowFactory.create() erstellt eine Zeile: Row row = RowFactory.create(record.getLong(1), record.getInt(2), record.getString(3)); wo "record" ist ein Datensatz aus einer Datenbank, aber ich kann nicht wissen, die Länge der "record" im Voraus, also ich will eine
3
Antworten
Ich habe ein feature-set, das mit einem entsprechenden categoricalFeaturesInfo: Map[Int,Int]. Aber für das Leben von mir ich kann nicht herausfinden, wie ich bin, soll die Klasse DecisionTree zu arbeiten. Es wird nicht alles akzeptieren, aber eine LabeledPoint
6
Antworten
Bin ich basteln mit einigen cross-Validierung code aus dem PySpark Dokumentation, und zu versuchen, PySpark, um mir zu sagen, welches Modell gewählt wurde: from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning
2
Antworten
wenn ich versuche zu füttern df2 zu kmeans, bekomme ich folgenden Fehler clusters = KMeans.train(df2, 10, maxIterations=30, runs=10, initializationMode="random") Den Fehler bekomme ich: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector df2 ist ein dataframe erstellt wie folgt:
1
Antworten
Ich habe eine CSV-Datei mit dem folgenden format : product_id1,product_title1 product_id2,product_title2 product_id3,product_title3 product_id4,product_title4 product_id5,product_title5 [...] Den product_idX ist ein integer und die product_titleX ist ein String, Beispiel : 453478692, Apple iPhone 4 8Go Ich versuche zu schaffen,
1
Antworten
Was .map() Funktion in python verwende ich zum erstellen einer Reihe von labeledPoints aus einem Funken dataframe? Was ist die notation, wenn Das label/Ergebnis nicht die erste Spalte, aber ich kann finden Sie in der Spalte name,
4
Antworten
Wie gehe ich mit kategorischen Daten mit spark-ml und nicht spark-mllib ? Dachte, die Dokumentation ist nicht sehr klar, es scheint, dass Klassifikatoren, z.B. RandomForestClassifier, LogisticRegression haben eine featuresCol argument gibt den Namen der Spalte Funktionen der
1
Antworten
Ich erstellt habe, Begriff Frequenz mit HashingTF im Spark. Ich habe den Begriff Frequenzen mit tf.transform für jedes Wort. Aber die Ergebnisse zeigen in diesem format. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...] ,[termFrequencyofWord1, termFrequencyOfWord2 ....] zB: (1048576,[105,3116],[1.0,2.0]) Ich bin in der
1
Antworten
Habe ich eine Python-Klasse, die ich zum laden und verarbeiten einige Daten in der Funke. Unter den verschiedenen Dinge, die ich tun müssen, ich bin erzeugt eine Liste von dummy-Variablen abgeleitet, die aus verschiedenen Spalten in einer
3
Antworten
Bin ich den Import einer CSV-Datei (mit Funken -, csv) in eine DataFrame die leere String Werte. Bei Anwendung der OneHotEncoder werden, stürzt die Anwendung mit Fehler requirement failed: Cannot have an empty string for name.. Gibt
2
Antworten
Möchte ich libsvm-format, also machte ich dataframe, um die gewünschten format, aber ich weiß nicht, wie zu konvertieren, um libsvm-format. Das format ist wie in der Abbildung gezeigt. Ich hoffe, dass die gewünschte libsvm-Typ ist user-item:Bewertung .
1
Antworten
Hintergrund Meine ursprüngliche Frage hier war Warum DecisionTreeModel.predict im inneren map-Funktion löst eine Ausnahme? und Wie generieren Tupel von (original-Label predicted label) auf Spark mit MLlib? Wenn wir die Scala-API eine empfohlene Weg der erste Vorhersagen für
2
Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter
1
Antworten
Ich bin ganz neu maschinelles lernen, so brauche ich etwas Hilfe. Habe ich spark streaming job, die nimmt Daten über Benutzer, den Stromverbrauch in Cassandra. Ich fülle mehrere Tabellen mit Daten, von denen die wichtigste ist "hourly_data",
1
Antworten
Ich versuche zum durchführen der matrix-Multiplikation unter Verwendung von Apache Spark und Java. Habe ich 2 wesentliche Fragen: How to create RDD vertreten kann matrix in Apache Spark? Wie multiplizieren von zwei solchen RDDs? InformationsquelleAutor Jigar |
2
Antworten
Habe ich ein Daten-set, die in form von etwas verschachtelten maps, und seine Scala-Typ: Map[String, (LabelType,Map[Int, Double])] Den ersten String Schlüssel ist eine eindeutige Kennung für jede Probe, und der Wert ist ein Tupel enthält, das label
1
Antworten
Ich habe einen dataframe gi_man_df wo die Gruppe kann n: +------------------+-----------------+--------+--------------+ | group | number|rand_int| rand_double| +------------------+-----------------+--------+--------------+ | 'GI_MAN'| 7| 3| 124.2| | 'GI_MAN'| 7| 10| 121.15| | 'GI_MAN'| 7| 11| 129.0| | 'GI_MAN'| 7| 12| 125.0|
1
Antworten
Den Wert spark.yarn.executor.memoryOverhead in einem Spark-Arbeit mit GARN zugewiesen werden sollen App oder nur den max-Wert? InformationsquelleAutor liyong | 2016-12-09
2
Antworten
Ich brauche addition von zwei Matrizen, sind in zwei Dateien gespeichert. Den Inhalt latest1.txt und latest2.txt hat die nächste str: 1 2 3 4 5 6 7 8 9 Lese ich die Dateien wie folgt: scala> val
3
Antworten
Habe ich ein dataframe mit zwei Spalten, die eine davon (genannt "dist") ist ein dichtes Vektor. Wie kann ich es konvertieren zurück in eine array Spalte von zahlen. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| |3.0|[6.0]| |4.0|[8.0]|
2
Antworten
Ich über eine Liste mit Doppelt wie folgt gespeichert : JavaRDD<Double> myDoubles Möchte ich berechnen Sie den Mittelwert dieser Liste. Nach der Dokumentation, : Alle MLlib Methoden, mittels Java-freundlichen Arten, so können Sie importieren und rufen Sie
3
Antworten
Ich bin relativ neu zu entfachen und Scala. Ich bin ab den folgenden dataframe (einzelne Spalte aus einer dichten Vektor-Doppel): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vector] scala> scaledDataOnly_pruned.show(5) +--------------------+ | features| +--------------------+ |[-0.0948337274182...|
2
Antworten
Wie erstellen SparseVector dicht und Vektor-Repräsentationen wenn die DenseVector ist: denseV = np.array([0., 3., 0., 4.]) Was wird das Sparse-Vektor-Darstellung ? Für diejenigen, die Lesen den Titel des "Sparse Vector vs Dichten Vector" und waren auf der
5
Antworten
Ich versuche zu extrahieren, die Funktion Wichtigkeiten eines random forest-Objekt habe ich geschult mit PySpark. Allerdings sehe ich nicht ein Beispiel dafür irgendwo in der Dokumentation, noch ist es eine Methode, RandomForestModel. Wie kann ich die extrahieren-Funktion
2
Antworten
Ich versuche zu implementieren ist ein Dokument classifier mit Apache Spark MLlib und ich bin mit einigen Problemen, die die Daten. Mein code ist der folgende: import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types.{StringType, StructField, StructType} import org.apache.spark.ml.feature.Tokenizer import org.apache.spark.ml.feature.HashingTF
1
Antworten
Ich umbauen wollte der Funke data frame hinzufügen mit dem folgenden code: from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c in data])) model = KMeans.train(rdd, 2, maxIterations=10, runs=30, initializationMode="random") Die detaillierte
3
Antworten
Ich versuche zu laufen random forest Klassifikation mithilfe Spark ML api aber ich habe Probleme mit der Erstellung von rechts-Daten-frame input in der pipeline. Hier Beispieldaten: age,hours_per_week,education,sex,salaryRange 38,40,"hs-grad","male","A" 28,40,"bachelors","female","A" 52,45,"hs-grad","male","B" 31,50,"masters","female","B" 42,40,"bachelors","male","B" Alter und hours_per_week ganze zahlen
2
Antworten
Unter Berücksichtigung einer MySQL - products Datenbank mit 10 Millionen Produkte für ein e-commerce-website. Ich versuche zum einrichten einer Klassifikation zu kategorisieren Produkte. Ich bin mit Apache Sqoop import von Daten aus MySQL zu Hadoop. Wollte ich
5
Antworten
Ich habe einen Datensatz von (user, product, review) und füttern wollen es in mllib ist ALS Algorithmus. Muss der Algorithmus-Benutzer und-Produkte zu zahlen, während meine sind String-Benutzernamen und-String-SKUs. Gerade jetzt, ich bekomme die verschiedene Benutzer und SKUs,
2
Antworten
Möchte ich bewerten, ein random forest ausgebildet, auf einige Daten. Gibt es eine utility, die in Apache Spark, das gleiche zu tun oder habe ich zu erledigen-Kreuzvalidierung manuell? InformationsquelleAutor der Frage ashishsjsu | 2015-09-24
2
Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter