Tag: apache-spark-ml
Spark ML ist ein high-level-API für das erstellen von machine-learning-pipelines in Apache Spark.
3
Antworten
Ich versuche, führen Sie eine lineare regression in PySpark und ich möchte erstellen Sie eine Tabelle mit Zusammenfassung der Statistiken, wie die Koeffizienten, P-Werte und t-Werte für jede Spalte in meinem Datensatz. Jedoch, um zu trainieren Sie
1
Antworten
Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden
1
Antworten
Ich versuche, ein Modell zu bauen in Spark ML, mit Zeppelin. Ich bin neu auf diesem Gebiet und möchte einige helfen. Ich denke, dass ich noch die richtigen Datentypen der Spalte an und bestimmen Sie die erste
2
Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',
1
Antworten
Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die
2
Antworten
Habe ich ein bizarres Problem mit PySpark, wenn die Indizierung Spalte von strings an Funktionen. Hier ist mein tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen fehlenden Wert für 'x0'. Auf den ersten, ich
2
Antworten
Tun Sie Jungs wissen, wo finde ich Beispiele für multiclass Klassifizierung Funken. Ich verbrachte viel Zeit mit der Suche in Büchern und im web, und so weit ich weiß nur, dass es möglich ist, da die neueste
2
Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass
6
Antworten
Bin ich basteln mit einigen cross-Validierung code aus dem PySpark Dokumentation, und zu versuchen, PySpark, um mir zu sagen, welches Modell gewählt wurde: from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning
1
Antworten
Frage ich mich, ob es ist eine prägnante Art und Weise zum ausführen ML (e.g KMeans) auf einen DataFrame in pyspark wenn ich die Funktionen in mehrere numerische Spalten. I. e. wie in der Iris dataset: (a1=5.1,
1
Antworten
Was .map() Funktion in python verwende ich zum erstellen einer Reihe von labeledPoints aus einem Funken dataframe? Was ist die notation, wenn Das label/Ergebnis nicht die erste Spalte, aber ich kann finden Sie in der Spalte name,
4
Antworten
Wie gehe ich mit kategorischen Daten mit spark-ml und nicht spark-mllib ? Dachte, die Dokumentation ist nicht sehr klar, es scheint, dass Klassifikatoren, z.B. RandomForestClassifier, LogisticRegression haben eine featuresCol argument gibt den Namen der Spalte Funktionen der
1
Antworten
Ich erstellt habe, Begriff Frequenz mit HashingTF im Spark. Ich habe den Begriff Frequenzen mit tf.transform für jedes Wort. Aber die Ergebnisse zeigen in diesem format. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...] ,[termFrequencyofWord1, termFrequencyOfWord2 ....] zB: (1048576,[105,3116],[1.0,2.0]) Ich bin in der
1
Antworten
Habe ich eine Python-Klasse, die ich zum laden und verarbeiten einige Daten in der Funke. Unter den verschiedenen Dinge, die ich tun müssen, ich bin erzeugt eine Liste von dummy-Variablen abgeleitet, die aus verschiedenen Spalten in einer
3
Antworten
Bin ich den Import einer CSV-Datei (mit Funken -, csv) in eine DataFrame die leere String Werte. Bei Anwendung der OneHotEncoder werden, stürzt die Anwendung mit Fehler requirement failed: Cannot have an empty string for name.. Gibt
2
Antworten
Möchte ich libsvm-format, also machte ich dataframe, um die gewünschten format, aber ich weiß nicht, wie zu konvertieren, um libsvm-format. Das format ist wie in der Abbildung gezeigt. Ich hoffe, dass die gewünschte libsvm-Typ ist user-item:Bewertung .
2
Antworten
Habe ich ein DataFrame mit zwei Spalten ID Typ Int und Vec Typ Vector (org.apache.spark.mllib.linalg.Vector). Den DataFrame sieht aus wie folgt: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] .... Ich würde gerne eine groupBy($"ID") wenden
2
Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter
2
Antworten
Habe ich nur verwendet, Standard-Scaler zu normalisieren, meine Gesichtszüge für einen ML-Anwendung. Nach der Auswahl der skalierten Funktionen, die ich will, um zu konvertieren zurück zu einem dataframe Verdoppelt, obwohl die Länge der meine Vektoren sind frei
1
Antworten
Ich bin ganz neu maschinelles lernen, so brauche ich etwas Hilfe. Habe ich spark streaming job, die nimmt Daten über Benutzer, den Stromverbrauch in Cassandra. Ich fülle mehrere Tabellen mit Daten, von denen die wichtigste ist "hourly_data",
2
Antworten
Betrachten Sie den code, die hier gegeben werden, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkContext.parallelize(Seq( LabeledPoint(1.0, Vectors.dense(0.0, 1.1, 0.1)), LabeledPoint(0.0, Vectors.dense(2.0, 1.0, -1.0)), LabeledPoint(0.0, Vectors.dense(2.0, 1.3, 1.0)), LabeledPoint(1.0, Vectors.dense(0.0, 1.2, -0.5)))) val lr = new LogisticRegression() lr.setMaxIter(10).setRegParam(0.01)
2
Antworten
Kopiere ich die pyspark.ml Beispiel aus dem offiziellen Dokument der website: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0]),),(Vectors.dense([9.0, 8.0]),), (Vectors.dense([8.0, 9.0]),)] df = spark.createDataFrame(data, ["features"]) kmeans = KMeans(k=2, seed=1) model = kmeans.fit(df) Aber, das obige Beispiel würde
1
Antworten
Kontext: ich habe eine DataFrame mit 2 Spalten: Wort und Vektor. Wo die Spalte Typ "vector" ist VectorUDT. Beispiel: word | vector assert | [435,323,324,212...] Und ich will diesen: word | v1 | v2 | v3 |
5
Antworten
Mein Ziel ist der Aufbau eines multicalss classifier. Ich gebaut habe, eine pipeline für die Merkmalsextraktion und es beinhaltet als ersten Schritt eine StringIndexer Transformator, um die Zuordnung der einzelnen Klasse name für ein label, dieses label
2
Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass
2
Antworten
Möchte ich bewerten, ein random forest ausgebildet, auf einige Daten. Gibt es eine utility, die in Apache Spark, das gleiche zu tun oder habe ich zu erledigen-Kreuzvalidierung manuell? InformationsquelleAutor der Frage ashishsjsu | 2015-09-24
2
Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter