Tag: apache-spark-ml

Spark ML ist ein high-level-API für das erstellen von machine-learning-pipelines in Apache Spark.

Wie anzeigen-Funktionen aus der Ausgabe eines VectorAssembler zurück zu den Spaltennamen in der Funke ML?

Anzahl der Antworten 3 Antworten
Ich versuche, führen Sie eine lineare regression in PySpark und ich möchte erstellen Sie eine Tabelle mit Zusammenfassung der Statistiken, wie die Koeffizienten, P-Werte und t-Werte für jede Spalte in meinem Datensatz. Jedoch, um zu trainieren Sie

SparkException: Werte zu montieren kann nicht null sein

Anzahl der Antworten 1 Antworten
Möchte ich verwenden StandardScaler Normalisierung der Funktionen. Hier ist mein code: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3)) val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("features").transform(trainingData) val stdscaler = new StandardScaler().setInputCol("features").setOutputCol("scaledFeatures").setWithStd(true).setWithMean(false).fit(vectorAssembler) aber es warf eine Ausnahme, wenn ich versuchte, Sie zu verwenden

Feld "Eigenschaften" nicht vorhanden ist. SparkML

Anzahl der Antworten 1 Antworten
Ich versuche, ein Modell zu bauen in Spark ML, mit Zeppelin. Ich bin neu auf diesem Gebiet und möchte einige helfen. Ich denke, dass ich noch die richtigen Datentypen der Spalte an und bestimmen Sie die erste

gelten OneHotEncoder für mehrere kategorische Spalten in SparkMlib

Anzahl der Antworten 2 Antworten
Ich habe mehrere kategoriale Merkmale und möchte wandeln Sie alle mit OneHotEncoder. Allerdings, wenn ich versuchte, Sie auf anwenden, um die StringIndexer, dort bekomme ich eine Fehlermeldung: stringIndexer = StringIndexer( inputCol = ['a', 'b','c','d'], outputCol = ['a_index',

Wie verbinden Sie mehrere feature-Vektoren in DataFrame?

Anzahl der Antworten 1 Antworten
Verwendung von Spark ML Transformatoren kam ich auf eine DataFrame wo jede Zeile sieht wie folgt aus: Row(object_id, text_features_vector, color_features, type_features) wo text_features ist eine sparse-Vektor der term-GEWICHTE color_features ist eine kleine 20-element (one-hot-encoder) Dichte-Vektor, der die

Apache Spark wirft NullPointerException, wenn man auf fehlende feature

Anzahl der Antworten 2 Antworten
Habe ich ein bizarres Problem mit PySpark, wenn die Indizierung Spalte von strings an Funktionen. Hier ist mein tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen fehlenden Wert für 'x0'. Auf den ersten, ich

Spark Multiclass Klassifizierung Beispiel

Anzahl der Antworten 2 Antworten
Tun Sie Jungs wissen, wo finde ich Beispiele für multiclass Klassifizierung Funken. Ich verbrachte viel Zeit mit der Suche in Büchern und im web, und so weit ich weiß nur, dass es möglich ist, da die neueste

Wie konvertiere ich ein array (d.h. eine Liste) Spalte Vektor

Anzahl der Antworten 2 Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass

Wie zu extrahieren Modell hyper-Parameter von spark.ml in PySpark?

Anzahl der Antworten 6 Antworten
Bin ich basteln mit einigen cross-Validierung code aus dem PySpark Dokumentation, und zu versuchen, PySpark, um mir zu sagen, welches Modell gewählt wurde: from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning

Erstellen von feature-Vektor programmgesteuert in Spark ML / pyspark

Anzahl der Antworten 1 Antworten
Frage ich mich, ob es ist eine prägnante Art und Weise zum ausführen ML (e.g KMeans) auf einen DataFrame in pyspark wenn ich die Funktionen in mehrere numerische Spalten. I. e. wie in der Iris dataset: (a1=5.1,

Erstellen labeledPoints von Spark DataFrame in Python

Anzahl der Antworten 1 Antworten
Was .map() Funktion in python verwende ich zum erstellen einer Reihe von labeledPoints aus einem Funken dataframe? Was ist die notation, wenn Das label/Ergebnis nicht die erste Spalte, aber ich kann finden Sie in der Spalte name,

Wie behandeln kategorische Merkmale mit spark-ml?

Anzahl der Antworten 4 Antworten
Wie gehe ich mit kategorischen Daten mit spark-ml und nicht spark-mllib ? Dachte, die Dokumentation ist nicht sehr klar, es scheint, dass Klassifikatoren, z.B. RandomForestClassifier, LogisticRegression haben eine featuresCol argument gibt den Namen der Spalte Funktionen der

Wie man word-details von TF-Vektor-RDD in Spark ML Lib?

Anzahl der Antworten 1 Antworten
Ich erstellt habe, Begriff Frequenz mit HashingTF im Spark. Ich habe den Begriff Frequenzen mit tf.transform für jedes Wort. Aber die Ergebnisse zeigen in diesem format. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...] ,[termFrequencyofWord1, termFrequencyOfWord2 ....] zB: (1048576,[105,3116],[1.0,2.0]) Ich bin in der

Codieren und montieren die mehrere Funktionen in PySpark

Anzahl der Antworten 1 Antworten
Habe ich eine Python-Klasse, die ich zum laden und verarbeiten einige Daten in der Funke. Unter den verschiedenen Dinge, die ich tun müssen, ich bin erzeugt eine Liste von dummy-Variablen abgeleitet, die aus verschiedenen Spalten in einer

Spark DataFrame übergabe leerer String in OneHotEncoder

Anzahl der Antworten 3 Antworten
Bin ich den Import einer CSV-Datei (mit Funken -, csv) in eine DataFrame die leere String Werte. Bei Anwendung der OneHotEncoder werden, stürzt die Anwendung mit Fehler requirement failed: Cannot have an empty string for name.. Gibt

So bereiten Sie Daten in einem LibSVM-format von DataFrame?

Anzahl der Antworten 2 Antworten
Möchte ich libsvm-format, also machte ich dataframe, um die gewünschten format, aber ich weiß nicht, wie zu konvertieren, um libsvm-format. Das format ist wie in der Abbildung gezeigt. Ich hoffe, dass die gewünschte libsvm-Typ ist user-item:Bewertung .

So definieren Sie eine benutzerdefinierte aggregation-Funktion, um die Summe einer Spalte von Vektoren?

Anzahl der Antworten 2 Antworten
Habe ich ein DataFrame mit zwei Spalten ID Typ Int und Vec Typ Vector (org.apache.spark.mllib.linalg.Vector). Den DataFrame sieht aus wie folgt: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] .... Ich würde gerne eine groupBy($"ID") wenden

Speichern ML Modell für die zukünftige Verwendung

Anzahl der Antworten 2 Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter

Spark Scala: Wie konvertieren von Dataframe[vector] , DataFrame[f1:Doppel -, ..., fn: Double)]

Anzahl der Antworten 2 Antworten
Habe ich nur verwendet, Standard-Scaler zu normalisieren, meine Gesichtszüge für einen ML-Anwendung. Nach der Auswahl der skalierten Funktionen, die ich will, um zu konvertieren zurück zu einem dataframe Verdoppelt, obwohl die Länge der meine Vektoren sind frei

Time series forecasting in Funke & Funke-Streaming

Anzahl der Antworten 1 Antworten
Ich bin ganz neu maschinelles lernen, so brauche ich etwas Hilfe. Habe ich spark streaming job, die nimmt Daten über Benutzer, den Stromverbrauch in Cassandra. Ich fülle mehrere Tabellen mit Daten, von denen die wichtigste ist "hourly_data",

Sollten wir parallelisieren Sie einen DataFrame, wie wir parallelisieren eines Seq-vor dem training

Anzahl der Antworten 2 Antworten
Betrachten Sie den code, die hier gegeben werden, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression val training = sparkContext.parallelize(Seq( LabeledPoint(1.0, Vectors.dense(0.0, 1.1, 0.1)), LabeledPoint(0.0, Vectors.dense(2.0, 1.0, -1.0)), LabeledPoint(0.0, Vectors.dense(2.0, 1.3, 1.0)), LabeledPoint(1.0, Vectors.dense(0.0, 1.2, -0.5)))) val lr = new LogisticRegression() lr.setMaxIter(10).setRegParam(0.01)

pyspark : NameError: name 'Funke' ist nicht definiert

Anzahl der Antworten 2 Antworten
Kopiere ich die pyspark.ml Beispiel aus dem offiziellen Dokument der website: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0]),),(Vectors.dense([9.0, 8.0]),), (Vectors.dense([8.0, 9.0]),)] df = spark.createDataFrame(data, ["features"]) kmeans = KMeans(k=2, seed=1) model = kmeans.fit(df) Aber, das obige Beispiel würde

Wie teilt Vektor in Spalten - mit PySpark

Anzahl der Antworten 1 Antworten
Kontext: ich habe eine DataFrame mit 2 Spalten: Wort und Vektor. Wo die Spalte Typ "vector" ist VectorUDT. Beispiel: word | vector assert | [435,323,324,212...] Und ich will diesen: word | v1 | v2 | v3 |

Funke, ML, StringIndexer: Umgang mit unsichtbaren Etiketten

Anzahl der Antworten 5 Antworten
Mein Ziel ist der Aufbau eines multicalss classifier. Ich gebaut habe, eine pipeline für die Merkmalsextraktion und es beinhaltet als ersten Schritt eine StringIndexer Transformator, um die Zuordnung der einzelnen Klasse name für ein label, dieses label

PySpark: Wie konvertiere ich eine Array (d. H. Liste) Spalte in Vektor

Anzahl der Antworten 2 Antworten
Kurze version der Frage! Betrachten Sie den folgenden Codeausschnitt (vorausgesetzt spark bereits einige SparkSession): from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) Beachten Sie, dass

Wie kann man das RandomForest Modell validieren?

Anzahl der Antworten 2 Antworten
Möchte ich bewerten, ein random forest ausgebildet, auf einige Daten. Gibt es eine utility, die in Apache Spark, das gleiche zu tun oder habe ich zu erledigen-Kreuzvalidierung manuell? InformationsquelleAutor der Frage ashishsjsu | 2015-09-24

Speichern Sie das ML-Modell für die zukünftige Verwendung

Anzahl der Antworten 2 Antworten
Ich war die Anwendung einiger Machine-Learning-algorithmen (wie Lineare Regression, Logistische Regression, Naive Bayes, um einige Daten, aber ich habe versucht zu vermeiden, mit RDDs und starten Sie mit DataFrames, weil die RDDs sind langsamer als Dataframes unter