Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Unterstützt die SVM in sklearn inkrementelles (Online-) Lernen?

6 Antworten

Ich bin derzeit in den Prozess der Gestaltung eines recommender-Systems für text-Artikel (eine binäre Fall 'interessant' oder 'nicht interessant'). Einer meiner Vorgaben ist, dass es kontinuierlich aktualisieren, um die wechselnden trends. Was ich sagen kann, der beste

Verständnis von min_df und max_df in scikit CountVectorizer

4 Antworten

Habe ich noch fünf text-Dateien, die als input für eine CountVectorizer. Bei der Angabe min_df und max_df der CountVectorizer Beispiel was bedeutet der min - /max-Dokument Frequenz genau bedeutet? Ist es die Häufigkeit eines Wortes in seine

machine-learning nlp python scikit-learn

Scikit Learn - K-Mittel - Ellenbogen - Kriterium

2 Antworten

Heute bin ich versucht zu lernen, etwas über die K-means. Ich verstehe den Algorithmus und ich weiß, wie es funktioniert. Jetzt bin ich auf der Suche für den richtigen k... ich fand das elbow-Kriterium als eine Methode

cluster-analysis k-means machine-learning python scikit-learn

Scikit-learn predict_proba gibt falsche Antworten

3 Antworten

Dies ist ein follow-up-Frage Wie Sie wissen, was Klassen sind vertreten im Rückgabe-array von predict_proba in Scikit-learn In dieser Frage, ich zitierte Sie den folgenden code: >>> import sklearn >>> sklearn.__version__ '0.13.1' >>> from sklearn import svm

python scikit-learn

Warum sagt Scikitlearn F1-Score ist nicht definiert mit FN größer als 0?

2 Antworten

Rufe ich ein python-Programm, dass nennt sklearn.metrics's Methoden zur Berechnung precision und F1-score. Hier ist die Ausgabe, wenn es keine predicted sample: /xxx/py2-scikit-learn/0.15.2-comp6/lib/python2.6/site-packages/sklearn/metr\ ics/metrics.py:1771: UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 due to no predicted

machine-learning python scikit-learn statistics

Kombinieren von kategorialen und kontinuierlichen Daten im Naive Bayes-Klassifikator mit scikit-learn

2 Antworten

Ich bin mit scikit-learn, das in Python zu entwickeln, die eine Klassifikation Algorithmus, um vorherzusagen, das Geschlecht des bestimmten Kunden. Unter anderem will ich mit dem Naive Bayes-Klassifikator aber mein problem ist, dass ich einen mix von

classification data-mining machine-learning python scikit-learn

Übergeben kategorischer Daten an Sklearn Decision Tree

2 Antworten

Gibt es mehrere Beiträge darüber, wie zu Kodieren kategoriale Daten Sklearn Decission trees, aber von Sklearn Dokumentation, wir haben diese Einige Vorteile der Entscheidungsbäume sind: (...) Verarbeiten können sowohl numerische und kategorische Daten. Andere Techniken sind in

decision-tree python scikit-learn

Importieren Sie check_arrays von sklearn

3 Antworten

Ich versuche, einen svm-Funktion aus der scikit lernen-Paket für python, aber ich bekomme die Fehlermeldung: from sklearn.utils.validation import check_arrays ImportError: cannot import name 'check_arrays' Ich bin mit python 3.4. Kann mir jemand einen Rat? Vielen Dank im

python scikit-learn svm

Unterscheidung zwischen Überanpassung und guter Vorhersage

1 Antworten

Dies sind die Fragen auf, wie zu berechnen & Reduzierung von overfitting in machine learning. Ich denke, dass viele neue maschinelles lernen haben die gleichen Fragen, und so versuchte ich, klar zu sein mit meinen Beispielen und

machine-learning numpy python regression scikit-learn

Zufallszustand (Pseudozufallszahl) in Scikit lernen

2 Antworten

Ich möchte Implementierung eines machine learning Algorithmus in scikit lernen, aber ich verstehe nicht, was dieser parameter random_state? Warum sollte ich es verwenden? Ich konnte auch nicht verstehen, was ist eine Pseudo-Zufallszahl. InformationsquelleAutor der Frage Elizabeth Susan

python scikit-learn

Wiederherstellen von Feature-Namen von exploined_variance_ratio_ in PCA mit sklearn

4 Antworten

Ich versuche, mich zu erholen von eine PCA durchgeführt mit scikit-learn, die Funktionen ausgewählt werden, da relevanten. Einem klassischen Beispiel mit den IRIS-Datensatz. import pandas as pd import pylab as pl from sklearn import datasets from sklearn.decomposition

machine-learning pca python scikit-learn

Kann sklearn Random Forest direkt mit kategorischen Features umgehen?

4 Antworten

Sagen, ich habe ein kategorisches Merkmal, die Farbe, die die Werte ['rot', 'blau', 'grün', 'orange'], und ich möchte es verwenden, um vorherzusagen, etwas in einem random forest. Wenn ich one-hot codieren (d.h. ich ändern, um vier dummy-Variablen),

enhancement one-hot python random-forest scikit-learn

Wie importiere ich eine CSV-Datei in scikit-learn?

4 Antworten

Aus meinem Verständnis, die scikit-learn akzeptiert Daten in der (n-Probe n-Funktion) - format, welches ein 2D-array. Angenommen ich habe Daten in der form ... Stock prices indicator1 indicator2 2.0 123 1252 1.0 .. .. .. . .

python scikit-learn

Der beste Weg, probabilistische Klassifikatoren in scikit-learn zu kombinieren

3 Antworten

Habe ich eine Logistische regression und random forest und ich möchte Sie zu kombinieren (ensemble) für die endgültige Einstufung Wahrscheinlichkeitsrechnung, indem Sie eine Durchschnittliche. Gibt es eine integrierte Möglichkeit, dies zu tun, die in sci-kit erfahren? Einige

classification machine-learning python scikit-learn

Mit scikit-learn PCA die Dimension mit der höchsten Varianz finden

1 Antworten

Ich muss an pca zu identifizieren, die Dimensionen mit der höchsten Varianz eines bestimmten Satz von Daten. Ich bin mit scikit-learn ist die pca, um es zu tun, aber ich kann nicht erkennen, von der Ausgabe der

pca python scikit-learn variance

Wie finde ich die entsprechende Klasse in clf.predict_proba ()

3 Antworten

Ich habe eine Reihe von Klassen und zugehörigen feature-Vektoren, und wenn ich laufen predict_proba() bekomme ich: classes = ['one','two','three','one','three'] feature = [[0,1,1,0],[0,1,0,1],[1,1,0,0],[0,0,0,0],[0,1,1,1]] from sklearn.naive_bayes import BernoulliNB clf = BernoulliNB() clf.fit(feature,classes) clf.predict_proba([0,1,1,0]) >> array([[ 0.48247836, 0.40709111, 0.11043053]]) Ich

machine-learning python scikit-learn

Unterschiedliches Ergebnis mit roc_auc_score () und auc ()

3 Antworten

Ich habe Schwierigkeiten zu verstehen, den Unterschied (wenn es einen gibt) zwischen roc_auc_score() und auc() in scikit-learn. Im binden voraussagen eine binäre Ausgabe mit unausgewogenen Klassen (rund 1,5% für Y=1). Classifier model_logit = LogisticRegression(class_weight='auto') model_logit.fit(X_train_ridge, Y_train) Roc-Kurve

machine-learning python scikit-learn

Kreuzvalidierung und Rastersuche

3 Antworten

Gibt es jemanden, der erklären kann mich in wirklich einfachen Worten, was ist der Unterschied zwischen cross-Validierung und grid-search? Wie funktioniert das und muss ich als erstes tun eine Kreuzvalidierung und dann eine Netz Suche? Meine Frage

classification cross-validation python scikit-learn

RandomForestClassifier vs ExtraTreesClassifier in scikit lernen

2 Antworten

Kann mir jemand erklären den Unterschied zwischen den RandomForestClassifier und ExtraTreesClassifier in scikit lernen. Ich verbrachte ein gutes Stück Zeit mit dem Lesen der Zeitung: P. Geurts, D. Ernst., und L. Wehenkel, "Extrem randomisierte Bäume", Machine Learning,

random-forest scikit-learn

Ist es möglich, mit scikit-learn K-Means Clustering eine eigene Distanzfunktion anzugeben?

5 Antworten

Ist es möglich, geben Sie Ihre eigene Distanz-Funktion mit scikit-learn K-Means-Clustering? Kommentar zu dem Problem Beachten Sie, dass k-means ist konzipiert für die euklidische Distanz. Es könnte aufhören zu konvergieren, mit anderen Distanzen, wenn die meine ist

cluster-analysis k-means machine-learning python scikit-learn

Wie konvertiert man eine Pandas Dataframe-Untergruppe von Spalten UND Zeilen in ein numpy Array?

3 Antworten

Frage ich mich, ob es ist ein einfacher Speicher-effiziente Methode zum auswählen einer Teilmenge der Zeilen und Spalten ein pandas DataFrame. Beispielsweise angesichts dieser dataframe: df = DataFrame(np.random.rand(4,5), Spalten = list('abcde')) drucken df a b c d

arrays numpy pandas python scikit-learn

tf-idf-Feature-Gewichtungen mit sklearn.feature_extraction.text.TfidfVectorizer

2 Antworten

dieser Seite: http://scikit-learn.org/stable/modules/feature_extraction.html erwähnt: Als tf–idf ist eine sehr Häufig für die text-Funktionen, es gibt auch eine andere Klasse namens " TfidfVectorizer, die verbindet alle die Möglichkeit, CountVectorizer und TfidfTransformer in einem einzigen Modell. dann folgte ich

python scikit-learn tf-idf