Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Unterstützt die SVM in sklearn inkrementelles (Online-) Lernen?

Anzahl der Antworten 6 Antworten
Ich bin derzeit in den Prozess der Gestaltung eines recommender-Systems für text-Artikel (eine binäre Fall 'interessant' oder 'nicht interessant'). Einer meiner Vorgaben ist, dass es kontinuierlich aktualisieren, um die wechselnden trends. Was ich sagen kann, der beste

Verständnis von min_df und max_df in scikit CountVectorizer

Anzahl der Antworten 4 Antworten
Habe ich noch fünf text-Dateien, die als input für eine CountVectorizer. Bei der Angabe min_df und max_df der CountVectorizer Beispiel was bedeutet der min - /max-Dokument Frequenz genau bedeutet? Ist es die Häufigkeit eines Wortes in seine

Scikit Learn - K-Mittel - Ellenbogen - Kriterium

Anzahl der Antworten 2 Antworten
Heute bin ich versucht zu lernen, etwas über die K-means. Ich verstehe den Algorithmus und ich weiß, wie es funktioniert. Jetzt bin ich auf der Suche für den richtigen k... ich fand das elbow-Kriterium als eine Methode

Scikit-learn predict_proba gibt falsche Antworten

Anzahl der Antworten 3 Antworten
Dies ist ein follow-up-Frage Wie Sie wissen, was Klassen sind vertreten im Rückgabe-array von predict_proba in Scikit-learn In dieser Frage, ich zitierte Sie den folgenden code: >>> import sklearn >>> sklearn.__version__ '0.13.1' >>> from sklearn import svm

Warum sagt Scikitlearn F1-Score ist nicht definiert mit FN größer als 0?

Anzahl der Antworten 2 Antworten
Rufe ich ein python-Programm, dass nennt sklearn.metrics's Methoden zur Berechnung precision und F1-score. Hier ist die Ausgabe, wenn es keine predicted sample: /xxx/py2-scikit-learn/0.15.2-comp6/lib/python2.6/site-packages/sklearn/metr\ ics/metrics.py:1771: UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 due to no predicted

Kombinieren von kategorialen und kontinuierlichen Daten im Naive Bayes-Klassifikator mit scikit-learn

Anzahl der Antworten 2 Antworten
Ich bin mit scikit-learn, das in Python zu entwickeln, die eine Klassifikation Algorithmus, um vorherzusagen, das Geschlecht des bestimmten Kunden. Unter anderem will ich mit dem Naive Bayes-Klassifikator aber mein problem ist, dass ich einen mix von

Übergeben kategorischer Daten an Sklearn Decision Tree

Anzahl der Antworten 2 Antworten
Gibt es mehrere Beiträge darüber, wie zu Kodieren kategoriale Daten Sklearn Decission trees, aber von Sklearn Dokumentation, wir haben diese Einige Vorteile der Entscheidungsbäume sind: (...) Verarbeiten können sowohl numerische und kategorische Daten. Andere Techniken sind in

Importieren Sie check_arrays von sklearn

Anzahl der Antworten 3 Antworten
Ich versuche, einen svm-Funktion aus der scikit lernen-Paket für python, aber ich bekomme die Fehlermeldung: from sklearn.utils.validation import check_arrays ImportError: cannot import name 'check_arrays' Ich bin mit python 3.4. Kann mir jemand einen Rat? Vielen Dank im

Unterscheidung zwischen Überanpassung und guter Vorhersage

Anzahl der Antworten 1 Antworten
Dies sind die Fragen auf, wie zu berechnen & Reduzierung von overfitting in machine learning. Ich denke, dass viele neue maschinelles lernen haben die gleichen Fragen, und so versuchte ich, klar zu sein mit meinen Beispielen und

Zufallszustand (Pseudozufallszahl) in Scikit lernen

Anzahl der Antworten 2 Antworten
Ich möchte Implementierung eines machine learning Algorithmus in scikit lernen, aber ich verstehe nicht, was dieser parameter random_state? Warum sollte ich es verwenden? Ich konnte auch nicht verstehen, was ist eine Pseudo-Zufallszahl. InformationsquelleAutor der Frage Elizabeth Susan

Wiederherstellen von Feature-Namen von exploined_variance_ratio_ in PCA mit sklearn

Anzahl der Antworten 4 Antworten
Ich versuche, mich zu erholen von eine PCA durchgeführt mit scikit-learn, die Funktionen ausgewählt werden, da relevanten. Einem klassischen Beispiel mit den IRIS-Datensatz. import pandas as pd import pylab as pl from sklearn import datasets from sklearn.decomposition

Kann sklearn Random Forest direkt mit kategorischen Features umgehen?

Anzahl der Antworten 4 Antworten
Sagen, ich habe ein kategorisches Merkmal, die Farbe, die die Werte ['rot', 'blau', 'grün', 'orange'], und ich möchte es verwenden, um vorherzusagen, etwas in einem random forest. Wenn ich one-hot codieren (d.h. ich ändern, um vier dummy-Variablen),

Wie importiere ich eine CSV-Datei in scikit-learn?

Anzahl der Antworten 4 Antworten
Aus meinem Verständnis, die scikit-learn akzeptiert Daten in der (n-Probe n-Funktion) - format, welches ein 2D-array. Angenommen ich habe Daten in der form ... Stock prices indicator1 indicator2 2.0 123 1252 1.0 .. .. .. . .

Der beste Weg, probabilistische Klassifikatoren in scikit-learn zu kombinieren

Anzahl der Antworten 3 Antworten
Habe ich eine Logistische regression und random forest und ich möchte Sie zu kombinieren (ensemble) für die endgültige Einstufung Wahrscheinlichkeitsrechnung, indem Sie eine Durchschnittliche. Gibt es eine integrierte Möglichkeit, dies zu tun, die in sci-kit erfahren? Einige

Mit scikit-learn PCA die Dimension mit der höchsten Varianz finden

Anzahl der Antworten 1 Antworten
Ich muss an pca zu identifizieren, die Dimensionen mit der höchsten Varianz eines bestimmten Satz von Daten. Ich bin mit scikit-learn ist die pca, um es zu tun, aber ich kann nicht erkennen, von der Ausgabe der

Wie finde ich die entsprechende Klasse in clf.predict_proba ()

Anzahl der Antworten 3 Antworten
Ich habe eine Reihe von Klassen und zugehörigen feature-Vektoren, und wenn ich laufen predict_proba() bekomme ich: classes = ['one','two','three','one','three'] feature = [[0,1,1,0],[0,1,0,1],[1,1,0,0],[0,0,0,0],[0,1,1,1]] from sklearn.naive_bayes import BernoulliNB clf = BernoulliNB() clf.fit(feature,classes) clf.predict_proba([0,1,1,0]) >> array([[ 0.48247836, 0.40709111, 0.11043053]]) Ich

Unterschiedliches Ergebnis mit roc_auc_score () und auc ()

Anzahl der Antworten 3 Antworten
Ich habe Schwierigkeiten zu verstehen, den Unterschied (wenn es einen gibt) zwischen roc_auc_score() und auc() in scikit-learn. Im binden voraussagen eine binäre Ausgabe mit unausgewogenen Klassen (rund 1,5% für Y=1). Classifier model_logit = LogisticRegression(class_weight='auto') model_logit.fit(X_train_ridge, Y_train) Roc-Kurve

Kreuzvalidierung und Rastersuche

Anzahl der Antworten 3 Antworten
Gibt es jemanden, der erklären kann mich in wirklich einfachen Worten, was ist der Unterschied zwischen cross-Validierung und grid-search? Wie funktioniert das und muss ich als erstes tun eine Kreuzvalidierung und dann eine Netz Suche? Meine Frage

RandomForestClassifier vs ExtraTreesClassifier in scikit lernen

Anzahl der Antworten 2 Antworten
Kann mir jemand erklären den Unterschied zwischen den RandomForestClassifier und ExtraTreesClassifier in scikit lernen. Ich verbrachte ein gutes Stück Zeit mit dem Lesen der Zeitung: P. Geurts, D. Ernst., und L. Wehenkel, "Extrem randomisierte Bäume", Machine Learning,

Ist es möglich, mit scikit-learn K-Means Clustering eine eigene Distanzfunktion anzugeben?

Anzahl der Antworten 5 Antworten
Ist es möglich, geben Sie Ihre eigene Distanz-Funktion mit scikit-learn K-Means-Clustering? Kommentar zu dem Problem Beachten Sie, dass k-means ist konzipiert für die euklidische Distanz. Es könnte aufhören zu konvergieren, mit anderen Distanzen, wenn die meine ist

Wie konvertiert man eine Pandas Dataframe-Untergruppe von Spalten UND Zeilen in ein numpy Array?

Anzahl der Antworten 3 Antworten
Frage ich mich, ob es ist ein einfacher Speicher-effiziente Methode zum auswählen einer Teilmenge der Zeilen und Spalten ein pandas DataFrame. Beispielsweise angesichts dieser dataframe: df = DataFrame(np.random.rand(4,5), Spalten = list('abcde')) drucken df a b c d

tf-idf-Feature-Gewichtungen mit sklearn.feature_extraction.text.TfidfVectorizer

Anzahl der Antworten 2 Antworten
dieser Seite: http://scikit-learn.org/stable/modules/feature_extraction.html erwähnt: Als tf–idf ist eine sehr Häufig für die text-Funktionen, es gibt auch eine andere Klasse namens " TfidfVectorizer, die verbindet alle die Möglichkeit, CountVectorizer und TfidfTransformer in einem einzigen Modell. dann folgte ich