Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Scikit-Learn der Pipeline: Eine sparse-matrix übergeben wurde, aber dichten Daten erforderlich ist

5 Antworten

Mir fällt es schwer zu verstehen, wie zu beheben eine Pipeline, die ich erstellt (gelesen: groß eingefügt von einem tutorial). Es ist python 3.4.2: df = pd.DataFrame df = DataFrame.from_records(train) test = [blah1, blah2, blah3] pipeline =

Wie kann ich wissen, die Wahrscheinlichkeit der Klasse vorhergesagt durch das predict () - Funktion im Support-Vector-Machine?

4 Antworten

Wie kann ich wissen, sample die Wahrscheinlichkeit, dass es gehört zu einer Klasse vorhergesagt durch das predict () - Funktion von Scikit-Learn im Support-Vector-Machine? >>>print clf.predict([fv]) [5] Gibt es irgendeine Funktion? InformationsquelleAutor der Frage postgres | 2013-02-22

scikit-learn svm

Sci-kit und Regression Zusammenfassung

2 Antworten

Als R Benutzer, ich haben wollte, auch bekommen Sie bis zu Geschwindigkeit auf scikit. Begann mit Linear -, Ridge-und Lasso. Ich habe gegangen durch die Beispiele. Unten ist für die basic-OLS. Einrichten das Modell(s) ist wohl auch

scikit-learn

Sklearn so Speichern Sie ein Modell Erstellt, Aus einer Pipeline und GridSearchCV Mit Joblib oder Gurke?

1 Antworten

Nach der Ermittlung der optimalen Parameter mit einem pipeline und GridSearchCVwie kann ich pickle/joblib diesem Prozess die spätere Wiederverwendung? Ich sehe, wie Sie dies tun, wenn es einen einzelnen Klassifikator... from sklearn.externals import joblib joblib.dump(clf, 'filename.pkl') Aber

grid-search pipeline python scikit-learn

Erhalten Sie eigen-Werte und-Vektoren von sklearn PCA

1 Antworten

Wie kann ich die eigen Werte und eigen Vektoren der PCA-Anwendung? from sklearn.decomposition import PCA clf=PCA(0.98,whiten=True) #converse 98% variance X_train=clf.fit_transform(X_train) X_test=clf.transform(X_test) Ich kann es nicht finden in docs. 1.Ich bin "nicht" in der Lage zu verstehen, die

pca python scikit-learn scipy

Regression mit Datums-Variablen, die mit Scikit-learn

3 Antworten

Habe ich ein Pandas DataFrame mit einem date Spalte (zB: 2013-04-01) dtype datetime.date. Wenn ich die Spalte in X_train und versuchen Sie, sich das Regressionsmodell, bekomme ich die Fehlermeldung float() argument must be a string or a

numpy pandas python python-2.7 scikit-learn

Was ist der Unterschied zwischen predict_proba und decision_function in scikit-learn?

2 Antworten

Ich studiere einen scikit-learn Beispiel (Classifier-Vergleich) und verwirrt mit predict_proba und decision_function. Sie eine Darstellung der klassifikationsergebnisse durch die Zeichnung der Konturen mit entweder Z = clf.decision_function() oder Z = clf.predict_proba(). Was ist der Unterschied zwischen diesen

scikit-learn

Deprecation Warnung in scikit-learn svmlight-format loader

2 Antworten

Ich bin immer eine neue deprecation Warnung in einem IPython notebook, die ich schrieb, habe ich nicht gesehen. Was ich sehe, ist folgende: X,y = load_svmlight_file('./GasSensorArray/batch2.dat') /Users/cpd/.virtualenvs/py27-ipython+pandas/lib/python2.7/site-packages/sklearn/datasets/svmlight_format.py:137: DeprecationWarning: using a non-integer number instead of an integer will

python scikit-learn

LogisticRegression: Unbekannt label type: 'continuous' mit sklearn in python

2 Antworten

Habe ich folgenden code zum testen einige der beliebtesten ML-algorithmen sklearn python-Bibliothek: import numpy as np from sklearn import metrics, svm from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier

numpy python scikit-learn

AdaBoostClassifier mit verschiedenen Basis-Lerner

3 Antworten

Ich versuche, mit AdaBoostClassifier mit einem base-learner andere als DecisionTree. Ich habe versucht, SVM und KNeighborsClassifier aber ich bekomme Fehler. Kann jemand Punkt aus den Klassifikatoren, die verwendet werden können mit AdaBoostClassifier? InformationsquelleAutor der Frage vdesai |

adaboost machine-learning scikit-learn

Vektorisieren ein Pandas dataframe für Scikit-Learn

4 Antworten

Sagen, ich habe einen dataframe in Pandas wie folgt: > my_dataframe col1 col2 A foo B bar C something A foo A bar B foo wo die Zeilen stellen Instanzen und Spalten-Eingabe-Funktionen (zeigt nicht das Ziel-label, aber

pandas python scikit-learn

Numpy hstack - "ValueError: alle Eingabe-arrays müssen dieselbe Anzahl von Dimensionen" - aber Sie tun es

3 Antworten

Ich versuche zu join zwei numpy-arrays. In einem habe ich eine Reihe von Spalten/Funktionen nach dem ausführen von TF-IDF auf eine einzelne Spalte der text. In der anderen habe ich eine Spalte/Funktion, die eine Ganzzahl ist. So

arrays numpy pandas python scikit-learn

Python-Liste von Ngrams mit Frequenzen

3 Antworten

Ich brauche, um die beliebtesten ngrams von text. Ngrams Länge muss zwischen 1 bis 5 Worte. Weiß ich, wie man bigrame und Trigramme. Zum Beispiel: bigram_measures = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(words) finder.apply_freq_filter(3) finder.apply_word_filter(filter_stops) matches1 = finder.nbest(bigram_measures.pmi, 20)

nltk python scikit-learn

TfidfVectorizer in scikit-learn : ValueError: np.nan ist ein ungültiges Dokument

1 Antworten

Ich bin mit TfidfVectorizer von scikit-learn, um einige der feature-Extraktion von text-Daten. Ich habe eine CSV-Datei mit einem Score (+1 oder -1) und eine Rezension (text). Zog ich diese Daten in einem DataFrame so kann ich den

machine-learning pandas python scikit-learn tf-idf

Wie interpretieren scikit - learn-confusion-matrix und die Klassifizierung Bericht?

3 Antworten

Habe ich eine sentiment-Analyse-Aufgabe, für diese Im mit dieser corpus die Meinung haben 5 Klassen (very negnegneuposvery pos), von 1 bis 5. Also ich mache die Klassifizierung wie folgt: from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np

confusion-matrix machine-learning nlp scikit-learn svm

Python: UnicodeDecodeError: 'utf8' codec kann nicht decodieren byte

3 Antworten

Bin ich beim Lesen eine Reihe von RTF-Dateien in python-Zeichenketten. Auf EINIGE Texte, die ich bekomme diese Fehlermeldung: Traceback (most recent call last): File "11.08.py", line 47, in <module> X = vectorizer.fit_transform(texts) File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 716, in

encoding python scikit-learn utf-8

Sollte ich " zufällig.Samen` oder `numpy.random.seed` zur Kontrolle random number generation in `scikit-learn"?

1 Antworten

Ich bin mit scikit-learn und numpy und ich möchte, um die Globale Saatgut so, dass meine Arbeit reproduzierbar ist. Sollte ich numpy.random.seed oder random.seed? Edit: Aus dem link in die Kommentare, ich verstehe, dass Sie anders sind,

numpy python random random-seed scikit-learn

OLS-Regression: Scikit vs. Statsmodels?

2 Antworten

Kurze version: ich war mit der scikit LinearRegression über einige Daten, aber ich bin verwendet, um p-Werte, so legen die Daten in die statsmodels OLS, und zwar R^2 ist etwa die gleiche variable Koeffizienten sind alle Verschieden

linear-regression python scikit-learn statsmodels

Scikit-learn train_test_split mit Indizes

3 Antworten

Wie bekomme ich die original-Indizes der Daten bei der Nutzung train_test_split()? Was ich habe, ist die folgende from sklearn.cross_validation import train_test_split import numpy as np data = np.reshape(np.randn(20),(10,2)) # 10 training examples labels = np.random.randint(2, size=10) #

classification python scikit-learn scipy

DBSCAN in scikit-learn Python: speichern Sie die cluster-Punkte in einem array

2 Antworten

folgenden Beispiel Demo des DBSCAN clustering-Algorithmus von Scikit Lernen, ich bin versucht zu speichern in einem array die x -, y-jedes clustering-Klasse import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.datasets.samples_generator import

cluster-analysis dbscan python scikit-learn

Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste

1 Antworten

Scikit-learn ist CountVectorizer - Klasse können Sie eine Zeichenfolge übergeben 'Deutsch' auf das argument stop_words. Ich möchte einige Dinge hinzufügen, um diese vordefinierten Liste. Kann mir jemand sagen, wie dies zu tun? InformationsquelleAutor der Frage panterasBox |

python scikit-learn stop-words

pip: abrufen von Aktualisierungen von remote git-repository

3 Antworten

Ich installiert scikit-learn von GitHub vor ein paar Wochen: pip install git+git://github.com/scikit-learn/scikit-learn@master Ging ich auf GitHub und es wurden mehrere änderungen an der master-branch seitdem. Wie kann ich ein update für meine lokale installation von scikit-learn? Versuchte

git github pip python scikit-learn

wie erklären Sie den Entscheidungsbaum von scikit-learn

3 Antworten

Ich habe zwei Probleme mit Verständnis das Ergebnis des Entscheidungsbaum von scikit-learn. Dies ist zum Beispiel einer meiner Entscheidung Bäume: Meine Frage ist, wie kann ich mit dem Baum? Die erste Frage ist die: wenn eine Probe

decision-tree numpy python scikit-learn scipy

Recursive feature elimination auf Random Forest mit scikit-learn

4 Antworten

Ich versuche, preform-rekursive Funktion elimination mit scikit-learn und ein random forest Klassifikator, mit OOB-ROC-wie ein Tor erzielt wird jede Teilmenge angelegt, die während der rekursiven Prozess. Jedoch, wenn ich versuche, die RFECV Methode, bekomme ich eine Fehlermeldung

feature-selection pandas python random-forest scikit-learn

Python-RandomForest - Unbekannt label Fehler

3 Antworten

Habe ich Probleme mit RandomForest fit-Funktion Dies ist mein Trainings-set P1 Tp1 IrrPOA Gz Drz2 0 0.0 7.7 0.0 -1.4 -0.3 1 0.0 7.7 0.0 -1.4 -0.3 2 ... ... ... ... ... 3 49.4 7.5 0.0

python python-3.x random-forest scikit-learn

Was ist der Unterschied zwischen SVC und SVM in scikit-learn?

1 Antworten

Aus der Dokumentation scikit-learn implementiert SVC, NuSVC und LinearSVC die Klassen in der Lage die Durchführung multi-class-Klassifizierung, die auf ein dataset. Von der anderen Seite habe ich auch schon gelesen, dass scikit lernen, verwendet auch libsvm für

libsvm machine-learning scikit-learn

Am schnellsten SVM-Implementierung in Python nutzbar

9 Antworten

Baue ich einige prädiktive Modelle in Python und habe mit scikits lernen die SVM-Implementierung. Es war wirklich toll, einfach zu bedienen, und relativ schnell. Leider bin ich allmählich eingeschränkt durch meine Laufzeit. Ich betreibe ein rbf SVM

gpu machine-learning python scikit-learn svm

Die Kombination von text, STEMMEN und entfernen von Satzzeichen in NLTK und scikit-learn

1 Antworten

Bin ich mit einer Kombination von NLTK und scikit-learn's CountVectorizer für Wortstamm Wörter und tokenisierung. Unten ist ein Beispiel der einfachen Nutzung der CountVectorizer: from sklearn.feature_extraction.text import CountVectorizer vocab = ['The swimmer likes swimming so he swims.']

nltk python scikit-learn text

Wie finden Sie die Bedeutung der Funktionen für eine Logistische regression Modell?

1 Antworten

Habe ich eine binäre Vorhersage-Modell ausgebildet, die von logistic regression-Algorithmus. Ich möchte wissen, welche Merkmale(Prädiktoren) sind wichtiger für die Entscheidung positive oder negative Klasse. Ich weiß, es ist coef_ parameter kommt aus der scikit-learn Paket, aber ich

logistic-regression machine-learning python scikit-learn

Erste Modell-Attribute von scikit-learn-pipeline

1 Antworten

Ich in der Regel erhalten Sie PCA Belastungen wie diese: pca = PCA(n_components=2) X_t = pca.fit(X).transform(X) loadings = pca.components_ Wenn ich PCA mit einem scikit-learn pipline ... from sklearn.pipeline import Pipeline pipeline = Pipeline(steps=[ ('scaling',StandardScaler()), ('pca',PCA(n_components=2)) ])

python scikit-learn

Parameter "Schichten" von der Methode "train_test_split" (scikit Lernen)

5 Antworten

Ich versuche, mit train_test_split von scikit-Paket Lernen, aber ich habe Probleme mit der parameter -stratify. Nachfolgend ist der code: from sklearn import cross_validation, datasets X = iris.data[:,:2] y = iris.target cross_validation.train_test_split(X,y,stratify=y) Aber, ich erhalte die folgende problem:

scikit-learn split test-data training-data

graph.write_pdf(“iris.pdf") AttributeError: 'list' - Objekt hat kein Attribut 'write_pdf'

8 Antworten

Mein code ist, Folgen Sie der Klasse des maschinellen Lernens von google.Die beiden Codes gleich sind.Ich weiß nicht, warum es den Fehler anzeigen.Kann der Typ der variable error.Aber google ' s code ist mir gleich.Wer hat schon

graphviz machine-learning pydot python scikit-learn

Klassifikatoren in scikit-learn, Griff nan/null

1 Antworten

Ich Frage mich, ob es gibt Klassifizierer, Griff nan/null-Werte in scikit-learn. Ich dachte, random forest regressor dies handhabt, aber ich bekam eine Fehlermeldung, wenn ich rufe predict. X_train = np.array([[1, np.nan, 3],[np.nan, 5, 6]]) y_train = np.array([1,

machine-learning nan pandas python scikit-learn

scikit-learn-Kreuzvalidierung, negative Werte mit dem mittleren quadrierten Fehler

1 Antworten

Wenn ich den folgenden code mit Data-matrix - X Größe (952,144) und output Vektor y Größe (952), mean_squared_error Metrik gibt negative Werte, was ist unerwartet. Haben Sie eine Idee? from sklearn.svm import SVR from sklearn import cross_validation

cross-validation python regression scikit-learn

Wie die k-fold cross validation in scikit mit naive bayes-Klassifikator und NLTK

5 Antworten

Ich habe ein kleines corpus und ich möchte, um die Richtigkeit der Berechnung der naive Bayes-Klassifikator mit 10-fold cross validation, wie Sie es tun können. InformationsquelleAutor der Frage user2284345 | 2013-05-04

bayesian cross-validation nltk python scikit-learn

Kann ich CountVectorizer in scikit-learn to count Häufigkeit von Dokumenten, die nicht verwendet wurden, zum extrahieren der tokens?

3 Antworten

Habe ich die Arbeit mit den CountVectorizer Klasse in scikit-learn. Ich verstehe, dass, wenn Sie in der Weise angezeigt, unten die endgültige Ausgabe aus einem array, Grafen von Funktionen, oder Token. Diese Token extrahiert aus einer Reihe

machine-learning python scikit-learn tf-idf

Clustern von Textdokumenten mit scikit-learn kmeans in Python

2 Antworten

Muss ich implementieren scikit-learn ist kMeans für das clustering von Textdokumenten. Die Beispielcode funktioniert gut, wie es ist, aber dauert einige 20newsgroups-Daten als Eingabe. Ich möchte den gleichen code für das clustering eine Liste von Dokumenten, wie

cluster-analysis k-means python python-2.7 scikit-learn

Wie berechnet man Präzision, Abruf, Genauigkeit und f1-Score für den Multiclass-Fall mit scikit learn?

4 Antworten

Arbeite ich in einer sentiment-Analyse problem der Daten sieht wie folgt aus: label instances 5 1190 4 838 3 239 1 204 2 127 Also meine Daten unausgeglichen ist seit 1190 instances sind beschriftet mit 5. Für

artificial-intelligence machine-learning nlp python scikit-learn

Python scikit lernen MLPClassifier "hidden_layer_sizes"

2 Antworten

Ich bin verloren in der scikit lernen 0.18 Benutzerhandbuch (http://scikit-learn.org/dev/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier): hidden_layer_sizes : tuple, length = n_layers - 2, default (100,) The ith element represents the number of neurons in the ith hidden layer. Wenn ich Suche, nur

neural-network python-2.7 scikit-learn

Wie scikit-learn PCA zur Reduzierung der Funktionen verwendet wird und welche Funktionen verworfen werden

3 Antworten

Ich versuche zu laufen, eine Zone die PCA auf eine matrix der Dimensionen m x n, wobei m die Anzahl der features und n die Anzahl der samples. Angenommen, ich möchte die Erhaltung der nf Funktionen mit

feature-selection machine-learning pca python scikit-learn

Warum verbessert eine Hot-Encoding die Leistung beim maschinellen Lernen?

2 Antworten

Habe ich bemerkt, dass, wenn Ein Hot-Codierung verwendet wird, auf einen bestimmten Datensatz (einer matrix), und als Trainingsdaten für das lernen von algorithmen, es gibt deutlich bessere Ergebnisse hinsichtlich der Vorhersage-Genauigkeit im Vergleich zu der ursprünglichen matrix

data-analysis data-mining machine-learning scikit-learn

Pandas Dataframe Spalten Skalierung mit Sklearn

4 Antworten

Habe ich ein pandas dataframe mit gemischten Spalten, und ich möchte gelten sklearn ist min_max_scaler, um einige der Spalten. Im Idealfall würde ich gerne tun, diese Transformationen im Ort, aber habe noch nicht herausgefunden, wie man das

dataframe pandas python scikit-learn

Wie extrahiert man die Entscheidungsregeln aus dem Entscheidungsbaum von scikit-learn?

12 Antworten

Kann ich Extrakt der zugrunde liegenden Entscheidung-Regeln (oder 'Entscheidungswege') von einem geschulten Baum in einem Entscheidungsbaum, wie eine textuelle Liste? Etwas wie: if A>0.4 then if B<0.2 then if C>0.8 then class='X' Vielen Dank für Ihre Hilfe.

decision-tree machine-learning python random-forest scikit-learn

Scikit-lernen: So erhalten Sie True Positive, True Negative, False Positive und False Negative

10 Antworten

Ich bin neu in maschinelles lernen und in scikit-learn. Mein problem: (Bitte, korrigieren Sie jede Art von missconception) Ich habe ein dataset, das eine GROßE JSON, ich es abrufen und speichern Sie es in einem trainList variable.

classification machine-learning python scikit-learn supervised-learning

Sklearn-Fehler ValueError: Der Input enthält NaN, unendlich oder einen zu großen Wert für dtype ('float64')

10 Antworten

Ich bin mit sklearn und habe ein problem mit dem affinity propagation. Ich habe gebaut ein input-matrix und ich bekomme immer folgende Fehlermeldung. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). Habe ich

python python-2.7 scikit-learn valueerror

Zählen Sie effizient Worthäufigkeiten in Python

6 Antworten

Ich würde gerne zählen, Frequenzen aller Wörter in einer text-Datei. >>> countInFile('test.txt') zurückkehren sollte {'aaa':1, 'bbb': 2, 'ccc':1} wenn der Ziel-text-Datei ist wie: # test.txt aaa bbb ccc bbb Ich habe es umgesetzt mit reinem python folgende

frequency-distribution nlp python scikit-learn word-count

Sklearn SGDC-Klassifizierer teilweise fit

1 Antworten

Ich versuche, SGD zu klassifizieren, die einen großen Datenbestand. Da die Daten zu groß, um fit in den Speicher, ich möchte die partial_fit Methode zum trainieren der Klassifizierer. Ich habe eine Stichprobe des Datensatzes (über 100.000 Zeilen),

gradient-descent machine-learning python scikit-learn

Geschichteter Zug / Test-Split in scikit-learn

5 Antworten

Muss ich spaltete meine Daten in eine Trainings-set (75%) und test-set (25%). Momentan mache ich das mit dem folgenden code: X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo) Allerdings würde ich gerne unterteilen, mein Trainings-dataset. Wie mache ich

python scikit-learn

Vorverarbeitung in scikit learn - Einzelprobe - Abschreibungswarnung

5 Antworten

Auf eine frische installation von Anaconda unter Ubuntu... ich bin Vorverarbeitung meine Daten auf verschiedene Weise vor, dass eine Klassifizierung der Aufgabe mit Scikit-Learn. from sklearn import preprocessing scaler = preprocessing.MinMaxScaler().fit(train) train = scaler.transform(train) test = scaler.transform(test)

deprecation-warning python scikit-learn

SVM in Python schneller ausführen

4 Antworten

Mithilfe der code unten für svm in python: from sklearn import datasets from sklearn.multiclass import OneVsRestClassifier from sklearn.svm import SVC iris = datasets.load_iris() X, y = iris.data, iris.target clf = OneVsRestClassifier(SVC(kernel='linear', probability=True, class_weight='auto')) clf.fit(X, y) proba =

python scikit-learn svm