Tag: scikit-learn
scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).
5
Antworten
Mir fällt es schwer zu verstehen, wie zu beheben eine Pipeline, die ich erstellt (gelesen: groß eingefügt von einem tutorial). Es ist python 3.4.2: df = pd.DataFrame df = DataFrame.from_records(train) test = [blah1, blah2, blah3] pipeline =
4
Antworten
Wie kann ich wissen, sample die Wahrscheinlichkeit, dass es gehört zu einer Klasse vorhergesagt durch das predict () - Funktion von Scikit-Learn im Support-Vector-Machine? >>>print clf.predict([fv]) [5] Gibt es irgendeine Funktion? InformationsquelleAutor der Frage postgres | 2013-02-22
2
Antworten
Als R Benutzer, ich haben wollte, auch bekommen Sie bis zu Geschwindigkeit auf scikit. Begann mit Linear -, Ridge-und Lasso. Ich habe gegangen durch die Beispiele. Unten ist für die basic-OLS. Einrichten das Modell(s) ist wohl auch
1
Antworten
Nach der Ermittlung der optimalen Parameter mit einem pipeline und GridSearchCVwie kann ich pickle/joblib diesem Prozess die spätere Wiederverwendung? Ich sehe, wie Sie dies tun, wenn es einen einzelnen Klassifikator... from sklearn.externals import joblib joblib.dump(clf, 'filename.pkl') Aber
1
Antworten
Wie kann ich die eigen Werte und eigen Vektoren der PCA-Anwendung? from sklearn.decomposition import PCA clf=PCA(0.98,whiten=True) #converse 98% variance X_train=clf.fit_transform(X_train) X_test=clf.transform(X_test) Ich kann es nicht finden in docs. 1.Ich bin "nicht" in der Lage zu verstehen, die
3
Antworten
Habe ich ein Pandas DataFrame mit einem date Spalte (zB: 2013-04-01) dtype datetime.date. Wenn ich die Spalte in X_train und versuchen Sie, sich das Regressionsmodell, bekomme ich die Fehlermeldung float() argument must be a string or a
2
Antworten
Ich studiere einen scikit-learn Beispiel (Classifier-Vergleich) und verwirrt mit predict_proba und decision_function. Sie eine Darstellung der klassifikationsergebnisse durch die Zeichnung der Konturen mit entweder Z = clf.decision_function() oder Z = clf.predict_proba(). Was ist der Unterschied zwischen diesen
2
Antworten
Ich bin immer eine neue deprecation Warnung in einem IPython notebook, die ich schrieb, habe ich nicht gesehen. Was ich sehe, ist folgende: X,y = load_svmlight_file('./GasSensorArray/batch2.dat') /Users/cpd/.virtualenvs/py27-ipython+pandas/lib/python2.7/site-packages/sklearn/datasets/svmlight_format.py:137: DeprecationWarning: using a non-integer number instead of an integer will
2
Antworten
Habe ich folgenden code zum testen einige der beliebtesten ML-algorithmen sklearn python-Bibliothek: import numpy as np from sklearn import metrics, svm from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier
3
Antworten
Ich versuche, mit AdaBoostClassifier mit einem base-learner andere als DecisionTree. Ich habe versucht, SVM und KNeighborsClassifier aber ich bekomme Fehler. Kann jemand Punkt aus den Klassifikatoren, die verwendet werden können mit AdaBoostClassifier? InformationsquelleAutor der Frage vdesai |
4
Antworten
Sagen, ich habe einen dataframe in Pandas wie folgt: > my_dataframe col1 col2 A foo B bar C something A foo A bar B foo wo die Zeilen stellen Instanzen und Spalten-Eingabe-Funktionen (zeigt nicht das Ziel-label, aber
3
Antworten
Ich versuche zu join zwei numpy-arrays. In einem habe ich eine Reihe von Spalten/Funktionen nach dem ausführen von TF-IDF auf eine einzelne Spalte der text. In der anderen habe ich eine Spalte/Funktion, die eine Ganzzahl ist. So
3
Antworten
Ich brauche, um die beliebtesten ngrams von text. Ngrams Länge muss zwischen 1 bis 5 Worte. Weiß ich, wie man bigrame und Trigramme. Zum Beispiel: bigram_measures = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(words) finder.apply_freq_filter(3) finder.apply_word_filter(filter_stops) matches1 = finder.nbest(bigram_measures.pmi, 20)
1
Antworten
Ich bin mit TfidfVectorizer von scikit-learn, um einige der feature-Extraktion von text-Daten. Ich habe eine CSV-Datei mit einem Score (+1 oder -1) und eine Rezension (text). Zog ich diese Daten in einem DataFrame so kann ich den
3
Antworten
Habe ich eine sentiment-Analyse-Aufgabe, für diese Im mit dieser corpus die Meinung haben 5 Klassen (very negnegneuposvery pos), von 1 bis 5. Also ich mache die Klassifizierung wie folgt: from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np
3
Antworten
Bin ich beim Lesen eine Reihe von RTF-Dateien in python-Zeichenketten. Auf EINIGE Texte, die ich bekomme diese Fehlermeldung: Traceback (most recent call last): File "11.08.py", line 47, in <module> X = vectorizer.fit_transform(texts) File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 716, in
1
Antworten
Ich bin mit scikit-learn und numpy und ich möchte, um die Globale Saatgut so, dass meine Arbeit reproduzierbar ist. Sollte ich numpy.random.seed oder random.seed? Edit: Aus dem link in die Kommentare, ich verstehe, dass Sie anders sind,
2
Antworten
Kurze version: ich war mit der scikit LinearRegression über einige Daten, aber ich bin verwendet, um p-Werte, so legen die Daten in die statsmodels OLS, und zwar R^2 ist etwa die gleiche variable Koeffizienten sind alle Verschieden
3
Antworten
Wie bekomme ich die original-Indizes der Daten bei der Nutzung train_test_split()? Was ich habe, ist die folgende from sklearn.cross_validation import train_test_split import numpy as np data = np.reshape(np.randn(20),(10,2)) # 10 training examples labels = np.random.randint(2, size=10) #
2
Antworten
folgenden Beispiel Demo des DBSCAN clustering-Algorithmus von Scikit Lernen, ich bin versucht zu speichern in einem array die x -, y-jedes clustering-Klasse import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.datasets.samples_generator import
1
Antworten
Scikit-learn ist CountVectorizer - Klasse können Sie eine Zeichenfolge übergeben 'Deutsch' auf das argument stop_words. Ich möchte einige Dinge hinzufügen, um diese vordefinierten Liste. Kann mir jemand sagen, wie dies zu tun? InformationsquelleAutor der Frage panterasBox |
3
Antworten
Ich installiert scikit-learn von GitHub vor ein paar Wochen: pip install git+git://github.com/scikit-learn/scikit-learn@master Ging ich auf GitHub und es wurden mehrere änderungen an der master-branch seitdem. Wie kann ich ein update für meine lokale installation von scikit-learn? Versuchte
3
Antworten
Ich habe zwei Probleme mit Verständnis das Ergebnis des Entscheidungsbaum von scikit-learn. Dies ist zum Beispiel einer meiner Entscheidung Bäume: Meine Frage ist, wie kann ich mit dem Baum? Die erste Frage ist die: wenn eine Probe
4
Antworten
Ich versuche, preform-rekursive Funktion elimination mit scikit-learn und ein random forest Klassifikator, mit OOB-ROC-wie ein Tor erzielt wird jede Teilmenge angelegt, die während der rekursiven Prozess. Jedoch, wenn ich versuche, die RFECV Methode, bekomme ich eine Fehlermeldung
3
Antworten
Habe ich Probleme mit RandomForest fit-Funktion Dies ist mein Trainings-set P1 Tp1 IrrPOA Gz Drz2 0 0.0 7.7 0.0 -1.4 -0.3 1 0.0 7.7 0.0 -1.4 -0.3 2 ... ... ... ... ... 3 49.4 7.5 0.0
1
Antworten
Aus der Dokumentation scikit-learn implementiert SVC, NuSVC und LinearSVC die Klassen in der Lage die Durchführung multi-class-Klassifizierung, die auf ein dataset. Von der anderen Seite habe ich auch schon gelesen, dass scikit lernen, verwendet auch libsvm für
9
Antworten
Baue ich einige prädiktive Modelle in Python und habe mit scikits lernen die SVM-Implementierung. Es war wirklich toll, einfach zu bedienen, und relativ schnell. Leider bin ich allmählich eingeschränkt durch meine Laufzeit. Ich betreibe ein rbf SVM
1
Antworten
Bin ich mit einer Kombination von NLTK und scikit-learn's CountVectorizer für Wortstamm Wörter und tokenisierung. Unten ist ein Beispiel der einfachen Nutzung der CountVectorizer: from sklearn.feature_extraction.text import CountVectorizer vocab = ['The swimmer likes swimming so he swims.']
1
Antworten
Habe ich eine binäre Vorhersage-Modell ausgebildet, die von logistic regression-Algorithmus. Ich möchte wissen, welche Merkmale(Prädiktoren) sind wichtiger für die Entscheidung positive oder negative Klasse. Ich weiß, es ist coef_ parameter kommt aus der scikit-learn Paket, aber ich
1
Antworten
Ich in der Regel erhalten Sie PCA Belastungen wie diese: pca = PCA(n_components=2) X_t = pca.fit(X).transform(X) loadings = pca.components_ Wenn ich PCA mit einem scikit-learn pipline ... from sklearn.pipeline import Pipeline pipeline = Pipeline(steps=[ ('scaling',StandardScaler()), ('pca',PCA(n_components=2)) ])
5
Antworten
Ich versuche, mit train_test_split von scikit-Paket Lernen, aber ich habe Probleme mit der parameter -stratify. Nachfolgend ist der code: from sklearn import cross_validation, datasets X = iris.data[:,:2] y = iris.target cross_validation.train_test_split(X,y,stratify=y) Aber, ich erhalte die folgende problem:
8
Antworten
Mein code ist, Folgen Sie der Klasse des maschinellen Lernens von google.Die beiden Codes gleich sind.Ich weiß nicht, warum es den Fehler anzeigen.Kann der Typ der variable error.Aber google ' s code ist mir gleich.Wer hat schon
1
Antworten
Ich Frage mich, ob es gibt Klassifizierer, Griff nan/null-Werte in scikit-learn. Ich dachte, random forest regressor dies handhabt, aber ich bekam eine Fehlermeldung, wenn ich rufe predict. X_train = np.array([[1, np.nan, 3],[np.nan, 5, 6]]) y_train = np.array([1,
1
Antworten
Wenn ich den folgenden code mit Data-matrix - X Größe (952,144) und output Vektor y Größe (952), mean_squared_error Metrik gibt negative Werte, was ist unerwartet. Haben Sie eine Idee? from sklearn.svm import SVR from sklearn import cross_validation
5
Antworten
Ich habe ein kleines corpus und ich möchte, um die Richtigkeit der Berechnung der naive Bayes-Klassifikator mit 10-fold cross validation, wie Sie es tun können. InformationsquelleAutor der Frage user2284345 | 2013-05-04
3
Antworten
Habe ich die Arbeit mit den CountVectorizer Klasse in scikit-learn. Ich verstehe, dass, wenn Sie in der Weise angezeigt, unten die endgültige Ausgabe aus einem array, Grafen von Funktionen, oder Token. Diese Token extrahiert aus einer Reihe
2
Antworten
Muss ich implementieren scikit-learn ist kMeans für das clustering von Textdokumenten. Die Beispielcode funktioniert gut, wie es ist, aber dauert einige 20newsgroups-Daten als Eingabe. Ich möchte den gleichen code für das clustering eine Liste von Dokumenten, wie
4
Antworten
Arbeite ich in einer sentiment-Analyse problem der Daten sieht wie folgt aus: label instances 5 1190 4 838 3 239 1 204 2 127 Also meine Daten unausgeglichen ist seit 1190 instances sind beschriftet mit 5. Für
2
Antworten
Ich bin verloren in der scikit lernen 0.18 Benutzerhandbuch (http://scikit-learn.org/dev/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier): hidden_layer_sizes : tuple, length = n_layers - 2, default (100,) The ith element represents the number of neurons in the ith hidden layer. Wenn ich Suche, nur
3
Antworten
Ich versuche zu laufen, eine Zone die PCA auf eine matrix der Dimensionen m x n, wobei m die Anzahl der features und n die Anzahl der samples. Angenommen, ich möchte die Erhaltung der nf Funktionen mit
2
Antworten
Habe ich bemerkt, dass, wenn Ein Hot-Codierung verwendet wird, auf einen bestimmten Datensatz (einer matrix), und als Trainingsdaten für das lernen von algorithmen, es gibt deutlich bessere Ergebnisse hinsichtlich der Vorhersage-Genauigkeit im Vergleich zu der ursprünglichen matrix
4
Antworten
Habe ich ein pandas dataframe mit gemischten Spalten, und ich möchte gelten sklearn ist min_max_scaler, um einige der Spalten. Im Idealfall würde ich gerne tun, diese Transformationen im Ort, aber habe noch nicht herausgefunden, wie man das
12
Antworten
Kann ich Extrakt der zugrunde liegenden Entscheidung-Regeln (oder 'Entscheidungswege') von einem geschulten Baum in einem Entscheidungsbaum, wie eine textuelle Liste? Etwas wie: if A>0.4 then if B<0.2 then if C>0.8 then class='X' Vielen Dank für Ihre Hilfe.
10
Antworten
Ich bin neu in maschinelles lernen und in scikit-learn. Mein problem: (Bitte, korrigieren Sie jede Art von missconception) Ich habe ein dataset, das eine GROßE JSON, ich es abrufen und speichern Sie es in einem trainList variable.
10
Antworten
Ich bin mit sklearn und habe ein problem mit dem affinity propagation. Ich habe gebaut ein input-matrix und ich bekomme immer folgende Fehlermeldung. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). Habe ich
6
Antworten
Ich würde gerne zählen, Frequenzen aller Wörter in einer text-Datei. >>> countInFile('test.txt') zurückkehren sollte {'aaa':1, 'bbb': 2, 'ccc':1} wenn der Ziel-text-Datei ist wie: # test.txt aaa bbb ccc bbb Ich habe es umgesetzt mit reinem python folgende
1
Antworten
Ich versuche, SGD zu klassifizieren, die einen großen Datenbestand. Da die Daten zu groß, um fit in den Speicher, ich möchte die partial_fit Methode zum trainieren der Klassifizierer. Ich habe eine Stichprobe des Datensatzes (über 100.000 Zeilen),
5
Antworten
Muss ich spaltete meine Daten in eine Trainings-set (75%) und test-set (25%). Momentan mache ich das mit dem folgenden code: X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo) Allerdings würde ich gerne unterteilen, mein Trainings-dataset. Wie mache ich
5
Antworten
Auf eine frische installation von Anaconda unter Ubuntu... ich bin Vorverarbeitung meine Daten auf verschiedene Weise vor, dass eine Klassifizierung der Aufgabe mit Scikit-Learn. from sklearn import preprocessing scaler = preprocessing.MinMaxScaler().fit(train) train = scaler.transform(train) test = scaler.transform(test)
4
Antworten
Mithilfe der code unten für svm in python: from sklearn import datasets from sklearn.multiclass import OneVsRestClassifier from sklearn.svm import SVC iris = datasets.load_iris() X, y = iris.data, iris.target clf = OneVsRestClassifier(SVC(kernel='linear', probability=True, class_weight='auto')) clf.fit(X, y) proba =