Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Sklearn, gridsearch: wie drucken Sie die Fortschritte bei der Durchführung?

Anzahl der Antworten 2 Antworten
Ich bin mit GridSearch aus sklearn zur Optimierung der Parameter des Klassifikators. Es gibt eine Menge von Daten, so dass der gesamte Prozess der Optimierung dauert eine Weile: mehr als einen Tag. Ich würde gerne zusehen, wie

Die Vorhersage, wie lange ein scikit-learn-Klassifikation wird dauern

Anzahl der Antworten 3 Antworten
Gibt es eine Möglichkeit, vorherzusagen, wie lange es dauern wird, führen Sie einen Klassifizierer von sci-kit lernen Sie, basierend auf den Parametern und datasets? Ich weiß, ziemlich meta, richtig? Einige Klassifikatoren/parameter-Kombinationen sind Recht schnell, und manche nehmen

Gibt es eine library-Funktion für Root-mean-square-error (RMSE) in python?

Anzahl der Antworten 8 Antworten
Ich weiß, ich könnte implementieren, die einen root-mean-squared-error-Funktion wie diese: def rmse(predictions, targets): return np.sqrt(((predictions - targets) ** 2).mean()) Was ich Suche, wenn dies rmse-Funktion ist implementiert in eine Bibliothek irgendwo, vielleicht in scipy oder scikit-learn? Sie

Sklearn set_params dauert genau 1 argument?

Anzahl der Antworten 5 Antworten
Ich versuche, SkLearn Bayes-Klassifizierung. gnb = GaussianNB() gnb.set_params('sigma__0.2') gnb.fit(np.transpose([xn, yn]), y) Aber ich bekommen: set_params() takes exactly 1 argument (2 given) nun ich versuche es mal mit diesem code: gnb = GaussianNB() arr = np.zeros((len(labs),len(y))) arr.fill(sigma) gnb.set_params(sigma_

Halten TFIDF-Ergebnis für die Vorhersage von neuen Inhalten mithilfe von Scikit für Python

Anzahl der Antworten 5 Antworten
Ich bin mit sklearn auf Python zu tun, einige clustering. Ich habe trainiert als 200.000 Daten, und der code unten funktioniert gut. corpus = open("token_from_xml.txt") vectorizer = CountVectorizer(decode_error="replace") transformer = TfidfTransformer() tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus)) km = KMeans(30)

sklearn und große datasets

Anzahl der Antworten 4 Antworten
Ich habe einen Datensatz von 22 GB. Ich möchte, um es zu verarbeiten auf meinem laptop. Natürlich kann ich nicht laden, es im Gedächtnis. Ich benutze eine Menge sklearn aber für viel kleinere Datensätze. In diesen Situationen

Panda get_dummies vs. Sklearn ist OneHotEncoder() :: Was sind die vor-und Nachteile?

Anzahl der Antworten 2 Antworten
Lerne ich verschiedene Methoden zur Umwandlung von kategorischen Variablen zu Numerik für machine-learning Classifier. Ich kam über die pd.get_dummies Methode und sklearn.preprocessing.OneHotEncoder() und ich wollte sehen, wie Sie unterschieden sich in Bezug auf Leistung und Verwendung. Fand

Python : Wie finde ich die Genauigkeit Ergebnis in der SVM-Text Classifier-Algorithmus für Multilabel-Klasse

Anzahl der Antworten 1 Antworten
Benutzt habe ich folgenden code: Und ich brauche, um zu überprüfen, die Genauigkeit der X_train und X_test Der folgende code funktioniert für mich in meinem classification problem in multi-Label-Klasse import numpy as np from sklearn.pipeline import Pipeline

Mit Scikit ist LabelEncoder richtig über mehrere Programme

Anzahl der Antworten 3 Antworten
Die grundlegende Aufgabe, die ich zur hand haben, ist a) Lesen Sie einige tab-getrennte Daten. b) führen Sie einige grundlegende Vorverarbeitung c) Für jede kategorische Spalte verwenden LabelEncoder um eine Zuordnung erstellen. Dies ist gar so etwas

Python - Eingabe enthält NaN, infinity oder ein Wert zu groß für dtype('float64')

Anzahl der Antworten 3 Antworten
Ich bin neu bei Python. Ich bin versucht, sklearn.cluster. Hier ist mein code: from sklearn.cluster import MiniBatchKMeans kmeans=MiniBatchKMeans(n_clusters=2) kmeans.fit(df) Aber ich bekomme die folgende Fehlermeldung: 50 and not np.isfinite(X).all()): 51 raise ValueError("Input contains NaN, infinity" ---> 52

Wie führen Sie die Vorhersage mit LDA (lineare DISKRIMINANZANALYSE) in scikit-learn?

Anzahl der Antworten 1 Antworten
Habe ich getestet, wie gut PCA und LDA arbeitet für die Klassifizierung von 3 verschiedenen Arten von image-tags möchte ich automatisch zu identifizieren. In meinem code, X ist meine Daten-matrix, wo jede Zeile werden die Pixel aus

Was bedeutet clf bedeutet maschinelles lernen?

Anzahl der Antworten 2 Antworten
Tun, wenn passend, ich komme immer über code wie clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train) (aus http://scikit-learn.org/stable/modules/cross_validation.html#k-fold) Was bedeutet clf steht für? Ich googelte herum, aber er fand keine Anhaltspunkte. InformationsquelleAutor cqcn1991 | 2015-12-31

Wie man SVMs schön zu spielen mit fehlenden Daten in scikit-learn?

Anzahl der Antworten 2 Antworten
Ich bin mit scikit-learn für einige Daten-Analyse, und mein Datensatz hat einige fehlende Werte (vertreten durch NA). Ich lade die Daten in die mit genfromtxt mit dtype='f8' und gehen über die Ausbildung meiner classifier. Die Einstufung ist

Python: wie zu normalisieren Verwirrung matrix?

Anzahl der Antworten 5 Antworten
Rechnete ich eine confusion matrix für meine Klassifizierer mit der Methode confusion_matrix() aus der sklearn Paket. Die diagonalen Elemente der confusion matrix darstellen, die Anzahl der Punkte, für die die vorhergesagten label ist gleich der wahr-label, während

TypeError: fit() fehlt 1 erforderliche positionelle argument: 'y'

Anzahl der Antworten 3 Antworten
Ich versuche zur Prognose von wirtschaftlichen Zyklen mit Gauß-Naive Bayes "Classifier". Daten (Eingang X) : SPY Interest Rate Unemployment Employment CPI Date 1997-01-02 56.05 7.82 9.7 3399.9 159.100 1997-02-03 56.58 7.65 9.8 3402.8 159.600 1997-03-03 54.09 7.90

Was sind die verschiedenen Anwendungsfälle von joblib versus Gurke?

Anzahl der Antworten 3 Antworten
Hintergrund: ich fange gerade mit scikit-learn, und Lesen Sie am unteren Rand der Seite über joblib, versus Gurke. kann es interessanter sein, zu verwenden joblib Ersatz von Gurke (joblib.dump & joblib.laden), die effizienter auf große Datenmengen, sondern

Genauigkeit Punktzahl ValueError: nicht Verarbeiten Kann mischen von binären und kontinuierlichen soll

Anzahl der Antworten 7 Antworten
Ich bin mit linear_model.LinearRegression von scikit-learn als ein prädiktives Modell aus. Es funktioniert und es ist perfekt. Ich habe ein problem, zu bewerten, die prognostizierten Ergebnisse mit der accuracy_score Metrik. Dies ist meine wahre Daten : array([1,

'Aus - /import' nicht erkannt wird als Befehl interne oder externe, betriebsbereiten Programm oder batch-Datei

Anzahl der Antworten 2 Antworten
Ich habe Probleme beim importieren von Machine-Learning-algorithmen von scikit-learn. Ich habe es installiert, aber wenn ich geben Sie zum Beispiel "von sklearn.naive_bayes import GaussianNB" heißt es: "'aus' ist, nicht erkannt wird als Befehl interne oder externe, betriebsbereiten

sklearn : TFIDF-Transformator : Wie man tf-idf-Werte der gegebenen Wörter im Dokument

Anzahl der Antworten 2 Antworten
Ich verwendet, sklearn für die Berechnung der TFIDF (Term frequency inverse document frequency) - Werte für Dokumente mit Befehl : from sklearn.feature_extraction.text import CountVectorizer count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(documents) from sklearn.feature_extraction.text import TfidfTransformer tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)

Einfache Möglichkeit zur Verwendung von parallel-Optionen von scikit-learn-Funktionen auf HPC

Anzahl der Antworten 1 Antworten
In vielen Funktionen von scikit-learn implementiert benutzerfreundliche Parallelisierung. Zum Beispiel in sklearn.cross_validation.cross_val_score Sie übergeben Sie einfach die gewünschte Anzahl der computational jobs in n_jobs argument. Und für den PC mit multi-core-Prozessor, es wird funktionieren, sehr nett. Aber

ValueError: kontinuierlich wird nicht unterstützt

Anzahl der Antworten 1 Antworten
Ich bin mit GridSearchCV für die cross-Validierung einer linearen regression (nicht ein Klassifikator noch eine Logistische regression). Benutze ich auch StandardScaler für die Normalisierung von X Mein dataframe hat 17 Funktionen (X) und 5-Zielen (y) (Beobachtungen). Um

Die Kombination von Grid-search-und cross-Validierung in scikit lernen

Anzahl der Antworten 1 Antworten
Zur Verbesserung der Support-Vector-Machine-Ergebnisse habe ich Netz Suche für die Suche nach besseren Parametern und cross-Validierung. Ich bin mir nicht sicher, wie Sie Sie kombinieren Sie in scikit-learn. Raster Suche die besten Parameter (http://scikit-learn.org/stable/modules/grid_search.html) und Kreuzvalidierung vermeiden

Speichern Vorhersage-Ergebnisse zu CSV

Anzahl der Antworten 2 Antworten
Ich bin die Speicherung der Ergebnisse von einem sklearn regression-Modell, um die varibla Vorhersage. prediction = regressor.predict(data[['X']]) print(prediction) Die Werte der Vorhersage Ausgabe sieht wie folgt aus [ 266.77832991 201.06347505 446.00066136 499.76736079 295.15519906 214.50514991 422.1043505 531.13126879 287.68760191

Entfernen von Komponenten mit geringer Varianz mit scikit-learn

Anzahl der Antworten 2 Antworten
scikit-learn bietet verschiedene Methoden zum entfernen von Deskriptoren, ein basic Methode für diesen Zweck wurde durch die gegebenen Anleitung unten, http://scikit-learn.org/stable/modules/feature_selection.html# aber das tutorial stellt keine Methode oder einen Weg, der Ihnen sagen kann die Art und

Get-U, Sigma, V* matrix aus Abgeschnittenen SVD in scikit-learn

Anzahl der Antworten 6 Antworten
Ich bin mit abgeschnittenen SVD von scikit-learn Paket. In der definition des SVD, ein original matrix Eine ist approxmated als ein Produkt EINE ≈ UΣV* wo U und V haben, Spalten orthonormal, und Σ ist nicht-negativer Diagonale. Ich

.arff-Dateien mit scikit-learn?

Anzahl der Antworten 4 Antworten
Möchte ich ein Attribute-Relation File Format mit scikit-learn, um einige der NLP-Aufgabe, ist das möglich? Wie kann ein .arff - Datei mit scikit-learn? InformationsquelleAutor tumbleweed | 2014-12-03

Unterschied zwischen der Verwendung train_test_split und cross_val_score in sklearn.cross_validation

Anzahl der Antworten 1 Antworten
Ich habe eine matrix mit 20 Spalten. Die Letzte Spalte 0/1 labels. Den link zu den Daten ist hier. Ich versuche zu laufen random forest auf das dataset, mit cross validation. Ich verwende zwei Methoden, dies zu

Die Visualisierung einer Entscheidung Baum ( Beispiel aus der scikit-learn )

Anzahl der Antworten 2 Antworten
Ich bin ein noob in mit sciki-lernen, also bitte Geduld mit mir. Ging ich durch das Beispiel: http://scikit-learn.org/stable/modules/tree.html#tree >>> from sklearn.datasets import load_iris >>> from sklearn import tree >>> iris = load_iris() >>> clf = tree.DecisionTreeClassifier() >>>

Unbekannt label Typ sklearn

Anzahl der Antworten 1 Antworten
Ich 'm neu in sklearn. Ich 'm versuchen zu tun, dieser code data = pandas.read_csv('titanic.csv') data= data[data['Pclass'].notnull() & data['Sex'].notnull() & data['Age'].notnull() & data['Fare'].notnull()] test = data.loc[:,['Pclass','Sex','Age','Fare']] target = data.loc[:,['Survived']] test = test.replace(to_replace=['male','female'],value=[1,0]) clf=DecisionTreeClassifier(random_state=241) clf.fit(target,test) Und ich sah

Speichern MinMaxScaler Modell in sklearn

Anzahl der Antworten 4 Antworten
Ich bin mit der MinMaxScaler Modell in sklearn zu normalisieren, die Funktionen eines Modells. training_set = np.random.rand(4,4)*10 training_set [[ 6.01144787, 0.59753007, 2.0014852 , 3.45433657], [ 6.03041646, 5.15589559, 6.64992437, 2.63440202], [ 2.27733136, 9.29927394, 0.03718093, 7.7679183 ], [ 9.86934288,

Fitting Daten vs. transformieren von Daten in scikit-learn

Anzahl der Antworten 3 Antworten
In scikit-learn, alle Schätzer haben eine fit() Methode, und je nachdem, ob Sie werden beaufsichtigt oder unbeaufsichtigt, Sie haben auch eine predict() oder transform() Methode. Ich bin in den Prozess des Schreibens ein Transformator für ein unüberwachtes

Wenn die Skalierung der Daten, warum der Zug dataset verwenden Sie 'passen' und 'transformieren', aber das test-dataset verwenden Sie nur 'verwandeln'?

Anzahl der Antworten 5 Antworten
Wenn die Skalierung der Daten, warum der Zug dataset verwenden Sie 'passen' und 'transformieren', aber das test-dataset verwenden Sie nur 'verwandeln'? SAMPLE_COUNT = 5000 TEST_COUNT = 20000 seed(0) sample = list() test_sample = list() for index, line

cluster-Punkte nach dem KMeans-clustering (scikit lernen)

Anzahl der Antworten 2 Antworten
Habe ich getan clustering mit Kmeans mit sklearn. Während es eine Methode zum drucken der centroide, ich finde es eher bizzare, dass scikit-learn nicht haben eine Methode zum drucken der cluster-Punkte der einzelnen cluster (oder ich habe

SKLearn: TypeError: __init__() got an unexpected keyword argument n_splits

Anzahl der Antworten 2 Antworten
Ich versuche, SKLearn (version 0.18.1) wie folgt: from sklearn.model_selection import KFold kfold = KFold(n_splits=5, random_state=100) Aber bekomme ich diese seltsame Fehlermeldung: --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-17-b8dd4f5596be> in <module>() ----> 1 kfold = KFold(k=5, random_state=100)

sklearn train_test_split auf pandas Schichten von mehreren Spalten

Anzahl der Antworten 3 Antworten
Ich bin ein relativ neuer Benutzer sklearn und führen Sie in eine unerwartete Verhalten in train_test_split von sklearn.model_selection. Ich habe ein pandas dataframe, dass ich möchte, aufgeteilt in eine Trainings-und Testsatz. Ich möchte zu Schichten, dass meine

verwandeln scipy spärlich csr-pandas?

Anzahl der Antworten 2 Antworten
Habe ich die sklearn.preprocessing.OneHotEncoder verwandeln einige Daten die Ausgabe ist scipy.sparse.csr.csr_matrix wie kann ich merge es dann wieder in meiner ursprünglichen dataframe zusammen mit den anderen Spalten? Habe ich versucht zu verwenden pd.concat aber ich bekomme TypeError:

TFIDF für Große Datasets

Anzahl der Antworten 2 Antworten
Habe ich ein Korpus, das rund 8 Millionen news-Artikel, die ich brauche, um die TFIDF Repräsentation von Ihnen als sparse-matrix. Ich war in der Lage, das zu tun, mit scikit-learn für die relativ geringere Zahl der Proben,

GridSearchCV extrem langsam auf kleine dataset in scikit-learn

Anzahl der Antworten 2 Antworten
Dies ist ungerade. Kann ich erfolgreich führen Sie das Beispiel grid_search_digits.py. Allerdings bin ich nicht in der Lage zu tun, ein grid-search auf meinen eigenen Daten. Habe ich Folgendes setup: import sklearn from sklearn.svm import SVC from

tensorflow: speichern und wiederherstellen der Sitzung

Anzahl der Antworten 1 Antworten
Ich versuche umzusetzen, ein Vorschlag aus den Antworten: Tensorflow: wie speichern/wiederherstellen-ein Modell??? Ich habe ein Objekt, das umschließt eine tensorflow Modell in einer sklearn Stil. import tensorflow as tf class tflasso(): saver = tf.train.Saver() def __init__(self, learning_rate

Sklearn versuchen, zu konvertieren string-Liste zu schwimmt

Anzahl der Antworten 2 Antworten
Ich versuche, eine sklearn.svm.SVC(kernel="linear") - Algorithmus arbeiten. Mein X ist ein array gemacht mit [misc.imread(each).flatten() for each in filenames] und meine y2 ist ein Teil einer Liste aus strings wie ["A","1","4","F"..]. Wenn ich versuche clf.fit(X,y2), sklearn versucht

scikit-learn TfidfVectorizer Bedeutung?

Anzahl der Antworten 3 Antworten
Ich war Lesung über TfidfVectorizer Umsetzung von scikit-learn, i dont verstehen, was die Ausgabe der Methode, zum Beispiel: new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Jane loves to play baseball'] new_term_freq_matrix =

Kosinus-ähnlichkeit zwischen den einzelnen Zeilen in einen Dataframe in Python

Anzahl der Antworten 1 Antworten
Ich habe einen DataFrame mit mehreren Vektoren mit jeweils 3 Einträge. Jede Zeile ist ein Vektor in meiner Darstellung. Ich brauchte zur Berechnung der Kosinus-ähnlichkeit zwischen diesen Vektoren. Die Umwandlung dieser in eine matrix-Darstellung ist besser, oder

Multinomial Naive Bayes-parameter alpha-Einstellung? scikit-learn

Anzahl der Antworten 1 Antworten
Nicht jeder weiß, wie der parameter alpha, wenn dabei die naive bayes-Klassifikation? E. g. Ich benutzte Tasche der Wörter, die Erstens zu bauen, der feature-matrix und jede Zelle der matrix ist, zählt Wörter, und ich habe dann

Python MemoryError, wenn dabei die Montage mit Scikit-learn

Anzahl der Antworten 2 Antworten
Ich verwende Python 2.7 (64-bit) auf eine Windows 8 64-bit-system mit 24GB Speicher. Bei der Montage der üblichen Sklearn.linear_models.Ridge, der code läuft einwandfrei. Problem: Allerdings, wenn Sie Sklearn.linear_models.RidgeCV(alphas=alphas) für den Einbau, ich Lauf in den MemoryError Fehler

Imputer auf einige Dataframe Spalten in Python

Anzahl der Antworten 4 Antworten
Bin ich lernen, wie man Imputer auf Python. Dies ist mein code: df=pd.DataFrame([["XXL", 8, "black", "class 1", 22], ["L", np.nan, "gray", "class 2", 20], ["XL", 10, "blue", "class 2", 19], ["M", np.nan, "orange", "class 1", 17], ["M",

Die Verwendung von kategorischen Daten als features in sklean LogisticRegression

Anzahl der Antworten 3 Antworten
Ich versuche zu verstehen, wie die Verwendung von kategorischen Daten als features in sklearn.linear_model's LogisticRegression. Verstehe ich natürlich, die ich brauche, um zu verschlüsseln. Was ich nicht verstehe, ist, wie pass die codierte Funktion der Logistischen regression

Verständnis "score" zurück, die von scikit-learn KMeans

Anzahl der Antworten 3 Antworten
Bewarb ich mich clustering auf eine Reihe von text-Dokumente (über 100). Ich konvertiert Sie zu Tfidf Vektoren mit TfIdfVectorizer und versorgt die Vektoren als Eingabe für scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10). Wenn ich jetzt model.fit() print model.score() auf

Was sind die Parameter für sklearn die score-Funktion?

Anzahl der Antworten 4 Antworten
Ich vor kurzem sah einen Haufen sklearn tutorials, die waren alle ähnlich, dass Sie das erzielte Anpassungsgüte von: clf.fit(X_train, y_train) clf.score(X_test, y_test) Und es werde ausgespuckt: 0.92345... oder eine andere Punktzahl. Ich bin neugierig, wie die Parameter

so Laden Sie CSV-Daten in scikit und für Naive Bayes-Klassifikation

Anzahl der Antworten 1 Antworten
Versuchen zu laden, benutzerdefinierte Daten zu erfüllen NB Einstufung in Scikit. Brauche Hilfe beim laden der Beispiel-Daten in Scikit und führen Sie dann NB. Gewusst wie: laden Sie die kategorischen Werte für target. Verwenden Sie die gleichen

wo freeze_support() in ein Python-script?

Anzahl der Antworten 1 Antworten
Bin ich verwirrt über die Verwendung freeze_support() für multiprocessing und ich bekomme eine Runtime Error ohne es. Ich bin nur ein Skript ausgeführt wird, nicht die Definition einer Funktion oder eines Moduls. Kann ich die dennoch benutzen?