Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

ImportError: cannot import name 'logsumexp' beim importieren sklearn.model_selection

Anzahl der Antworten 5 Antworten
War ich versucht, zu importieren sklearn.model_selection mit Jupiter Notebook unter anaconda-Umgebung mit python, 3.5, aber ich wurde gewarnt, dass ich nicht "model_selection" - Modul, so habe ich conda update scikit-learn. Danach erhielt ich eine Nachricht von ImportError:

Python-LSA mit Sklearn

Anzahl der Antworten 1 Antworten
Ich bin derzeit versuchen zu implementieren LSA mit Sklearn, um Synonyme zu finden in mehrere Dokumente. Hier ist mein Code: #import the essential tools for lsa from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from sklearn.decomposition import

import-Fehlermeldung, wenn ich testen scikit auf ubuntu12.04

Anzahl der Antworten 1 Antworten
Ich installieren möchte scikit auf ubuntu12.04 und ich folgte den Anweisungen auf die offizielle Dokumentation der Installationund geben Sie den folgenden Befehl in der bash: sudo apt-get install python-sklearn next I geben Sie die test-Anweisung nosetests sklearn

Scikits-Lernen RandomForrest trainiert auf 64-bit-python-Gewohnheit, offen auf 32bit python

Anzahl der Antworten 1 Antworten
Trainiere ich eine RandomForestRegressor-Modell auf 64-bit-python. Ich Gurke das Objekt. Wenn Sie versuchen, um unpickle das Objekt auf 32bit python erhalte ich die folgende Fehlermeldung: 'ValueError: Puffer, "dtype " mismatch", erwartet 'SIZE_t' aber hab 'lange, lange" Ich

python-Fehler Können damit nicht umgehen Mischung aus multiclass und kontinuierliche-multioutput

Anzahl der Antworten 1 Antworten
im immer diese Fehlermeldung "Can' T handle Mischung aus multiclass und kontinuierliche-multioutput " wenn ich versuche, um die Genauigkeit meines Modells. versucht herauszufinden, was ist goin auf, für eine Weile , aber ich habe keine Ahnung und

ValueError während der Verwendung Scikit lernen. Anzahl der Funktionen des Modells nicht übereinstimmen, dass der Eingang

Anzahl der Antworten 1 Antworten
Arbeite ich an einer Klassifizierung problem mit RandomForestClassifier. Im code bin ich Aufteilung des datasets in einen Zug-und test-Daten für die Vorhersagen getroffen werden. Hier der code: from sklearn.ensemble import RandomForestClassifier from sklearn.cross_validation import train_test_split import numpy

python - sklearn Latent Dirichlet Allocation Verwandeln v. Fittransform

Anzahl der Antworten 1 Antworten
Ich bin mit sklearn die NMF und LDA sub-Module zu analysieren, unbeschriftete text. Ich habe die Dokumentation gelesen aber ich bin nicht sicher, ob die transformieren-Funktionen in diesen Modulen (NMF und LDA) sind die gleichen wie die

upgrade auf dev-version von scikit-learn auf Anaconda?

Anzahl der Antworten 3 Antworten
Ich bin mit python durch Anaconda, und möchte eine neue Funktion (http://scikit-learn.org/dev/modules/neural_networks_supervised.html) in scikit-learn, die derzeit nur in der development version 0.18.dev0. Tun Sie jedoch die klassischen conda update scheint nicht zu funktionieren, wie conda Liste nicht

Was ist der Unterschied zwischen KFold und ShuffleSplit Lebenslauf?

Anzahl der Antworten 1 Antworten
Wie es scheint, KFold erzeugt die gleichen Werte, die jedes mal, wenn das Objekt der Iteration, während der Shuffle-Split erzeugt verschiedene Indizes zu jeder Zeit. Ist das richtig? Wenn ja, was sind die Anwendungen für einen über

TF*IDF für Suchanfragen

Anzahl der Antworten 1 Antworten
Okay, so habe ich die folgenden zwei Beiträge auf TF*IDF, bin aber etwas verwirrt : http://css.dzone.com/articles/machine-learning-text-feature Im Grunde, ich möchte erstellen Sie eine Suchanfrage enthält, durchsucht mehrere Dokumente. Ich möchte die scikit-learn-toolkit sowie die Bibliothek NLTK für

Wie Speichere ich eine TfidfVectorizer für die zukünftige Verwendung in scikit-learn?

Anzahl der Antworten 3 Antworten
Ich habe eine TfidfVectorizer dass vectorizes Sammlung von Artikeln, gefolgt von der Featureauswahl. vectroizer = TfidfVectorizer() X_train = vectroizer.fit_transform(corpus) selector = SelectKBest(chi2, k = 5000 ) X_train_sel = selector.fit_transform(X_train, y_train) Jetzt, ich möchten, speichern Sie diese und

sklearn log_loss unterschiedliche Anzahl von Klassen

Anzahl der Antworten 3 Antworten
Ich bin mit log_loss mit sklearn from sklearn.metrics import log_loss print log_loss(true, pred,normalize=False) und ich haben folgenden Fehler: ValueError: y_true and y_pred have different number of classes 38, 2 Es ist wirklich seltsam für mich, da die

Liste aller klassifikationsalgorithmen

Anzahl der Antworten 3 Antworten
Habe ich eine Klassifizierung problem und ich würde es gerne testen alle verfügbaren algorithmen zu testen, Ihre Leistung bei der überwindung des Problems. Wenn du keine Klassifizierung Algorithmus andere als diese, die unten aufgeführt, bitte Liste es

scikit-learn, wie zu wissen, Dokumente im cluster?

Anzahl der Antworten 2 Antworten
Ich bin neu sowohl python und scikit-learn, also bitte Geduld mit mir. Nahm ich den source code für die k-means-clustering-Algorithmus von k-means-clustering. Habe ich dann geändert, um auf meinem lokalen mittels load_file Funktion. Obwohl der Algorithmus beendet,

scikit-learn - ROC-Kurve mit Konfidenzintervall

Anzahl der Antworten 2 Antworten
Ich bin in der Lage, eine ROC-Kurve mit scikit-learn mit fpr, tpr, thresholds = metrics.roc_curve(y_true,y_pred, pos_label=1), wo y_true ist eine Liste von Werten basierend auf meinen gold-standard (d.h., 0 negativen 1 für positive Fälle) und y_pred ist

scikit-learn kernel-PCA erklärte Varianz

Anzahl der Antworten 3 Antworten
Habe ich mit dem normalen PCA von scikit-learn und erhalten Sie die Varianz-Verhältnisse für jede Hauptkomponente, ohne Probleme. pca = sklearn.decomposition.PCA(n_components=3) pca_transform = pca.fit_transform(feature_vec) var_values = pca.explained_variance_ratio_ Möchte ich erkunden verschiedene Kernel mit kernel-PCA und wollen auch

ValueError: leer Wortschatz; vielleicht sind die nur Dokumente enthalten, die stop-Wörter

Anzahl der Antworten 2 Antworten
Ich bin mit (zum ersten mal) die scikit-Bibliothek und ich habe diesen Fehler: ValueError: empty vocabulary; perhaps the documents only contain stop words File "C:\Users\A605563\Desktop\velibProjetPreso\TraitementTwitterDico.py", line 33, in <module> X_train_counts = count_vect.fit_transform(FileTweets) File "C:\Python27\Lib\site-packages\sklearn\feature_extraction\text.py", line 804, in

GridSearchCV scoring und grid_scores_

Anzahl der Antworten 1 Antworten
Ich versuche zu verstehen, wie sich die Werte der Torschütze für die GridSearchCV. Der Beispielcode stellt eine kleine pipeline auf text-Daten. Dann setzt es eine grid-search über verschiedene ngrams. Die Wertung erfolgt über die f1-Maß: #setup the

Konvertieren Sie mehrere Spalten eines pandas-Daten-frame zu dummy-Variablen - Python

Anzahl der Antworten 1 Antworten
Habe ich in diesem dataframe: Soweit ich weiß, verwenden die scikit lernen-Paket in Python für die Maschine gelehnt Aufgaben, die kategoriale Variablen umgewandelt werden soll, um dummy-Variablen. Also, zum Beispiel mit einer Bibliothek scikit lernen ich versuchen,

Batch gradient descent mit scikit lernen (sklearn)

Anzahl der Antworten 1 Antworten
Ich hab das Spiel mit einer one-vs-all Logistische Regression Klassifizierer mit Scikit-Learn (sklearn). Ich habe ein großes dataset, das ist zu langsam, alle auf einmal; auch ich möchte Studie der Lernkurve, wie die Ausbildung dauert. Ich möchte

Wie erhöhe ich die Richtigkeit meiner Linearen Regressionsmodell?(maschinelles lernen mit python)

Anzahl der Antworten 3 Antworten
Ich habe eine machine-learning-Projekt mit python mithilfe von scikit-learn Bibliothek. Ich habe zwei getrennte Datensätze für die Ausbildung und Prüfung, und ich versuche zu tun, die lineare regression. Ich verwenden Sie diesen codeblock unten gezeigt: import numpy

Wie man die Werte der jeweiligen Funktion aus sklearn.feature_selection.SelectKBest?

Anzahl der Antworten 1 Antworten
Ich versuche, die Punkte aller features von my data set. file_data = numpy.genfromtxt(input_file) y = file_data[:,-1] X = file_data[:,0:-1] x_new = SelectKBest(chi2, k='all').fit_transform(X,y) Bevor die erste Zeile von X hatte die "Feature-Namen" im string-format, aber ich war

sklearn-LinearRegression: could not convert string to float -: '--'

Anzahl der Antworten 2 Antworten
Ich versuche, mit einer LinearRegression aus sklearn und ich bin immer eine "Konnte nicht konvertiert einen string zu float'. Alle Spalten der dataframe sind float und der Ausgang y ist auch float. Ich habe mir andere Beiträge

NameError: name 'x_train' ist nicht definiert

Anzahl der Antworten 1 Antworten
ich bin neu in diesem, aber kann mir jemand sagen, was falsch ist es? Ich bin wirklich versucht zu tun, eine vorausschauende Analyse(lineare regression graph) auf der Grundlage der Daten habe ich im excel . Aber mein

Effiziente k-means-Auswertung mit silhouette score in sklearn

Anzahl der Antworten 2 Antworten
Ich bin mit k-means-clustering auf ~1 Mio Artikel (jeweils dargestellt als ~100-feature-Vektor). Ich habe das clustering für verschiedene k, und möchten nun eine Bewertung der unterschiedlichen Ergebnisse, die mit der silhouette Partitur umgesetzt sklearn. Versuch es mit

SKLearn MinMaxScaler - Skala nur bestimmte Spalten

Anzahl der Antworten 2 Antworten
Ich würde gerne zu skalieren einige (aber nicht alle) Spalten in ein Pandas dataFrame mit einem MinMaxScaler. Wie kann ich es tun? InformationsquelleAutor lte__ | 2017-05-07

ImportError: cannot import name inplace_column_scale

Anzahl der Antworten 7 Antworten
Mit Python 2.7 mit scikit-learn 0.14 Paket. Es läuft auch gut auf einige Beispiele aus der Benutzer Gilde erwarten, dass die Linearen Modelle. Traceback (most recent call last): File "E:\P\plot_ols.py", line 28, in <module> from sklearn import

Scikit-Learn: die Vorhersage, die neuen Punkte mit DBSCAN

Anzahl der Antworten 4 Antworten
Ich bin mit DBSCAN-cluster-einige Daten mithilfe von Scikit-Learn (Python 2.7): from sklearn.cluster import DBSCAN dbscan = DBSCAN(random_state=0) dbscan.fit(X) Allerdings fand ich, dass es keine built-in Funktion (abgesehen von "fit_predict") könnten ordnen Sie die neuen Daten Punkte, Y,

Mit scikit, um zu bestimmen, die Beiträge der einzelnen Features zu einer bestimmten Klasse Vorhersage

Anzahl der Antworten 4 Antworten
Ich bin mit einem scikit extra Bäume Klassifizierer: model = ExtraTreesClassifier(n_estimators=10000, n_jobs=-1, random_state=0) Einmal das Modell ist montiert und verwendet, um vorherzusagen, Klassen, würde ich mag, um herauszufinden, die Beiträge von jedem feature eine Klasse Vorhersage. Wie

Python 3 ImportError: cannot import name 'Modell-Auswahl' OS X 10.11.3, Anaconda

Anzahl der Antworten 1 Antworten
Python-3.5.1 |Anaconda 4.0.0 (x86_64)auf OS X 10.11.3 >>> from sklearn import pipeline, model_selection Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name 'model_selection' versucht: upgrade sechs, sk-lernen, sudo pip uninstall python-dateutil

Raster-Suche für hyperparameter evaluation von clustering in scikit-learn

Anzahl der Antworten 2 Antworten
Ich bin clustering eine Stichprobe von rund 100 Datensätze (unbeschrifteten) und versuchen, zu verwenden grid_search zur Bewertung der clustering Algorithmus mit verschiedenen hyperparameters. Ich bin scoring mit silhouette_score welche gut funktioniert. Mein problem hier ist, dass ich

wie entfernen Sie Spalten mit zu vielen fehlenden Werten in Python

Anzahl der Antworten 7 Antworten
Arbeite ich auf einer machine-learning-problem, in denen es viele fehlende Werte in den Funktionen. Es gibt 100 von den features, und ich möchte zu löschen, diese Funktionen, die zu viele fehlende Werte (es kann sein, Funktionen mit

scikit lernen, clf.fit / score-Modell-Genauigkeit

Anzahl der Antworten 1 Antworten
Ich bin ein Modell bauen clf sagen clf = MultinomialNB() clf.fit(x_train, y_train) dann will ich sehen, mein Modell Genauigkeit mit score clf.score(x_train, y_train) war das Ergebnis 0.92 Mein Ziel ist es zu testen, gegen den test, damit

Wie zu normalisieren, die Trainieren und Testen von Daten mit MinMaxScaler sklearn

Anzahl der Antworten 2 Antworten
So, ich habe diese Zweifel und die Suche nach Antworten. Die Frage ist also, wenn ich, from sklearn import preprocessing min_max_scaler = preprocessing.MinMaxScaler() df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y','Y','Y','Y','N','N','N','Y','N','Y','N','N','Y','Y']}) df[['A','B']] = min_max_scaler.fit_transform(df[['A','B']]) df['C'] = df['C'].apply(lambda x: 0 if x.strip()=='N' else

nächste Nachbar Suche kdTree

Anzahl der Antworten 3 Antworten
Einer Liste von N Punkte [(x_1,y_1), (x_2,y_2), ... ] ich bin auf der Suche nach den nächsten Nachbarn zu jedem Punkt auf der Grundlage der Entfernung. Meine Datenmenge ist zu groß, um zu verwenden, eine brute-force-Ansatz, so

Rückkehr Koeffizienten von Pipeline-Objekt in sklearn

Anzahl der Antworten 3 Antworten
Habe ich Passform eine Pipeline Objekt mit RandomizedSearchCV pipe_sgd = Pipeline([('scl', StandardScaler()), ('clf', SGDClassifier(n_jobs=-1))]) param_dist_sgd = {'clf__loss': ['log'], 'clf__penalty': [None, 'l1', 'l2', 'elasticnet'], 'clf__alpha': np.linspace(0.15, 0.35), 'clf__n_iter': [3, 5, 7]} sgd_randomized_pipe = RandomizedSearchCV(estimator = pipe_sgd, param_distributions=param_dist_sgd, cv=3,

Wie man mehr Gewicht auf bestimmte Funktionen im maschinellen lernen?

Anzahl der Antworten 1 Antworten
Wenn eine Bibliothek, wie scikit-learn, wie ordne ich mehr Gewicht auf bestimmte features in der Eingabe zu einem classifier wie SVM? Ist das etwas, was Menschen tun oder gibt es eine andere Lösung für mein problem? Warum

Pandas und scikit-learn: KeyError: [...] nicht im index

Anzahl der Antworten 1 Antworten
Verstehe ich nicht, warum erhalte ich die Fehlermeldung KeyError: '[ 1351 1352 1353 ... 13500 13501 13502] not in index' wenn ich diesen code ausführen: cv = KFold(n_splits=10) for train_index, test_index in cv.split(X): f_train_X, f_valid_X = X[train_index],

Kann nicht MNIST-Datenbank über Anaconda/jupyter

Anzahl der Antworten 8 Antworten
Hu Jungs, Ich bin neu in python/anaconda/jupyter/numPy, Pandas, usw.... also bitte entschuldigen Sie mich, wenn es eine wirklich dumme Frage. Ich versuche zu erhalten MNIST-Datenbank mithilfe von anaconda/jupyter. Doch jedesmal bekomme ich einen HTTP 500-Fehler am Ende.

Funktion, Bedeutung, Gewinnung von Entscheidungsbäumen (scikit-learn)

Anzahl der Antworten 1 Antworten
Ich habe versucht in den Griff zu bekommen, die auf die Bedeutung von Funktionen in einem Entscheidungsbaum habe ich modelliert. Ich bin interessiert an der Entdeckung des Gewichts der einzelnen Features ausgewählt, die in den Knoten als

Kann nicht scheinen, um zu importieren, scikit-learn ist MLPRegressor

Anzahl der Antworten 1 Antworten
So, ich bin versucht zu verwenden, scikit-learn ist MLPRegressor, aber python hält spucken zurück ImportError: No module named MLPRegressor. Ich bin versucht derzeit, verwenden Sie die syntax from sklearn.neural_network import MLPRegressor. Ich habe deinstalliert und neu installiert

Wie verwende ich einen TimeSeriesSplit mit einem GridSearchCV Objekt zu Stimmen, ein Modell in scikit-learn?

Anzahl der Antworten 1 Antworten
Ich gesucht habe die sklearn docs für TimeSeriesSplit und die docs für die cross-Validierung aber ich habe nicht in der Lage zu finden, ein funktionierendes Beispiel. Ich bin mit sklearn version 0.19. Dies ist mein setup import

Einfaches Beispiel mit BernoulliNB (naiver bayes-classifier) scikit-learn, die in python kann nicht erklären, Klassifizierung

Anzahl der Antworten 2 Antworten
Mit scikit-learn 0.10 Warum hat die folgenden trivialen code-snippet: from sklearn.naive_bayes import * import sklearn from sklearn.naive_bayes import * print sklearn.__version__ X = np.array([ [1, 1, 1, 1, 1], [0, 0, 0, 0, 0] ]) print "X:

Sklearn SVM: SVR und SVC, immer die gleiche Vorhersage für jeden Eingang.

Anzahl der Antworten 3 Antworten
Hier ist ein einfügen der code: SVM-sample-code Ich habe ein paar von den anderen Antworten auf dieses problem...und es scheint, wie diese bestimmte iteration das problem ist ein bisschen anders. First off, meine Eingänge sind normalisiert, und

Sklearn LabelEncoder wirft TypeError in der Art

Anzahl der Antworten 2 Antworten
Ich bin lernen maschinelles lernen Verwendung Titanic Datensatz von Kaggle. Ich bin mit LabelEncoder von sklearn zu transformieren text-Daten in numerische labels. Der folgende code funktioniert für "Sex" aber nicht für "Eingeschlagen". encoder = preprocessing.LabelEncoder() features["Sex"] =

Speicher effizienter Weg, um split große numpy-array zu trainieren und zu testen

Anzahl der Antworten 4 Antworten
Ich habe eine große numpy-array und wenn ich laufen scikit lernen ist train_test_split split das array in Trainings-und Testdaten, die ich ausführen immer in den Arbeitsspeicher-Fehler. Was wäre ein mehr-Speicher-effiziente Methode der Aufspaltung in Schulen und zu

Update/ install Python-scikit lernen neueste Entwickler-version in Windows

Anzahl der Antworten 3 Antworten
Ich versuche zu ersetzen/installieren meine Python scikit-learn 0.17.0 0,18.dev0 neueste Entwickler-version in Windows, so dass ich versuchen kann, aus sklearn.neural_network.MLPClassifier. Nach dem Lesen und versuchen, die erweiterte Bedienungsanleitung hier (http://scikit-learn.org/stable/developers/advanced_installation.html#install-bleeding-edge), bin ich irgendwie stecken. pip install -U

So passen Sie sklearn cross validation iterator durch Indizes?

Anzahl der Antworten 2 Antworten
Ähnlich Custom cross validation split sklearn ich definieren will meine eigenen splits für GridSearchCV, für die ich mich anpassen zu müssen, die eingebaute cross-Validierung iterator. Ich will meinen eigenen Zug-test Indizes für die cross-Validierung, um die GridSearch

scikit-learn-Standard Scaler - Holen Sie sich die Standardabweichung in der ursprünglichen, nicht skalierten Raum für GMM

Anzahl der Antworten 1 Antworten
Bevor Sie eine GMM-clustering-Modell, ich benutze eine standard-Scaler zu verwandeln, meine Daten in eine 0 bedeutet, 1 std dataset Haben dann durchgeführt, clustering, ich bin interessiert, die gelernt cluster zurück in den ursprünglichen Raum eher als die

Verständnis Gaussian Mixture Models

Anzahl der Antworten 1 Antworten
Ich versuche zu verstehen, die Ergebnisse aus der scikit-learn gaussian mixture-Modell-Implementierung. Werfen Sie einen Blick auf das folgende Beispiel: #!/opt/local/bin/python import numpy as np import matplotlib.pyplot as plt from sklearn.mixture import GaussianMixture # Define simple gaussian def