Tag: scikit-learn
scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).
ImportError: cannot import name 'logsumexp' beim importieren sklearn.model_selection

War ich versucht, zu importieren sklearn.model_selection mit Jupiter Notebook unter anaconda-Umgebung mit python, 3.5, aber ich wurde gewarnt, dass ich nicht "model_selection" - Modul, so habe ich conda update scikit-learn. Danach erhielt ich eine Nachricht von ImportError:
Python-LSA mit Sklearn

Ich bin derzeit versuchen zu implementieren LSA mit Sklearn, um Synonyme zu finden in mehrere Dokumente. Hier ist mein Code: #import the essential tools for lsa from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from sklearn.decomposition import
import-Fehlermeldung, wenn ich testen scikit auf ubuntu12.04

Ich installieren möchte scikit auf ubuntu12.04 und ich folgte den Anweisungen auf die offizielle Dokumentation der Installationund geben Sie den folgenden Befehl in der bash: sudo apt-get install python-sklearn next I geben Sie die test-Anweisung nosetests sklearn
Scikits-Lernen RandomForrest trainiert auf 64-bit-python-Gewohnheit, offen auf 32bit python

Trainiere ich eine RandomForestRegressor-Modell auf 64-bit-python. Ich Gurke das Objekt. Wenn Sie versuchen, um unpickle das Objekt auf 32bit python erhalte ich die folgende Fehlermeldung: 'ValueError: Puffer, "dtype " mismatch", erwartet 'SIZE_t' aber hab 'lange, lange" Ich
python-Fehler Können damit nicht umgehen Mischung aus multiclass und kontinuierliche-multioutput

im immer diese Fehlermeldung "Can' T handle Mischung aus multiclass und kontinuierliche-multioutput " wenn ich versuche, um die Genauigkeit meines Modells. versucht herauszufinden, was ist goin auf, für eine Weile , aber ich habe keine Ahnung und
ValueError während der Verwendung Scikit lernen. Anzahl der Funktionen des Modells nicht übereinstimmen, dass der Eingang

Arbeite ich an einer Klassifizierung problem mit RandomForestClassifier. Im code bin ich Aufteilung des datasets in einen Zug-und test-Daten für die Vorhersagen getroffen werden. Hier der code: from sklearn.ensemble import RandomForestClassifier from sklearn.cross_validation import train_test_split import numpy
python - sklearn Latent Dirichlet Allocation Verwandeln v. Fittransform

Ich bin mit sklearn die NMF und LDA sub-Module zu analysieren, unbeschriftete text. Ich habe die Dokumentation gelesen aber ich bin nicht sicher, ob die transformieren-Funktionen in diesen Modulen (NMF und LDA) sind die gleichen wie die
upgrade auf dev-version von scikit-learn auf Anaconda?

Ich bin mit python durch Anaconda, und möchte eine neue Funktion (http://scikit-learn.org/dev/modules/neural_networks_supervised.html) in scikit-learn, die derzeit nur in der development version 0.18.dev0. Tun Sie jedoch die klassischen conda update scheint nicht zu funktionieren, wie conda Liste nicht
Was ist der Unterschied zwischen KFold und ShuffleSplit Lebenslauf?

Wie es scheint, KFold erzeugt die gleichen Werte, die jedes mal, wenn das Objekt der Iteration, während der Shuffle-Split erzeugt verschiedene Indizes zu jeder Zeit. Ist das richtig? Wenn ja, was sind die Anwendungen für einen über
TF*IDF für Suchanfragen

Okay, so habe ich die folgenden zwei Beiträge auf TF*IDF, bin aber etwas verwirrt : http://css.dzone.com/articles/machine-learning-text-feature Im Grunde, ich möchte erstellen Sie eine Suchanfrage enthält, durchsucht mehrere Dokumente. Ich möchte die scikit-learn-toolkit sowie die Bibliothek NLTK für
Wie Speichere ich eine TfidfVectorizer für die zukünftige Verwendung in scikit-learn?

Ich habe eine TfidfVectorizer dass vectorizes Sammlung von Artikeln, gefolgt von der Featureauswahl. vectroizer = TfidfVectorizer() X_train = vectroizer.fit_transform(corpus) selector = SelectKBest(chi2, k = 5000 ) X_train_sel = selector.fit_transform(X_train, y_train) Jetzt, ich möchten, speichern Sie diese und
sklearn log_loss unterschiedliche Anzahl von Klassen

Ich bin mit log_loss mit sklearn from sklearn.metrics import log_loss print log_loss(true, pred,normalize=False) und ich haben folgenden Fehler: ValueError: y_true and y_pred have different number of classes 38, 2 Es ist wirklich seltsam für mich, da die
Liste aller klassifikationsalgorithmen

Habe ich eine Klassifizierung problem und ich würde es gerne testen alle verfügbaren algorithmen zu testen, Ihre Leistung bei der überwindung des Problems. Wenn du keine Klassifizierung Algorithmus andere als diese, die unten aufgeführt, bitte Liste es
scikit-learn, wie zu wissen, Dokumente im cluster?

Ich bin neu sowohl python und scikit-learn, also bitte Geduld mit mir. Nahm ich den source code für die k-means-clustering-Algorithmus von k-means-clustering. Habe ich dann geändert, um auf meinem lokalen mittels load_file Funktion. Obwohl der Algorithmus beendet,
scikit-learn - ROC-Kurve mit Konfidenzintervall

Ich bin in der Lage, eine ROC-Kurve mit scikit-learn mit fpr, tpr, thresholds = metrics.roc_curve(y_true,y_pred, pos_label=1), wo y_true ist eine Liste von Werten basierend auf meinen gold-standard (d.h., 0 negativen 1 für positive Fälle) und y_pred ist
scikit-learn kernel-PCA erklärte Varianz

Habe ich mit dem normalen PCA von scikit-learn und erhalten Sie die Varianz-Verhältnisse für jede Hauptkomponente, ohne Probleme. pca = sklearn.decomposition.PCA(n_components=3) pca_transform = pca.fit_transform(feature_vec) var_values = pca.explained_variance_ratio_ Möchte ich erkunden verschiedene Kernel mit kernel-PCA und wollen auch
ValueError: leer Wortschatz; vielleicht sind die nur Dokumente enthalten, die stop-Wörter

Ich bin mit (zum ersten mal) die scikit-Bibliothek und ich habe diesen Fehler: ValueError: empty vocabulary; perhaps the documents only contain stop words File "C:\Users\A605563\Desktop\velibProjetPreso\TraitementTwitterDico.py", line 33, in <module> X_train_counts = count_vect.fit_transform(FileTweets) File "C:\Python27\Lib\site-packages\sklearn\feature_extraction\text.py", line 804, in
GridSearchCV scoring und grid_scores_

Ich versuche zu verstehen, wie sich die Werte der Torschütze für die GridSearchCV. Der Beispielcode stellt eine kleine pipeline auf text-Daten. Dann setzt es eine grid-search über verschiedene ngrams. Die Wertung erfolgt über die f1-Maß: #setup the
Konvertieren Sie mehrere Spalten eines pandas-Daten-frame zu dummy-Variablen - Python

Habe ich in diesem dataframe: Soweit ich weiß, verwenden die scikit lernen-Paket in Python für die Maschine gelehnt Aufgaben, die kategoriale Variablen umgewandelt werden soll, um dummy-Variablen. Also, zum Beispiel mit einer Bibliothek scikit lernen ich versuchen,
Batch gradient descent mit scikit lernen (sklearn)

Ich hab das Spiel mit einer one-vs-all Logistische Regression Klassifizierer mit Scikit-Learn (sklearn). Ich habe ein großes dataset, das ist zu langsam, alle auf einmal; auch ich möchte Studie der Lernkurve, wie die Ausbildung dauert. Ich möchte
Wie erhöhe ich die Richtigkeit meiner Linearen Regressionsmodell?(maschinelles lernen mit python)

Ich habe eine machine-learning-Projekt mit python mithilfe von scikit-learn Bibliothek. Ich habe zwei getrennte Datensätze für die Ausbildung und Prüfung, und ich versuche zu tun, die lineare regression. Ich verwenden Sie diesen codeblock unten gezeigt: import numpy
Wie man die Werte der jeweiligen Funktion aus sklearn.feature_selection.SelectKBest?

Ich versuche, die Punkte aller features von my data set. file_data = numpy.genfromtxt(input_file) y = file_data[:,-1] X = file_data[:,0:-1] x_new = SelectKBest(chi2, k='all').fit_transform(X,y) Bevor die erste Zeile von X hatte die "Feature-Namen" im string-format, aber ich war
sklearn-LinearRegression: could not convert string to float -: '--'

Ich versuche, mit einer LinearRegression aus sklearn und ich bin immer eine "Konnte nicht konvertiert einen string zu float'. Alle Spalten der dataframe sind float und der Ausgang y ist auch float. Ich habe mir andere Beiträge
NameError: name 'x_train' ist nicht definiert

ich bin neu in diesem, aber kann mir jemand sagen, was falsch ist es? Ich bin wirklich versucht zu tun, eine vorausschauende Analyse(lineare regression graph) auf der Grundlage der Daten habe ich im excel . Aber mein
Effiziente k-means-Auswertung mit silhouette score in sklearn

Ich bin mit k-means-clustering auf ~1 Mio Artikel (jeweils dargestellt als ~100-feature-Vektor). Ich habe das clustering für verschiedene k, und möchten nun eine Bewertung der unterschiedlichen Ergebnisse, die mit der silhouette Partitur umgesetzt sklearn. Versuch es mit
SKLearn MinMaxScaler - Skala nur bestimmte Spalten

Ich würde gerne zu skalieren einige (aber nicht alle) Spalten in ein Pandas dataFrame mit einem MinMaxScaler. Wie kann ich es tun? InformationsquelleAutor lte__ | 2017-05-07
ImportError: cannot import name inplace_column_scale

Mit Python 2.7 mit scikit-learn 0.14 Paket. Es läuft auch gut auf einige Beispiele aus der Benutzer Gilde erwarten, dass die Linearen Modelle. Traceback (most recent call last): File "E:\P\plot_ols.py", line 28, in <module> from sklearn import
Scikit-Learn: die Vorhersage, die neuen Punkte mit DBSCAN

Ich bin mit DBSCAN-cluster-einige Daten mithilfe von Scikit-Learn (Python 2.7): from sklearn.cluster import DBSCAN dbscan = DBSCAN(random_state=0) dbscan.fit(X) Allerdings fand ich, dass es keine built-in Funktion (abgesehen von "fit_predict") könnten ordnen Sie die neuen Daten Punkte, Y,
Mit scikit, um zu bestimmen, die Beiträge der einzelnen Features zu einer bestimmten Klasse Vorhersage

Ich bin mit einem scikit extra Bäume Klassifizierer: model = ExtraTreesClassifier(n_estimators=10000, n_jobs=-1, random_state=0) Einmal das Modell ist montiert und verwendet, um vorherzusagen, Klassen, würde ich mag, um herauszufinden, die Beiträge von jedem feature eine Klasse Vorhersage. Wie
Python 3 ImportError: cannot import name 'Modell-Auswahl' OS X 10.11.3, Anaconda

Python-3.5.1 |Anaconda 4.0.0 (x86_64)auf OS X 10.11.3 >>> from sklearn import pipeline, model_selection Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name 'model_selection' versucht: upgrade sechs, sk-lernen, sudo pip uninstall python-dateutil
Raster-Suche für hyperparameter evaluation von clustering in scikit-learn

Ich bin clustering eine Stichprobe von rund 100 Datensätze (unbeschrifteten) und versuchen, zu verwenden grid_search zur Bewertung der clustering Algorithmus mit verschiedenen hyperparameters. Ich bin scoring mit silhouette_score welche gut funktioniert. Mein problem hier ist, dass ich
wie entfernen Sie Spalten mit zu vielen fehlenden Werten in Python

Arbeite ich auf einer machine-learning-problem, in denen es viele fehlende Werte in den Funktionen. Es gibt 100 von den features, und ich möchte zu löschen, diese Funktionen, die zu viele fehlende Werte (es kann sein, Funktionen mit
scikit lernen, clf.fit / score-Modell-Genauigkeit

Ich bin ein Modell bauen clf sagen clf = MultinomialNB() clf.fit(x_train, y_train) dann will ich sehen, mein Modell Genauigkeit mit score clf.score(x_train, y_train) war das Ergebnis 0.92 Mein Ziel ist es zu testen, gegen den test, damit
Wie zu normalisieren, die Trainieren und Testen von Daten mit MinMaxScaler sklearn

So, ich habe diese Zweifel und die Suche nach Antworten. Die Frage ist also, wenn ich, from sklearn import preprocessing min_max_scaler = preprocessing.MinMaxScaler() df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y','Y','Y','Y','N','N','N','Y','N','Y','N','N','Y','Y']}) df[['A','B']] = min_max_scaler.fit_transform(df[['A','B']]) df['C'] = df['C'].apply(lambda x: 0 if x.strip()=='N' else
nächste Nachbar Suche kdTree

Einer Liste von N Punkte [(x_1,y_1), (x_2,y_2), ... ] ich bin auf der Suche nach den nächsten Nachbarn zu jedem Punkt auf der Grundlage der Entfernung. Meine Datenmenge ist zu groß, um zu verwenden, eine brute-force-Ansatz, so
Rückkehr Koeffizienten von Pipeline-Objekt in sklearn

Habe ich Passform eine Pipeline Objekt mit RandomizedSearchCV pipe_sgd = Pipeline([('scl', StandardScaler()), ('clf', SGDClassifier(n_jobs=-1))]) param_dist_sgd = {'clf__loss': ['log'], 'clf__penalty': [None, 'l1', 'l2', 'elasticnet'], 'clf__alpha': np.linspace(0.15, 0.35), 'clf__n_iter': [3, 5, 7]} sgd_randomized_pipe = RandomizedSearchCV(estimator = pipe_sgd, param_distributions=param_dist_sgd, cv=3,
Wie man mehr Gewicht auf bestimmte Funktionen im maschinellen lernen?

Wenn eine Bibliothek, wie scikit-learn, wie ordne ich mehr Gewicht auf bestimmte features in der Eingabe zu einem classifier wie SVM? Ist das etwas, was Menschen tun oder gibt es eine andere Lösung für mein problem? Warum
Pandas und scikit-learn: KeyError: [...] nicht im index

Verstehe ich nicht, warum erhalte ich die Fehlermeldung KeyError: '[ 1351 1352 1353 ... 13500 13501 13502] not in index' wenn ich diesen code ausführen: cv = KFold(n_splits=10) for train_index, test_index in cv.split(X): f_train_X, f_valid_X = X[train_index],
Kann nicht MNIST-Datenbank über Anaconda/jupyter

Hu Jungs, Ich bin neu in python/anaconda/jupyter/numPy, Pandas, usw.... also bitte entschuldigen Sie mich, wenn es eine wirklich dumme Frage. Ich versuche zu erhalten MNIST-Datenbank mithilfe von anaconda/jupyter. Doch jedesmal bekomme ich einen HTTP 500-Fehler am Ende.
Funktion, Bedeutung, Gewinnung von Entscheidungsbäumen (scikit-learn)

Ich habe versucht in den Griff zu bekommen, die auf die Bedeutung von Funktionen in einem Entscheidungsbaum habe ich modelliert. Ich bin interessiert an der Entdeckung des Gewichts der einzelnen Features ausgewählt, die in den Knoten als
Kann nicht scheinen, um zu importieren, scikit-learn ist MLPRegressor

So, ich bin versucht zu verwenden, scikit-learn ist MLPRegressor, aber python hält spucken zurück ImportError: No module named MLPRegressor. Ich bin versucht derzeit, verwenden Sie die syntax from sklearn.neural_network import MLPRegressor. Ich habe deinstalliert und neu installiert
Wie verwende ich einen TimeSeriesSplit mit einem GridSearchCV Objekt zu Stimmen, ein Modell in scikit-learn?

Ich gesucht habe die sklearn docs für TimeSeriesSplit und die docs für die cross-Validierung aber ich habe nicht in der Lage zu finden, ein funktionierendes Beispiel. Ich bin mit sklearn version 0.19. Dies ist mein setup import
Einfaches Beispiel mit BernoulliNB (naiver bayes-classifier) scikit-learn, die in python kann nicht erklären, Klassifizierung

Mit scikit-learn 0.10 Warum hat die folgenden trivialen code-snippet: from sklearn.naive_bayes import * import sklearn from sklearn.naive_bayes import * print sklearn.__version__ X = np.array([ [1, 1, 1, 1, 1], [0, 0, 0, 0, 0] ]) print "X:
Sklearn SVM: SVR und SVC, immer die gleiche Vorhersage für jeden Eingang.

Hier ist ein einfügen der code: SVM-sample-code Ich habe ein paar von den anderen Antworten auf dieses problem...und es scheint, wie diese bestimmte iteration das problem ist ein bisschen anders. First off, meine Eingänge sind normalisiert, und
Sklearn LabelEncoder wirft TypeError in der Art

Ich bin lernen maschinelles lernen Verwendung Titanic Datensatz von Kaggle. Ich bin mit LabelEncoder von sklearn zu transformieren text-Daten in numerische labels. Der folgende code funktioniert für "Sex" aber nicht für "Eingeschlagen". encoder = preprocessing.LabelEncoder() features["Sex"] =
Speicher effizienter Weg, um split große numpy-array zu trainieren und zu testen

Ich habe eine große numpy-array und wenn ich laufen scikit lernen ist train_test_split split das array in Trainings-und Testdaten, die ich ausführen immer in den Arbeitsspeicher-Fehler. Was wäre ein mehr-Speicher-effiziente Methode der Aufspaltung in Schulen und zu
Update/ install Python-scikit lernen neueste Entwickler-version in Windows

Ich versuche zu ersetzen/installieren meine Python scikit-learn 0.17.0 0,18.dev0 neueste Entwickler-version in Windows, so dass ich versuchen kann, aus sklearn.neural_network.MLPClassifier. Nach dem Lesen und versuchen, die erweiterte Bedienungsanleitung hier (http://scikit-learn.org/stable/developers/advanced_installation.html#install-bleeding-edge), bin ich irgendwie stecken. pip install -U
So passen Sie sklearn cross validation iterator durch Indizes?

Ähnlich Custom cross validation split sklearn ich definieren will meine eigenen splits für GridSearchCV, für die ich mich anpassen zu müssen, die eingebaute cross-Validierung iterator. Ich will meinen eigenen Zug-test Indizes für die cross-Validierung, um die GridSearch
scikit-learn-Standard Scaler - Holen Sie sich die Standardabweichung in der ursprünglichen, nicht skalierten Raum für GMM

Bevor Sie eine GMM-clustering-Modell, ich benutze eine standard-Scaler zu verwandeln, meine Daten in eine 0 bedeutet, 1 std dataset Haben dann durchgeführt, clustering, ich bin interessiert, die gelernt cluster zurück in den ursprünglichen Raum eher als die
Verständnis Gaussian Mixture Models

Ich versuche zu verstehen, die Ergebnisse aus der scikit-learn gaussian mixture-Modell-Implementierung. Werfen Sie einen Blick auf das folgende Beispiel: #!/opt/local/bin/python import numpy as np import matplotlib.pyplot as plt from sklearn.mixture import GaussianMixture # Define simple gaussian def