Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Mit Hilfe einer sparse-matrix versus numpy array

Anzahl der Antworten 3 Antworten
Erstelle ich einige numpy-arrays mit Wort zählt in Python: Zeilen sind Dokumente, Spalten zählt für word X. Wenn ich eine Menge von null zählt, die Leute empfehlen die Verwendung von sparse-Matrizen bei der Verarbeitung dieser weitere, z.B.

Wie Sie angeben, die Vorherige Wahrscheinlichkeit für scikit-learn ist Naive Bayes

Anzahl der Antworten 2 Antworten
Ich bin mit der scikit-learn machine learning library (Python) für eine Maschine-learning-Projekt. Einer der algorithmen, den ich verwende, ist die Gauß-Naive Bayes-Implementierung. Eines der Attribute des GaussianNB() Funktion ist folgende: class_prior_ : array, shape (n_classes,) Ich will

Ausgewählte feature-Namen TFIDF Vectorizer

Anzahl der Antworten 2 Antworten
Bin ich mit python und ich möchte das TFIDF-Repräsentation für einen großen Korpus von Daten, ich bin mit dem folgenden code zu konvertieren die Dokumente in Ihrer TFIDF form. from sklearn.feature_extraction.text import TfidfVectorizer tfidf_vectorizer = TfidfVectorizer( min_df=1,

Python/Scikit Lear - nicht umgehen Kann, Mischung aus multiclass und kontinuierliche

Anzahl der Antworten 2 Antworten
Ich versuche fit ein SGDRegressor auf meine Daten und dann überprüfen Sie die Genauigkeit. Der Beschlag funktioniert gut, aber dann die Vorhersagen sind nicht in den gleichen Datentyp(?) als das ursprüngliche Ziel-Daten, und ich bekomme die Fehlermeldung

XgBoost : Das am wenigsten besiedelte Klasse y hat nur 1 Mitglieder, die zu wenig ist

Anzahl der Antworten 1 Antworten
Im mit Xgboost Umsetzung auf sklearn für eine kaggle-Wettbewerb. Aber im bekommen diese 'Warnung' Nachricht : $ python Script1.py /home/sky/private/virtualenv15.0.1 dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516: Warnung: Das am wenigsten besiedelte Klasse y hat nur 1 Mitglieder, was zu wenig ist. Die

AttributeError: 'numpy.ndarray' - Objekt hat kein Attribut 'toarray'

Anzahl der Antworten 1 Antworten
Ich bin das extrahieren von features aus einem text-Korpus, und ich bin mit einem td-fidf vectorizer und abgeschnittene Singulärwertzerlegung von scikit-learn, um Sie zu erreichen. Da jedoch der Algorithmus, den ich ausprobieren wollen erfordert Dichte Matrizen und

sklearn ist PLSRegression: "ValueError: array enthalten dürfen, infs oder NaNs"

Anzahl der Antworten 4 Antworten
Bei der Verwendung sklearn.cross_decomposition.PLSRegression: import numpy as np import sklearn.cross_decomposition pls2 = sklearn.cross_decomposition.PLSRegression() xx = np.random.random((5,5)) yy = np.zeros((5,5) ) yy[0,:] = [0,1,0,0,0] yy[1,:] = [0,0,0,1,0] yy[2,:] = [0,0,0,0,1] #yy[3,:] = [1,0,0,0,0] # Uncommenting this line solves

sklearn (scikit-learn) Logistische regression-Paket — set trainiert Koeffizienten für die Einstufung.

Anzahl der Antworten 2 Antworten
Also ich lese die scikit-learn Paket webpate: http://scikit-learn.sourceforge.net/dev/modules/generated/sklearn.linear_model.LogisticRegression.html Kann ich mithilfe der logistischen regression auf die Daten passen, und nachdem ich Sie erhalten eine Instanz von LogisticRegression, ich kann es verwenden, um zu klassifizieren, neue Daten-Punkte. So

Read sparse matrix in python

Anzahl der Antworten 3 Antworten
Will ich Lesen sparse matrix. Wenn ich Gebäude ngrams mit scikit lernen. Seine transform() gibt die Ausgabe in sparse-matrix. Ich will Lesen, dass matrix ohne dabei todense(). Code: import numpy as np from sklearn.feature_extraction.text import CountVectorizer document

Bad-input-Form Fehler auf SVM-training mit scikit

Anzahl der Antworten 1 Antworten
Ich bin ein wenig neu auf scikit-und ML. Ich m versuchen, zu trainieren, einen SVM-Klassifikator für einer gegen alle-Klassifikation. Ich m mit dem folgenden code. g=list() for i in range(0,120): g.append(1) for i in range(120,240): g.append(2) u=set(g)

sci-kit erfahren Sie: verändern Sie Ihre Daten entweder mit X. Umformen(-1, 1)

Anzahl der Antworten 5 Antworten
Trainiere ich python (2.7.11) Klassifikator für text-Klassifikation und beim laufen bin ich immer eine deprecated Warnung, dass ich nicht weiß, welche Zeile in meinem code verursacht es! Der Fehler bzw. die Warnung. Jedoch funktioniert der code einwandfrei

ValueError: Anzahl der Merkmale des Modells muss mit dem Eingang

Anzahl der Antworten 3 Antworten
Ich bin immer diese Fehlermeldung, wenn Sie versuchen, um vorherzusagen, mit einem Modell, das ich gebaut habe in scikit lernen. Ich weiß, dass es eine Reihe von Fragen, aber mir scheint, unterscheidet sich von Ihnen, weil ich

TypeError: unsupported operand type(s) for -: 'numpy.ndarray' und 'numpy.ndarray'

Anzahl der Antworten 1 Antworten
Ich versuche zu berechnen, der Mittlere quadratische Fehler der Vorhersagen y_train_actual aus meiner sci-kit lernen Sie das Modell mit den ursprünglichen Werten salaries. Problem: Jedoch mit mean_squared_error(y_train_actual, salaries) ist, erhalte ich den Fehler TypeError: unsupported operand type(s)

Python: Sklearn.linear_model.LinearRegression arbeiten komisch

Anzahl der Antworten 1 Antworten
Ich versuche zu tun, mehrere Variablen der linearen regression. Aber ich finde, dass die sklearn.linear_model arbeiten, sehr seltsam. Hier ist mein code: import numpy as np from sklearn import linear_model b = np.array([3,5,7]).transpose() ## the right answer

AttributeError: LinearRegression-Objekt hat kein Attribut 'coef_'

Anzahl der Antworten 1 Antworten
Habe ich versucht, passen diese Daten durch eine Lineare Regression, nach einem tutorial auf bigdataexaminer. Hat alles gut funktioniert, bis zu diesem Punkt. Ich importierte LinearRegression aus sklearn, gedruckt und die Anzahl der Koeffizienten in Ordnung. Dies

ValueError während der Verwendung der linearen SVM von scikit-learn python

Anzahl der Antworten 5 Antworten
Ich bin momentan auf der großen Skala hierarchische text-Klassifikation der ODP-Dokumenten. Das dataset für mich ist im libSVM-format. Ich versuche zu laufen der lineare kernel-SVM von python-scikit-learn das Modell zu entwickeln. Unten ist die sample-Daten vom training

sklearn Klassifizierer erhalten ValueError: bad input Form

Anzahl der Antworten 2 Antworten
Ich habe eine csv-struct ist CAT1,CAT2,TITLE,URL,CONTENT, CAT1, CAT2, TITEL ,die INHALTE sind in der chinesischen. Ich will trainieren LinearSVC oder MultinomialNB mit X(TITEL) und Funktion(CAT1,CAT2), bekommen beide diese Fehler. unten ist mein code: PS: ich Schreibe code

python - wie man anfügen numpy-Arrays in ein pandas dataframe

Anzahl der Antworten 1 Antworten
Habe ich trainiert eine Logistische Regression Klassifizierer, um vorherzusagen, ob eine rezension positiv oder negativ ist. Nun will ich noch anfügen die vorhergesagten Wahrscheinlichkeiten zurückgegeben, die von der predict_proba-Funktion, um meine Pandas data frame mit den Bewertungen.

Prognose mit Zeitreihen, die in python

Anzahl der Antworten 1 Antworten
Benötige ich etwas Hilfe von Euch. Ich möchte, um vorherzusagen, die nächsten Werte einer Variablen Y (c_start), wenn X (Tag) repräsentieren die Zeit. Wie Sie im Bild sehen können, habe ich die Werte für das Attribut "c_start"

GridSearchCV scoring-parameter: die Verwendung von scoring='f1' oder Punkte=keine ("None" standardmäßig verwendet Genauigkeit) gibt das gleiche Ergebnis

Anzahl der Antworten 3 Antworten
Bin ich mit einem Beispiel extrahiert aus dem Buch "Mastering Machine Learning mit scikit lernen". Verwendet es eine Entscheidung Baum, um vorherzusagen, ob die einzelnen Bilder auf einer web-Seite ist ein Werbung oder Artikel-Inhalte. Bilder, die eingestuft

GridSearchCV auf LogisticRegression in scikit-learn

Anzahl der Antworten 2 Antworten
Ich versuche zur Optimierung eines logistischen Regressions-Funktion in scikit-learn mit Hilfe des cross-validiert raster-parameter zu suchen, aber ich kann nicht scheinen, um es zu implementieren. Er sagt, dass die Logistische Regression nicht implementieren eine get_params (), sondern

ImportError: No module named sklearn.Vorverarbeitung

Anzahl der Antworten 3 Antworten
Habe ich installiert, scikit-learn erfolgreich auf Ubuntu folgende Anweisungen. Allerdings bekomme ich diese Fehlermeldung wenn ich ein Programm ausführen, verwendet es: Traceback (most recent call last): File "begueradj.py", line 10, in <module> from sklearn.preprocessing import normalize ImportError:

Wie Baue ich scikit lernen auf windows?

Anzahl der Antworten 1 Antworten
Wenn ich das Skript ausführen : python setup.py installieren von cmd bekomme ich folgende Fehlermeldung : ImportError: No module named sklearn._build_utils Nach der Installation: Python 2.7.2 64 bit für windows Enthought Baldachin die sciPy,NumPy und matplotlib setuptools

Gefunden-array mit 0-Probe(s) (Form=(0, 40)) während ein minimum von 1 ist erforderlich

Anzahl der Antworten 1 Antworten
Teste ich eine einfache Vorhersage Programm mit Python 2.7, sklearn 0.17.1, numpy 1.11.0. Ich habe matrix mit propabilities von LDA-Modell, und jetzt will ich erstellen RandomForestClassifier, um vorherzusagen, die Ergebnisse von propabilities. Mein code ist: maxlen =

multiclass Klassifizierung in xgboost (python)

Anzahl der Antworten 1 Antworten
Ich kann nicht herausfinden, wie pass-Anzahl der Klassen-oder eval-Metrik, xgb.XGBClassifier mit dem Ziel, die Funktion "multi:softmax'. Ich sah viele Dokumentationen, aber die reden nur über die sklearn wrapper, der akzeptiert n_class/num_class. Mein Aktuelles setup sieht wie kf

Wie man normalisieren nur bestimmte Spalten in scikit-learn?

Anzahl der Antworten 2 Antworten
Habe ich Daten, die der folgenden ähnelt: [ [0, 4, 15] [0, 3, 7] [1, 5, 9] [2, 4, 15] ] Ich verwendet oneHotEncoder http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.fit_transform Vorverarbeitung dieser Daten, damit es geeignet ist für die lineare regression, um

Python random Staat in teilen dataset

Anzahl der Antworten 4 Antworten
Ich bin Art von neuen zu python. kann mir jemand sagen, warum wir die zufällige Zustand zu null in teilen Zug-und test-set. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) Habe ich gesehen, Situationen wie

ValueError: konnte nicht konvertiert string zu float:

Anzahl der Antworten 4 Antworten
Ich bin nach ein, dieses tutorial zu schreiben, ein Naive Bayes-Klassifizierer: http://machinelearningmastery.com/naive-bayes-classifier-scratch-python/ Ich bekomme immer diese Fehlermeldung: dataset[i] = [float(x) for x in dataset[i]] ValueError: could not convert string to float: Ist hier der Teil von meinem

TypeError: unhashable geben

Anzahl der Antworten 2 Antworten
Schrieb ich ein kleines Stück code zu tun, die lineare regression mit sklearn. Ich noch eine 2 Spalte der csv-Datei (Spalte Namen X,Y mit zahlen) und wenn ich die Datei sehe ich, dass der Inhalt richtig Lesen

Scipy Fehler: numpy.dtype Größe verändert wird, kann auf binäre Inkompatibilität (und damit verbundenen seltsames Verhalten)

Anzahl der Antworten 1 Antworten
Ich die Installation von numpy/scipy/scikit-learn auf OS X 10.9.4, und bin immer Fehler über "numpy.dtype Größe verändert wird, kann auf binäre Inkompatibilität". Hier ist, was ich Tat, um zu konstruieren, das repo: mkvirtualenv thm workon thm pip

Wie finden Sie die Precision, Recall, Accuracy mit SVM?

Anzahl der Antworten 1 Antworten
Doppelte Berechnung von Precision, Recall und F-Score Habe ich eine input-Datei mit dem text der Beschreibung und der klassifizierungsstufe (ich.e.levelA und levelB). Ich möchte schreiben Sie einen SVM-Klassifizierer, die Messen, precision, recall und accuracy. Ich schaute auf

Zusammenführen der Ergebnisse aus dem Modell.predict() mit original-pandas DataFrame?

Anzahl der Antworten 2 Antworten
Ich versuche das Zusammenführen der Ergebnisse einer predict Methode, wieder mit den ursprünglichen Daten in einer pandas.DataFrame Objekt. from sklearn.datasets import load_iris from sklearn.cross_validation import train_test_split from sklearn.tree import DecisionTreeClassifier import pandas as pd import numpy as

Python : Wie Multinomiale Logistische Regression mit SKlearn

Anzahl der Antworten 2 Antworten
Ich habe einen test-Datensatz und Zug dataset als unten. Ich habe ein Beispiel-Daten mit min Platten, aber meine Daten hat als 1000 Datensätze. Hier E ist mein Ziel-variable, die ich brauche, um vorherzusagen, mit Hilfe eines Algorithmus.

Scikit F-score Metrische Fehler

Anzahl der Antworten 2 Antworten
Ich versuche, vorherzusagen, eine Reihe von Etiketten mit Logistische Regression von SciKit. Meine Daten wirklich unausgewogen (es gibt viele weitere '0' als '1' - labels), so muss ich das F1-score metric während der cross-Validierung Schritt, um die

ImportError: No module named Nase.tools

Anzahl der Antworten 2 Antworten
Stoße ich auf einige Schwierigkeiten be-dataset auf meinem Programm. Ich bin nicht sicher über die import-Fehlermeldung wie unten angegeben. Traceback (most recent call last): File "C:\Users\Khoo Family\Downloads\lsa_clustering (3).py", line 4, in <module> from sklearn.datasets import fetch_20newsgroups File

Plotten Entscheidungsbaum, graphvizm pydotplus

Anzahl der Antworten 5 Antworten
Bin ich nach dem tutorial für Entscheidungsbaum auf scikit Dokumentation. Ich habe pydotplus 2.0.2 aber es sagt mir, dass es nicht write - Methode - Fehler weiter unten. Ich habe gekämpft, für eine Weile jetzt, irgendwelche Ideen,

Python sklearn-KMeans, wie man die Werte im cluster

Anzahl der Antworten 5 Antworten
Ich bin mit dem sklearn.cluster KMeans-Paket. Ich beende mal das clustering, wenn ich brauche, um zu wissen, welche Werte wurden zusammengefasst, wie kann ich es tun? Sagen ich hatte 100 Datenpunkte und KMeans gab mir 5 cluster.

ein Wert zu groß für dtype('float64')

Anzahl der Antworten 1 Antworten
Ich bin mit numpy für das Lesen einer arff-Datei und ich bekomme die folgende Fehlermeldung: ValueError: Eingabe enthält NaN, infinity oder ein Wert zu groß für dtype('float64'). Ich verwendet np.isnan(X2.any()) und np.isfinite(X2.all())zu prüfen, ob es eine nan

ImportError: No module named sklearn.datasets

Anzahl der Antworten 4 Antworten
os: mac os yosemite python: 2.7.6 -- 64-bit installiert: numpy,skipy,matplotlib,Nase Bekomme ich die folgende Fehlermeldung. >>> from sklearn.datasets import load_iris Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named sklearn.datasets $

Naive Bayes vs. SVM für die Klassifikation von text-Daten

Anzahl der Antworten 2 Antworten
Ich bin auf ein problem, das mit der Klassifizierung einer großen Datenbank von Texten. Die Texte sind sehr kurz (man denke 3-8 Wörter) und es sind 10-12 Kategorien, in denen ich wünschte, Sie zu Sortieren. Für die

ImportError: cannot import name 'cross_validate'

Anzahl der Antworten 4 Antworten
Ich versuche zu tun: from sklearn.model_selection import cross_validate wie bereits erwähnt hier. Bekomme aber die Fehlermeldung: ImportError: cannot import name 'cross_validate' Alles andere in Sklearn scheint zu funktionieren, es ist nur dieses bit. Fehler auch Auftritt, wenn

sklearn: ausschalten Warnungen

Anzahl der Antworten 3 Antworten
Wenn ich passende sklearn's LogisticRegression mit einem 1 Spalte python pandas DataFrame (nicht Series Objekt), bekomme ich diese Warnung: /Library/Python/2.7/site-packages/sklearn/preprocessing/label.py:125: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of

sklearn LinearSVC - X 1 features pro sample; erwarten 5

Anzahl der Antworten 1 Antworten
Ich versuche zur Vorhersage der Klasse eines test-array, aber ich bekomme die folgende Fehlermeldung, zusammen mit der stack-trace: Traceback (most recent call last): File "/home/radu/PycharmProjects/Recommender/Temporary/classify_dict_test.py", line 24, in <module> print classifier.predict(test) File "/home/radu/.local/lib/python2.7/site-packages/sklearn/linear_model/base.py", line 215, in predict

ValueError: Unbekannt label-Typ: "unbekannt"

Anzahl der Antworten 1 Antworten
Ich versuche, führen Sie folgenden code. Btw, ich bin neu sowohl python und sklearn. import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression # data import and preparation trainData = pd.read_csv('train.csv') train = trainData.values

Python TfidfVectorizer werfen : leer Wortschatz; vielleicht sind die nur Dokumente enthalten, die stop-Wörter"

Anzahl der Antworten 3 Antworten
Ich versuche, Python-Tfidf zu verwandeln, ein Korpus von Texten. Jedoch, wenn ich versuche zu fit_transform es, ich bekomme einen Wert Fehler ValueError: leer Wortschatz; vielleicht sind die nur Dokumente enthalten, die stop-Wörter. In [69]: TfidfVectorizer().fit_transform(smallcorp) --------------------------------------------------------------------------- ValueError

Unterschied zwischen StratifiedKFold und StratifiedShuffleSplit in sklearn

Anzahl der Antworten 2 Antworten
Wie aus dem Titel Frage ich mich, was ist der Unterschied zwischen StratifiedKFold mit dem parameter shuffle = True StratifiedKFold(n_splits=10, shuffle=True, random_state=0) und StratifiedShuffleSplit StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=0) und was ist der Vorteil der Verwendung StratifiedShuffleSplit Die

Wie Sie ein upgrade scikit-learn Paket in anaconda

Anzahl der Antworten 5 Antworten
Ich versuche, das upgrade-Paket von scikit-learn von 0.16 bis 0,17. Für die, die ich bin versucht, Binärdateien von dieser website: http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn. Ich habe Windows 7 x64 bit. Ich habe die relevanten Paket lokal und gab folgende Befehle

Sklearn kmeans-äquivalent Ellenbogen-Methode

Anzahl der Antworten 3 Antworten
Sagen wir, ich bin die Prüfung bis zu 10 Clustern mit scipy ich in der Regel generieren, die 'Ellenbogen' plot wie folgt: from scipy import cluster cluster_array = [cluster.vq.kmeans(my_matrix, i) for i in range(1,10)] pyplot.plot([var for (cent,var)

wie Messen Sie die Genauigkeit des knn-Klassifizierer in python

Anzahl der Antworten 2 Antworten
Benutzt habe ich knn zu klassifizieren meinem dataset. Aber ich weiß nicht, wie zu Messen Sie die Genauigkeit des trainierten Klassifikator. Tut scikit haben keine eingebaute Funktion zum überprüfen der Genauigkeit der knn-Klassifikator? from sklearn.neighbors import KNeighborsClassifier

Time series forecasting mit scikit lernen

Anzahl der Antworten 1 Antworten
Ich bin ein absoluter Neuling auf SVM-basierten Prognose-und so auf der Suche für einige Hinweise hier. Ich bin versucht, eine python-code für die Prognose einer Zeit-Serie mit SVM-Bibliotheken von scikit-learn. Meine Daten enthält die X-Werte bei 30-Minuten-Intervall