Tag: scikit-learn
scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).
3
Antworten
Erstelle ich einige numpy-arrays mit Wort zählt in Python: Zeilen sind Dokumente, Spalten zählt für word X. Wenn ich eine Menge von null zählt, die Leute empfehlen die Verwendung von sparse-Matrizen bei der Verarbeitung dieser weitere, z.B.
2
Antworten
Ich bin mit der scikit-learn machine learning library (Python) für eine Maschine-learning-Projekt. Einer der algorithmen, den ich verwende, ist die Gauß-Naive Bayes-Implementierung. Eines der Attribute des GaussianNB() Funktion ist folgende: class_prior_ : array, shape (n_classes,) Ich will
2
Antworten
Bin ich mit python und ich möchte das TFIDF-Repräsentation für einen großen Korpus von Daten, ich bin mit dem folgenden code zu konvertieren die Dokumente in Ihrer TFIDF form. from sklearn.feature_extraction.text import TfidfVectorizer tfidf_vectorizer = TfidfVectorizer( min_df=1,
2
Antworten
Ich versuche fit ein SGDRegressor auf meine Daten und dann überprüfen Sie die Genauigkeit. Der Beschlag funktioniert gut, aber dann die Vorhersagen sind nicht in den gleichen Datentyp(?) als das ursprüngliche Ziel-Daten, und ich bekomme die Fehlermeldung
1
Antworten
Im mit Xgboost Umsetzung auf sklearn für eine kaggle-Wettbewerb. Aber im bekommen diese 'Warnung' Nachricht : $ python Script1.py /home/sky/private/virtualenv15.0.1 dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516: Warnung: Das am wenigsten besiedelte Klasse y hat nur 1 Mitglieder, was zu wenig ist. Die
1
Antworten
Ich bin das extrahieren von features aus einem text-Korpus, und ich bin mit einem td-fidf vectorizer und abgeschnittene Singulärwertzerlegung von scikit-learn, um Sie zu erreichen. Da jedoch der Algorithmus, den ich ausprobieren wollen erfordert Dichte Matrizen und
4
Antworten
Bei der Verwendung sklearn.cross_decomposition.PLSRegression: import numpy as np import sklearn.cross_decomposition pls2 = sklearn.cross_decomposition.PLSRegression() xx = np.random.random((5,5)) yy = np.zeros((5,5) ) yy[0,:] = [0,1,0,0,0] yy[1,:] = [0,0,0,1,0] yy[2,:] = [0,0,0,0,1] #yy[3,:] = [1,0,0,0,0] # Uncommenting this line solves
2
Antworten
Also ich lese die scikit-learn Paket webpate: http://scikit-learn.sourceforge.net/dev/modules/generated/sklearn.linear_model.LogisticRegression.html Kann ich mithilfe der logistischen regression auf die Daten passen, und nachdem ich Sie erhalten eine Instanz von LogisticRegression, ich kann es verwenden, um zu klassifizieren, neue Daten-Punkte. So
3
Antworten
Will ich Lesen sparse matrix. Wenn ich Gebäude ngrams mit scikit lernen. Seine transform() gibt die Ausgabe in sparse-matrix. Ich will Lesen, dass matrix ohne dabei todense(). Code: import numpy as np from sklearn.feature_extraction.text import CountVectorizer document
1
Antworten
Ich bin ein wenig neu auf scikit-und ML. Ich m versuchen, zu trainieren, einen SVM-Klassifikator für einer gegen alle-Klassifikation. Ich m mit dem folgenden code. g=list() for i in range(0,120): g.append(1) for i in range(120,240): g.append(2) u=set(g)
5
Antworten
Trainiere ich python (2.7.11) Klassifikator für text-Klassifikation und beim laufen bin ich immer eine deprecated Warnung, dass ich nicht weiß, welche Zeile in meinem code verursacht es! Der Fehler bzw. die Warnung. Jedoch funktioniert der code einwandfrei
3
Antworten
Ich bin immer diese Fehlermeldung, wenn Sie versuchen, um vorherzusagen, mit einem Modell, das ich gebaut habe in scikit lernen. Ich weiß, dass es eine Reihe von Fragen, aber mir scheint, unterscheidet sich von Ihnen, weil ich
1
Antworten
Ich versuche zu berechnen, der Mittlere quadratische Fehler der Vorhersagen y_train_actual aus meiner sci-kit lernen Sie das Modell mit den ursprünglichen Werten salaries. Problem: Jedoch mit mean_squared_error(y_train_actual, salaries) ist, erhalte ich den Fehler TypeError: unsupported operand type(s)
1
Antworten
Ich versuche zu tun, mehrere Variablen der linearen regression. Aber ich finde, dass die sklearn.linear_model arbeiten, sehr seltsam. Hier ist mein code: import numpy as np from sklearn import linear_model b = np.array([3,5,7]).transpose() ## the right answer
1
Antworten
Habe ich versucht, passen diese Daten durch eine Lineare Regression, nach einem tutorial auf bigdataexaminer. Hat alles gut funktioniert, bis zu diesem Punkt. Ich importierte LinearRegression aus sklearn, gedruckt und die Anzahl der Koeffizienten in Ordnung. Dies
5
Antworten
Ich bin momentan auf der großen Skala hierarchische text-Klassifikation der ODP-Dokumenten. Das dataset für mich ist im libSVM-format. Ich versuche zu laufen der lineare kernel-SVM von python-scikit-learn das Modell zu entwickeln. Unten ist die sample-Daten vom training
2
Antworten
Ich habe eine csv-struct ist CAT1,CAT2,TITLE,URL,CONTENT, CAT1, CAT2, TITEL ,die INHALTE sind in der chinesischen. Ich will trainieren LinearSVC oder MultinomialNB mit X(TITEL) und Funktion(CAT1,CAT2), bekommen beide diese Fehler. unten ist mein code: PS: ich Schreibe code
1
Antworten
Habe ich trainiert eine Logistische Regression Klassifizierer, um vorherzusagen, ob eine rezension positiv oder negativ ist. Nun will ich noch anfügen die vorhergesagten Wahrscheinlichkeiten zurückgegeben, die von der predict_proba-Funktion, um meine Pandas data frame mit den Bewertungen.
1
Antworten
Benötige ich etwas Hilfe von Euch. Ich möchte, um vorherzusagen, die nächsten Werte einer Variablen Y (c_start), wenn X (Tag) repräsentieren die Zeit. Wie Sie im Bild sehen können, habe ich die Werte für das Attribut "c_start"
3
Antworten
Bin ich mit einem Beispiel extrahiert aus dem Buch "Mastering Machine Learning mit scikit lernen". Verwendet es eine Entscheidung Baum, um vorherzusagen, ob die einzelnen Bilder auf einer web-Seite ist ein Werbung oder Artikel-Inhalte. Bilder, die eingestuft
2
Antworten
Ich versuche zur Optimierung eines logistischen Regressions-Funktion in scikit-learn mit Hilfe des cross-validiert raster-parameter zu suchen, aber ich kann nicht scheinen, um es zu implementieren. Er sagt, dass die Logistische Regression nicht implementieren eine get_params (), sondern
3
Antworten
Habe ich installiert, scikit-learn erfolgreich auf Ubuntu folgende Anweisungen. Allerdings bekomme ich diese Fehlermeldung wenn ich ein Programm ausführen, verwendet es: Traceback (most recent call last): File "begueradj.py", line 10, in <module> from sklearn.preprocessing import normalize ImportError:
1
Antworten
Wenn ich das Skript ausführen : python setup.py installieren von cmd bekomme ich folgende Fehlermeldung : ImportError: No module named sklearn._build_utils Nach der Installation: Python 2.7.2 64 bit für windows Enthought Baldachin die sciPy,NumPy und matplotlib setuptools
1
Antworten
Teste ich eine einfache Vorhersage Programm mit Python 2.7, sklearn 0.17.1, numpy 1.11.0. Ich habe matrix mit propabilities von LDA-Modell, und jetzt will ich erstellen RandomForestClassifier, um vorherzusagen, die Ergebnisse von propabilities. Mein code ist: maxlen =
1
Antworten
Ich kann nicht herausfinden, wie pass-Anzahl der Klassen-oder eval-Metrik, xgb.XGBClassifier mit dem Ziel, die Funktion "multi:softmax'. Ich sah viele Dokumentationen, aber die reden nur über die sklearn wrapper, der akzeptiert n_class/num_class. Mein Aktuelles setup sieht wie kf
2
Antworten
Habe ich Daten, die der folgenden ähnelt: [ [0, 4, 15] [0, 3, 7] [1, 5, 9] [2, 4, 15] ] Ich verwendet oneHotEncoder http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.fit_transform Vorverarbeitung dieser Daten, damit es geeignet ist für die lineare regression, um
4
Antworten
Ich bin Art von neuen zu python. kann mir jemand sagen, warum wir die zufällige Zustand zu null in teilen Zug-und test-set. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) Habe ich gesehen, Situationen wie
4
Antworten
Ich bin nach ein, dieses tutorial zu schreiben, ein Naive Bayes-Klassifizierer: http://machinelearningmastery.com/naive-bayes-classifier-scratch-python/ Ich bekomme immer diese Fehlermeldung: dataset[i] = [float(x) for x in dataset[i]] ValueError: could not convert string to float: Ist hier der Teil von meinem
2
Antworten
Schrieb ich ein kleines Stück code zu tun, die lineare regression mit sklearn. Ich noch eine 2 Spalte der csv-Datei (Spalte Namen X,Y mit zahlen) und wenn ich die Datei sehe ich, dass der Inhalt richtig Lesen
1
Antworten
Ich die Installation von numpy/scipy/scikit-learn auf OS X 10.9.4, und bin immer Fehler über "numpy.dtype Größe verändert wird, kann auf binäre Inkompatibilität". Hier ist, was ich Tat, um zu konstruieren, das repo: mkvirtualenv thm workon thm pip
1
Antworten
Doppelte Berechnung von Precision, Recall und F-Score Habe ich eine input-Datei mit dem text der Beschreibung und der klassifizierungsstufe (ich.e.levelA und levelB). Ich möchte schreiben Sie einen SVM-Klassifizierer, die Messen, precision, recall und accuracy. Ich schaute auf
2
Antworten
Ich versuche das Zusammenführen der Ergebnisse einer predict Methode, wieder mit den ursprünglichen Daten in einer pandas.DataFrame Objekt. from sklearn.datasets import load_iris from sklearn.cross_validation import train_test_split from sklearn.tree import DecisionTreeClassifier import pandas as pd import numpy as
2
Antworten
Ich habe einen test-Datensatz und Zug dataset als unten. Ich habe ein Beispiel-Daten mit min Platten, aber meine Daten hat als 1000 Datensätze. Hier E ist mein Ziel-variable, die ich brauche, um vorherzusagen, mit Hilfe eines Algorithmus.
2
Antworten
Ich versuche, vorherzusagen, eine Reihe von Etiketten mit Logistische Regression von SciKit. Meine Daten wirklich unausgewogen (es gibt viele weitere '0' als '1' - labels), so muss ich das F1-score metric während der cross-Validierung Schritt, um die
2
Antworten
Stoße ich auf einige Schwierigkeiten be-dataset auf meinem Programm. Ich bin nicht sicher über die import-Fehlermeldung wie unten angegeben. Traceback (most recent call last): File "C:\Users\Khoo Family\Downloads\lsa_clustering (3).py", line 4, in <module> from sklearn.datasets import fetch_20newsgroups File
5
Antworten
Bin ich nach dem tutorial für Entscheidungsbaum auf scikit Dokumentation. Ich habe pydotplus 2.0.2 aber es sagt mir, dass es nicht write - Methode - Fehler weiter unten. Ich habe gekämpft, für eine Weile jetzt, irgendwelche Ideen,
5
Antworten
Ich bin mit dem sklearn.cluster KMeans-Paket. Ich beende mal das clustering, wenn ich brauche, um zu wissen, welche Werte wurden zusammengefasst, wie kann ich es tun? Sagen ich hatte 100 Datenpunkte und KMeans gab mir 5 cluster.
1
Antworten
Ich bin mit numpy für das Lesen einer arff-Datei und ich bekomme die folgende Fehlermeldung: ValueError: Eingabe enthält NaN, infinity oder ein Wert zu groß für dtype('float64'). Ich verwendet np.isnan(X2.any()) und np.isfinite(X2.all())zu prüfen, ob es eine nan
4
Antworten
os: mac os yosemite python: 2.7.6 -- 64-bit installiert: numpy,skipy,matplotlib,Nase Bekomme ich die folgende Fehlermeldung. >>> from sklearn.datasets import load_iris Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named sklearn.datasets $
2
Antworten
Ich bin auf ein problem, das mit der Klassifizierung einer großen Datenbank von Texten. Die Texte sind sehr kurz (man denke 3-8 Wörter) und es sind 10-12 Kategorien, in denen ich wünschte, Sie zu Sortieren. Für die
4
Antworten
Ich versuche zu tun: from sklearn.model_selection import cross_validate wie bereits erwähnt hier. Bekomme aber die Fehlermeldung: ImportError: cannot import name 'cross_validate' Alles andere in Sklearn scheint zu funktionieren, es ist nur dieses bit. Fehler auch Auftritt, wenn
3
Antworten
Wenn ich passende sklearn's LogisticRegression mit einem 1 Spalte python pandas DataFrame (nicht Series Objekt), bekomme ich diese Warnung: /Library/Python/2.7/site-packages/sklearn/preprocessing/label.py:125: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of
1
Antworten
Ich versuche zur Vorhersage der Klasse eines test-array, aber ich bekomme die folgende Fehlermeldung, zusammen mit der stack-trace: Traceback (most recent call last): File "/home/radu/PycharmProjects/Recommender/Temporary/classify_dict_test.py", line 24, in <module> print classifier.predict(test) File "/home/radu/.local/lib/python2.7/site-packages/sklearn/linear_model/base.py", line 215, in predict
1
Antworten
Ich versuche, führen Sie folgenden code. Btw, ich bin neu sowohl python und sklearn. import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression # data import and preparation trainData = pd.read_csv('train.csv') train = trainData.values
3
Antworten
Ich versuche, Python-Tfidf zu verwandeln, ein Korpus von Texten. Jedoch, wenn ich versuche zu fit_transform es, ich bekomme einen Wert Fehler ValueError: leer Wortschatz; vielleicht sind die nur Dokumente enthalten, die stop-Wörter. In [69]: TfidfVectorizer().fit_transform(smallcorp) --------------------------------------------------------------------------- ValueError
2
Antworten
Wie aus dem Titel Frage ich mich, was ist der Unterschied zwischen StratifiedKFold mit dem parameter shuffle = True StratifiedKFold(n_splits=10, shuffle=True, random_state=0) und StratifiedShuffleSplit StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=0) und was ist der Vorteil der Verwendung StratifiedShuffleSplit Die
5
Antworten
Ich versuche, das upgrade-Paket von scikit-learn von 0.16 bis 0,17. Für die, die ich bin versucht, Binärdateien von dieser website: http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn. Ich habe Windows 7 x64 bit. Ich habe die relevanten Paket lokal und gab folgende Befehle
3
Antworten
Sagen wir, ich bin die Prüfung bis zu 10 Clustern mit scipy ich in der Regel generieren, die 'Ellenbogen' plot wie folgt: from scipy import cluster cluster_array = [cluster.vq.kmeans(my_matrix, i) for i in range(1,10)] pyplot.plot([var for (cent,var)
2
Antworten
Benutzt habe ich knn zu klassifizieren meinem dataset. Aber ich weiß nicht, wie zu Messen Sie die Genauigkeit des trainierten Klassifikator. Tut scikit haben keine eingebaute Funktion zum überprüfen der Genauigkeit der knn-Klassifikator? from sklearn.neighbors import KNeighborsClassifier
1
Antworten
Ich bin ein absoluter Neuling auf SVM-basierten Prognose-und so auf der Suche für einige Hinweise hier. Ich bin versucht, eine python-code für die Prognose einer Zeit-Serie mit SVM-Bibliotheken von scikit-learn. Meine Daten enthält die X-Werte bei 30-Minuten-Intervall