Tag: feature-selection

In machine learning, dies ist der Prozess der Auswahl einer Teilmenge der meisten relevanten Funktionen, um den Bau Ihres Datenmodells.

Wie man die Werte der jeweiligen Funktion aus sklearn.feature_selection.SelectKBest?

Anzahl der Antworten 1 Antworten
Ich versuche, die Punkte aller features von my data set. file_data = numpy.genfromtxt(input_file) y = file_data[:,-1] X = file_data[:,0:-1] x_new = SelectKBest(chi2, k='all').fit_transform(X,y) Bevor die erste Zeile von X hatte die "Feature-Namen" im string-format, aber ich war

Legen Sie benutzerdefinierte Funktionen in Sklearn pipeline

Anzahl der Antworten 1 Antworten
In meinem Klassifikationsschema, gibt es mehrere Schritte, einschließlich: SCHLUG (Synthetische Minderheit Über-sampling-Technik) Fisher Kriterien für die Funktionsauswahl Standardisierung (Z-score Normalisierung) SVC (Support Vector Classifier) Die wichtigsten Parameter abgestimmt werden, im Schema oben sind die % - Perzentil

Schnelle Information-Gain-Berechnung

Anzahl der Antworten 3 Antworten
Ich brauche, um zu berechnen, Informationen Gewinnen erreicht souverän für >100 K-Funktionen >10k Dokumente für text-Klassifikation. Der Code unten funktioniert einwandfrei, aber für den vollen Datenbestand ist sehr langsam - dauert mehr als eine Stunde auf einem

Best-practice-holding für große Listen von Daten in Java

Anzahl der Antworten 3 Antworten
Schreibe ich ein kleines system in Java, in dem ich Extrakt n-Gramm-feature von text-Dateien und später brauchen, um Feature-Auswahl-Prozess, um die Auswahl der am besten modulationsumwandler Funktionen. Feature Extraction Prozess für eine einzelne Datei Rückkehr eine Karte,

Beispiel für die svm-Funktion Auswahl in R

Anzahl der Antworten 1 Antworten
Ich versuche, gelten die feature-Selektion (z.B. rekursive Funktion-Auswahl) im SVM, mit dem R-Paket. Ich habe installiert Weka unterstützt, die die feature-Auswahl in LibSVM aber ich habe keine gefunden Beispiel für die syntax des SVM oder ähnliches. Ein

Python-Implementierung von Gegenseitigen Informationen

Anzahl der Antworten 2 Antworten
Ich bin mit einigen Fragen der Umsetzung der Gegenseitigen Information Funktion das Python-machine learning Bibliotheken bieten, insbesondere : sklearn.Metriken.mutual_info_score(labels_true, labels_pred, Kontingenz=None) (http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html) Ich versuche zu implementieren, das Beispiel finde ich in der Stanford-NLP-tutorial Website: Die Website ist

Information-Gain-Berechnung mit Scikit-learn

Anzahl der Antworten 1 Antworten
Ich bin mit Scikit-learn für die text-Klassifizierung. Ich möchte berechnen, die Informationen Gewinnen, die für jedes Attribut mit Bezug auf eine Klasse in einer (spärlich) Dokument-term-matrix. Der Information Gain ist definiert als H(Class) - H(Klasse | Attribut),

Unterschied zwischen varImp (caret-Zeichen) und Bedeutung (randomForest) für Random Forest

Anzahl der Antworten 4 Antworten
Verstehe ich nicht, was ist der Unterschied zwischen varImp Funktion (caret- Paket) und importance Funktion (randomForest- Paket) für ein Random Forest Modell: Ich berechnete eine einfache HF-classification-Modell und bei der Berechnung variable Bedeutung, ich fand, dass das

Random Forest-Funktion Bedeutung Grafik mit Python

Anzahl der Antworten 6 Antworten
Arbeite ich mit RandomForestRegressor in python und ich möchte ein Diagramm erstellen, zeigen die ranking-Funktion Bedeutung. Dies ist der code, den ich verwendet: from sklearn.ensemble import RandomForestRegressor MT= pd.read_csv("MT_reduced.csv") df = MT.reset_index(drop = False) columns2 = df.columns.tolist()

Scikit-Learn der Linearen Regression, wie man Koeffizienten der jeweiligen Funktionen?

Anzahl der Antworten 5 Antworten
Ich versuche, führen Sie Funktion " Auswahl durch die Auswertung meiner regressions-Koeffizient-Ausgänge, und wählen Sie die Funktionen mit der höchsten Ausmaß-Koeffizienten. Das problem ist, ich weiß nicht, wie man die jeweiligen Funktionen, als nur die Koeffizienten sind

Wie funktioniert sklearn random forest index feature_importances_

Anzahl der Antworten 3 Antworten
Habe ich die RandomForestClassifier in sklearn für die Bestimmung der wichtigsten Funktionen in meinem dataset. Wie bin ich in der Lage, zurückzukehren, die eigentliche feature-Namen (meine Variablen sind mit x1, x2, x3, etc.) eher als relative Namen

Wie rank-Funktionen, indem Ihre Bedeutung in einem Weka-Klassifizierer?

Anzahl der Antworten 1 Antworten
Ich benutze Weka erfolgreich bauen, um einen Klassifikator. Ich würde jetzt gerne beurteilen, wie wirksam oder wichtig, meine Merkmale sind. Für diese verwende ich AttributeSelection. Aber ich weiß nicht, wie zu Ausgang der verschiedenen Funktionen, die mit

Der einfachste Weg für eine erste feature-Namen nach dem ausführen SelectKBest in Scikit Lernen

Anzahl der Antworten 4 Antworten
Ich würde gerne machen das betreute lernen. Ich bis jetzt weiss, wie das betreute lernen für alle Funktionen. Allerdings würde ich gerne auch die Durchführung von experiment mit den K besten features. Ich die Dokumentation gelesen und

Feature-Auswahl mit scikit-learn

Anzahl der Antworten 1 Antworten
Ich bin neue in machine learning. Bereite ich meine Daten für die Einstufung verwenden Scikit Lernen SVM. Um die Auswahl der besten Funktionen, die ich haben verwendet die folgende Methode: SelectKBest(chi2, k=10).fit_transform(A1, A2) Da mein Datensatz besteht

Unterschied zwischen PCA - (Principal Component Analysis) und die Funktionsauswahl

Anzahl der Antworten 4 Antworten
Was ist der Unterschied zwischen "Principal Component Analysis" (PCA) und die Funktionsauswahl in Machine Learning? Ist PCA ein Mittel der feature-Auswahl? InformationsquelleAutor AbhinavChoudhury | 2013-04-27

Das Verständnis der " ngram_range` argument in einer CountVectorizer in sklearn

Anzahl der Antworten 1 Antworten
Ich bin ein wenig verwirrt darüber, wie zu verwenden ngrams in der scikit-learn Bibliothek in Python, insbesondere, wie das ngram_range argument funktioniert in einem CountVectorizer. Dieser code ausgeführt: from sklearn.feature_extraction.text import CountVectorizer vocabulary = ['hi ', 'bye',

die wichtigsten Merkmale für die Klassifizierung

Anzahl der Antworten 1 Antworten
Ich versuche zu klassifizieren, einige EEG-Daten mit einem logistischen Regressionsmodell (das scheint das beste zu geben Klassifikation der meine Daten). Die Daten habe ich aus einer Multikanal-EEG-setup so im wesentlichen ich habe eine matrix von 63 x

Lineare Regressionsanalyse mit string/kategoriale Merkmale (Variablen)?

Anzahl der Antworten 2 Antworten
Regression algorithmen zu arbeiten scheinen auf Funktionen, die als zahlen dargestellt. Zum Beispiel: Dieser Datensatz enthält nicht die kategorische Merkmale/Variablen. Es ist ganz klar, wie das zu tun regression auf diese Daten und Vorhersagen Preis. Aber das

Recursive feature elimination auf Random Forest mit scikit-learn

Anzahl der Antworten 4 Antworten
Ich versuche, preform-rekursive Funktion elimination mit scikit-learn und ein random forest Klassifikator, mit OOB-ROC-wie ein Tor erzielt wird jede Teilmenge angelegt, die während der rekursiven Prozess. Jedoch, wenn ich versuche, die RFECV Methode, bekomme ich eine Fehlermeldung

Wie scikit-learn PCA zur Reduzierung der Funktionen verwendet wird und welche Funktionen verworfen werden

Anzahl der Antworten 3 Antworten
Ich versuche zu laufen, eine Zone die PCA auf eine matrix der Dimensionen m x n, wobei m die Anzahl der features und n die Anzahl der samples. Angenommen, ich möchte die Erhaltung der nf Funktionen mit

Wie werden feature_importances in RandomForestClassifier ermittelt?

Anzahl der Antworten 4 Antworten
Ich habe eine Klassifikation, die Aufgabe mit einer Zeit-Serie, die als Eingabe der Daten, wobei jedes Attribut (n=23) stellt einen bestimmten Punkt in der Zeit. Neben der absoluten Klassifizierung Ergebnis ich möchte, um herauszufinden, welche Attribute/Daten zu

Korrelierte Merkmale und Klassifikationsgenauigkeit

Anzahl der Antworten 2 Antworten
Ich würde gerne alle zu Fragen, eine Frage, wie korrelierte Merkmale (Variablen) Einfluss auf die klassifikationsgenauigkeit von machine-learning-algorithmen. Mit korrelierten Funktionen meine ich eine Korrelation zwischen Ihnen und nicht mit der Ziel-Klasse (ich.e den Umfang und die

TypeError: Nur ganzzahlige Arrays mit einem Element können in einen Index konvertiert werden

Anzahl der Antworten 2 Antworten
Bin ich immer die folgende Fehlermeldung beim ausführen der rekursiven Funktion Auswahl mit Kreuz-Validierung: Traceback (most recent call last): File "/Users/.../srl/main.py", line 32, in <module> argident_sys.train_classifier() File "/Users/.../srl/identification.py", line 194, in train_classifier feat_selector.fit(train_argcands_feats,train_argcands_target) File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/feature_selection/rfe.py", line 298,