Genauigkeit Punktzahl ValueError: nicht Verarbeiten Kann mischen von binären und kontinuierlichen soll

Ich bin mit linear_model.LinearRegression von scikit-learn als ein prädiktives Modell aus. Es funktioniert und es ist perfekt. Ich habe ein problem, zu bewerten, die prognostizierten Ergebnisse mit der accuracy_score Metrik.

Dies ist meine wahre Daten :

array([1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0])

Meine vorhergesagten Daten:

array([ 0.07094605,  0.1994941 ,  0.19270157,  0.13379635,  0.04654469,
    0.09212494,  0.19952108,  0.12884365,  0.15685076, -0.01274453,
    0.32167554,  0.32167554, -0.10023553,  0.09819648, -0.06755516,
    0.25390082,  0.17248324])

Mein code:

accuracy_score(y_true, y_pred, normalize=False)

Fehlermeldung:

ValueError: nicht verarbeiten Kann mischen von binären und kontinuierlichen soll

Helfen ? Danke.

Was sind die dtypes? Kann Sie nur gegossen y_true zu numpy.int8? Vielleicht suchen Sie Logistische regression statt, um vorherzusagen, kategoriale Variablen?
Es ist die überprüfung der type_of_target(y_true) und type_of_target(y_pred) (in utils.multiclass.py). Wenn das array nur 2 eindeutige Werte es ist klassifiziert als binary.
Freundlicherweise darüber informiert werden, dass die Antwort, die Sie angenommen haben, ist falsch; die Ursache des Fehlers ist, dass Sie versuchen, Sie auf anwenden, um die Genauigkeit der Metrik, die in einer linearen regression (d.h. numerische Vorhersage) Einstellung, die bedeutungslos. Siehe Antwort unten für details...
Kurz gesagt: ich denke, das problem ist, dass Sie binäre Ziel, und Sie haben gebaut, ein regressor, wo stattdessen sollten Sie mit einem Klassifizierer. Verwenden LogisticRegression statt.

InformationsquelleAutor DataAddicted | 2016-06-24

27

BEARBEITEN (nach dem Kommentar): die unten zu lösen, wird die Codierung Problem, aber ist sehr nicht empfohlen verwenden diesen Ansatz, da ein lineares Regressionsmodell ist ein sehr schlechter Klassifizierer, die sehr wahrscheinlich nicht trennen Sie die Klassen richtig.

Lesen der gut geschriebenen Antwort unten von @desertnaut, zu erklären, warum dieses Fehlers ist ein Hinweis für etwas falsch in das machine-learning-Ansatz eher als etwas, das Sie haben, zu "reparieren".
```
accuracy_score(y_true, y_pred.round(), normalize=False)
```
- Wer landet hier: diese Antwort ist falsch; die Ursache für den Fehler ist der Versuch, mit Genauigkeit, wie ein Messwert in eine regression - Einstellung (beachten Sie, dass OP ' s Modell ist LinearRegression, nicht LogisticRegression), das ist sinnlos...
InformationsquelleAutor natbusa
24

Trotz der Vielzahl von falschen Antworten hier, die versuchen, Sie zu umgehen Sie den Fehler, indem numerisch Manipulation der Prognosen, die Ursache Ihrer Fehler ist ein theoretische und nicht rechnerische Problem: Sie versuchen, eine Klassifizierung Metrik (Genauigkeit) in eine regression (d.h. numerische Vorhersage) Modell (LinearRegression), die bedeutungslos.

Ebenso wie die Mehrheit der performance-Metriken, Genauigkeit vergleicht äpfel mit äpfel (ich.e wahre Etiketten 0/1 mit Vorhersagen wieder 0/1); also, wenn Sie Sie bitten, die Funktion zum vergleichen von binären wahr Etiketten (äpfel) mit der kontinuierlichen Vorhersagen (Orangen), Sie bekommen einen erwarteten Fehler, wo die Nachricht sagt Ihnen genau, was das problem ist von einem computational Sicht:
```
Classification metrics can't handle a mix of binary and continuous target
```
Trotz, dass die Nachricht nicht, sagen Sie direkt, dass Sie versuchen, zu berechnen, eine Metrik, die ungültig für dein problem (und sollten wir nicht eigentlich erwarten, dass es, so weit zu gehen), ist es sicherlich eine gute Sache, scikit-learn zumindest gibt Sie eine direkte und explizite Warnung, dass Sie versuchen etwas falsch; ist dies nicht unbedingt der Fall mit anderen frameworks, siehe zum Beispiel die Verhalten von Keras in einer sehr ähnlichen situation, wo Sie erhalten keine Warnung an alle, und man endet nur bis beschweren für niedriger "Genauigkeit" in einer regression Einstellung...

Ich bin super-überrascht, mit all den anderen Antworten hier (einschließlich der akzeptiert & hoch von Ihnen positiv bewertet werden eine) effektiv darauf hindeutet, zu manipulieren, die Vorhersagen, um Sie einfach loszuwerden, die Fehler; es ist wahr, dass, einmal landen wir mit einer Reihe von zahlen, können wir sicherlich beginnen, sich mit Ihnen auf verschiedene Weise (Rundung, Binarisierung usw.), um unseren code zu Verhalten, aber das bedeutet natürlich nicht, dass unsere numerischen Manipulationen sind sinnvolle in den spezifischen Kontext des ML-Problems, das wir zu lösen versuchen.

So, zum Abschluss: das problem ist, dass Sie der Anwendung einer Metrik (Genauigkeit), die unangemessen für Ihr Modell (LinearRegression): wenn Sie eine Einstufung festlegen, sollten Sie Ihr Modell (z.B. Einsatz LogisticRegression statt); wenn Sie in eine regression (d.h. numerische Vorhersage) festlegen, sollten Sie die Metrik. Überprüfen Sie die Liste der Metriken verfügbar in scikit-learn, wo Sie bestätigen können, dass die Genauigkeit ist nur verwendet in der Klassifizierung.

Vergleichen Sie auch die situation mit einem letzten Frage ALSO, wo die OP ist zu versuchen, um die Genauigkeit einer Liste von Modellen:
```
models = []
models.append(('SVM', svm.SVC()))
models.append(('LR', LogisticRegression()))
models.append(('LDA', LinearDiscriminantAnalysis()))
models.append(('KNN', KNeighborsClassifier()))
models.append(('CART', DecisionTreeClassifier()))
models.append(('NB', GaussianNB()))
#models.append(('SGDRegressor', linear_model.SGDRegressor())) #ValueError: Classification metrics can't handle a mix of binary and continuous targets
#models.append(('BayesianRidge', linear_model.BayesianRidge())) #ValueError: Classification metrics can't handle a mix of binary and continuous targets
#models.append(('LassoLars', linear_model.LassoLars())) #ValueError: Classification metrics can't handle a mix of binary and continuous targets
#models.append(('ARDRegression', linear_model.ARDRegression())) #ValueError: Classification metrics can't handle a mix of binary and continuous targets
#models.append(('PassiveAggressiveRegressor', linear_model.PassiveAggressiveRegressor())) #ValueError: Classification metrics can't handle a mix of binary and continuous targets
#models.append(('TheilSenRegressor', linear_model.TheilSenRegressor())) #ValueError: Classification metrics can't handle a mix of binary and continuous targets
#models.append(('LinearRegression', linear_model.LinearRegression())) #ValueError: Classification metrics can't handle a mix of binary and continuous targets
```
wo die ersten 6 Modelle arbeiten OK, der rest (auskommentierte) diejenigen, die den gleichen Fehler. Von nun an solltest du in der Lage sein, sich selbst davon zu überzeugen, dass alle die auskommentierte Modelle regression (und nicht die Klassifizierung) diejenigen, daher der Fehler gerechtfertigt.

Eine Letzte wichtige Anmerkung: es mag legitim für jemanden zu behaupten:

OK, aber ich wollen, verwenden Sie die lineare regression und dann einfach
Runde/Schwelle der Ausgänge, effektiv zu behandeln die Vorhersagen als
"Wahrscheinlichkeiten" und damit die Umwandlung des Modells in ein Klassifikator

Eigentlich hat das bereits vorgeschlagen worden, in mehreren anderen Antworten hier, implizit oder nicht; dies ist wiederum eine ungültig Ansatz (und die Tatsache, dass Sie negative Vorhersagen haben, sollten bereits alarmiert, dass Sie nicht interpretiert werden als Wahrscheinlichkeiten). Andrew Ng, in seinem populären Maschine-Learning-Kurs bei Coursera, erklärt, warum dies eine schlechte Idee ist - siehe seine Vortrag 6.1 - Logistische Regression | Klassifikation auf Youtube (Erklärung beginnt bei ~ 3:00), sowie im Abschnitt 4.2 Warum Nicht Lineare Regression [für die Einstufung]? der (sehr Empfehlenswerte und frei verfügbar) lehrbuch Eine Einführung in die Statistischen Lernens von Hastie, Tibshirani und Mitarbeiter...
- Ich habe deine Antwort gelesen, viele Male, und es ist wirklich außergewöhnlich gut und präzise. Ich absolut einverstanden mit Ihren Punkten, und ich hoffe, wer auch immer es so zu machen, um Sie zu markieren, wie die akzeptierte Antwort. Tolle links, Verweise auch.
- danke; der einzige, der es so machen kann, ist die OP, die offensichtlich nur ungern. Aber keine Sorge...
InformationsquelleAutor desertnaut
4

accuracy_score ist eine Klassifikation, die Metrik, die Sie verwenden können es für eine regression-problem.

Sehen Sie die verfügbaren regression Metriken hier
- Die einzig richtige Antwort, so weit in einem rätselhaften thread (+1); siehe eigene Antwort für die ausführliche Erklärung...
InformationsquelleAutor Amey Yadav
4

Den sklearn.Metriken.accuracy_score(y_true, y_pred) - Methode definiert y_pred als:

y_pred : 1d-array-like, oder label indicator array /sparse-matrix. Vorhergesagten Etiketten, zurückgegeben durch einen Klassifizierer.

Was bedeutet y_pred hat, um ein array von 1 s oder 0 s (ausgesagt Etiketten). Sollten Sie nicht Wahrscheinlichkeiten.

Die ausgesagt Etiketten (1 und 0) und/oder vorhergesagten Wahrscheinlichkeiten erzeugt werden kann, mit Hilfe der LinearRegression () - Modell die Methoden predict() und predict_proba() bzw..

1. Generieren vorhergesagten labels:
```
LR = linear_model.LinearRegression()
y_preds=LR.predict(X_test)
print(y_preds)
```
Ausgabe:

[1 1 0 1]

'y_preds' kann jetzt verwendet werden, für die accuracy_score () - Methode: accuracy_score(y_true, y_pred)

2. Generieren Wahrscheinlichkeiten für Etiketten:

Einige Metriken wie 'precision_recall_curve(y_true, probas_pred)" erfordern Wahrscheinlichkeiten, die erzeugt werden kann, wie folgt:
```
LR = linear_model.LinearRegression()
y_preds=LR.predict_proba(X_test)
print(y_preds)
```
Ausgabe:

[0.87812372 0.77490434 0.30319547 0.84999743]
- LinearRegression gibt numerische Vorhersagen, und sicherlich nicht Wahrscheinlichkeiten; der letztere kehrte von Logistik regression-Modelle.
- scikit-learn ist LinearRegression hat nicht sind eine predict_proba Methode (docs), und es wäre in der Tat seltsam, wenn Sie es Tat. Hast du eigentlich führen Sie den code-Schnipsel, die Sie hier zeigen?
InformationsquelleAutor MLKing
1

Das problem ist, dass der wahre y Binär (Nullen und Einsen), während Ihre Vorhersagen nicht. Sie wahrscheinlich generiert Wahrscheinlichkeiten und keine Vorhersagen, daher ist das Ergebnis 🙂
Versuchen Sie stattdessen zu generieren-Klasse-Mitgliedschaft, und es sollte funktionieren!
- LinearRegression produziert numerische Vorhersagen, und nicht Wahrscheinlichkeiten; die Frage ist durch den Versuch, mit Präzision, die in eine regression Einstellung ist bedeutungslos, daher der Fehler...
InformationsquelleAutor JohnnyQ
1

Vielleicht hilft dies ja jemand, der findet diese Frage:

Als JohnnyQ bereits darauf hingewiesen, das problem ist, dass Sie nicht-Binär (nicht 0 noch 1) die Werte in Ihrem y_pred ich. e. beim hinzufügen
```
print(((y_pred != 0.) & (y_pred != 1.)).any())
```
sehen Sie True in der Ausgabe. (Der Befehl findet heraus, ob es irgendeinen Wert, der nicht 0 oder 1).

Können Sie Ihre nicht-binäre Werte mit:
```
non_binary_values = y_pred[(y_pred['score'] != 1) & (y_pred['score'] != 0)]
non_binary_idxs = y_pred[(y_pred['score'] != 1) & (y_pred['score'] != 0)].index
```
Einer print-Anweisung ausgegeben werden können, die oben abgeleitete Variablen.

Schließlich, diese Funktion reinigen können Sie Ihre Daten von allen nicht-binäre Einträge:
```
def remove_unlabelled_data(X, y):
    drop_indexes = X[(y['score'] != 1) & (y['score'] != 0)].index
    return X.drop(drop_indexes), y.drop(drop_indexes)
```
- Das problem ist der Versuch, mit Genauigkeit in eine regression (d.h. numerische Vorhersage), die bedeutungslos; jede Anregung zu überwinden, ist die produzierte Fehler durch Manipulation der Vorhersagen des Modells ist ungültig...
InformationsquelleAutor Manu CJ
-2

Im Fall erhalten Sie diese Fehlermeldung, wenn mit Orange Bibliothek (verwendet sklearn unter der Haube).

Ich hatte numpy==1.14.5 installiert einige andere python-Paket. Die Lösung war, manuell aktualisieren, numpy, um 1.16.4:
pip install -U numpy=1.16.4
- Können Sie mir sagen, der Grund für einen downvote?
InformationsquelleAutor Roman Orac

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.