Was ist der Unterschied zwischen OneVsRestClassifier und MultiOutputClassifier in scikit lernen?

Kann mir bitte jemand erklären (mit Beispiel vielleicht), was ist der Unterschied zwischen OneVsRestClassifier und MultiOutputClassifier in scikit-learn?

Ich habe gelesen, Dokumentation und ich habe verstanden, dass wir verwenden:

OneVsRestClassifier - wenn wir wollen, zu tun multiclass-oder multilabel-Klassifizierung, und es ist die Strategie besteht aus passend für einen Klassifikator pro Klasse. Für jeden Klassifikator, der Klasse angebracht ist gegen alle anderen Klassen. (Dies ist ziemlich klar, und es bedeutet, dass problem der multiclass/multilabel-Klassifikation unterteilt in mehrere binäre Klassifikation von Problemen).
MultiOutputClassifier - wenn wir wollen, zu tun multi-target-Klassifizierung (was ist das?) und es ist die Strategie besteht aus passend für einen Klassifikator pro Ziel (was bedeutet target bedeutet es?)

Hab ich auch schon benutzt OneVsRestClassifier für multilabel-Klassifizierung, und ich kann verstehen, wie es funktioniert, aber dann fand ich MultiOutputClassifier und kann nicht verstehen, wie funktioniert es anders aus OneVsRestClassifier.

InformationsquelleAutor delusionX | 2017-03-15

26

Multiclass Klassifizierung

Zur besseren Veranschaulichung der Unterschiede, lassen Sie uns annehmen, dass Ihr Ziel ist es, dass bei der Klassifizierung von Fragen in n_classes verschiedene, sich gegenseitig ausschließende Klassen. Aus Gründen der Einfachheit in diesem Beispiel werden wir nur berücksichtigen, vier Klassen, nämlich 'Python', 'Java', 'C++' und 'Other language'. Lassen Sie uns annehmen, dass Sie einen Datensatz gebildet von nur sechs Fragen, und die Klasse Etiketten diese Fragen werden in einem array gespeicherten y wie folgt:
```
import numpy as np
y = np.asarray(['Java', 'C++', 'Other language', 'Python', 'C++', 'Python'])
```
Die oben beschriebene situation ist in der Regel bezeichnet als multiclass Klassifizierung (auch bekannt als multinomial-Klassifikation). Um der Systematik und Validierung des Modells durch die scikit-learn Bibliothek, die Sie transformieren müssen Sie die text-class-labels in die numerische labels. Um dies zu erreichen, könnten Sie LabelEncoder:
```
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y_numeric = le.fit_transform(y)
```
Dies ist, wie die Etiketten Ihrer Daten codiert werden:
```
In [220]: y_numeric
Out[220]: array([1, 0, 2, 3, 0, 3], dtype=int64)
```
wo diese zahlen bezeichnen die Indizes der folgenden array:
```
In [221]: le.classes_
Out[221]: 
array(['C++', 'Java', 'Other language', 'Python'], 
      dtype='|S14')
```
Ein wichtiger Sonderfall ist, wenn es nur zwei Klassen, d.h. n_classes = 2. Dies ist in der Regel genannt binäre Klassifikation.

Multilabel-Klassifizierung

Lassen Sie uns nun annehmen, die Sie ausführen möchten wie multiclass Klassifizierung mit einem pool von n_classes binäre Klassifikatoren, wird n_classes die Anzahl der verschiedenen Klassen. Jede dieser binären Klassifizierer macht eine Entscheidung darüber, ob ein Element einer bestimmten Klasse ist oder nicht. In diesem Fall können Sie encode-class-labels wie ganze zahlen von 0 zu n_classes - 1 Sie müssen zum erstellen einer 2-dimensionalen matrix-Anzeige statt. Bedenken Sie, dass sample - n ist Klasse k. Dann, die [n, k] Eintrag der Indikator-matrix ist 1 und den rest der Elemente in der Zeile n sind 0. Es ist wichtig zu beachten, dass, wenn die Klassen sich nicht gegenseitig ausschließen, kann es mehrere 1's in einer Zeile. Dieser Ansatz ist benannt multilabel-Klassifizierung und kann leicht durchgeführt werden durch MultiLabelBinarizer:
```
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
y_indicator = mlb.fit_transform(y[:, None])
```
Die Anzeige sieht wie folgt aus:
```
In [225]: y_indicator
Out[225]: 
array([[0, 1, 0, 0],
       [1, 0, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 0, 1]])
```
und die Spalte mit zahlen, wo 1's sind eigentlich Indizes dieses Arrays:
```
In [226]: mlb.classes_
Out[226]: array(['C++', 'Java', 'Other language', 'Python'], dtype=object)
```
Multioutput-Klassifikation

Was ist, wenn Sie zu klassifizieren eine bestimmte Frage ALSO nach zwei verschiedenen Kriterien gleichzeitig, z.B. Sprache und Anwendung? In diesem Fall haben Sie zu tun beabsichtigen multioutput-Klassifikation. Der Einfachheit halber werde ich nur die drei Anwendungsklassen, nämlich 'Computer Vision', 'Speech Processing' und 'Other application'. Die label-array dataset sollte 2-dimensional:
```
y2 = np.asarray([['Java', 'Computer Vision'],
                 ['C++', 'Speech Recognition'],
                 ['Other language', 'Computer Vision'],
                 ['Python', 'Other Application'],
                 ['C++', 'Speech Recognition'],
                 ['Python', 'Computer Vision']])
```
Wieder, wir müssen zu transformieren text-class-labels in numerische labels. Soweit ich weiß, diese Funktionalität ist nicht implementiert in scikit-learn und doch, so müssen Sie Ihren eigenen code schreiben. Dieser thread beschreibt einige clevere Möglichkeiten, das zu tun, aber für die Zwecke dieses Beitrags werden die folgenden Einzeiler sollte genügen:
```
y_multi = np.vstack((le.fit_transform(y2[:, i]) for i in range(y2.shape[1]))).T
```
Den codierten Etiketten wie folgt Aussehen:
```
In [229]: y_multi
Out[229]: 
array([[1, 0],
       [0, 2],
       [2, 0],
       [3, 1],
       [0, 2],
       [3, 0]], dtype=int64)
```
Und die Bedeutung der Werte in jeder Spalte abgeleitet werden kann aus den folgenden Feldern:
```
In [230]: le.fit(y2[:, 0]).classes_
Out[230]: 
array(['C++', 'Java', 'Other language', 'Python'], 
      dtype='|S18')

In [231]: le.fit(y2[:, 1]).classes_
Out[231]: 
array(['Computer Vision', 'Other Application', 'Speech Recognition'], 
      dtype='|S18')
```
- Diese Antwort, während informativ, hat auch nicht wirklich OP ' s Frage "Was ist die Unterschiede zwischen sklearn ist OneVsRestClassifier und MultiOutputClassifier Klassen."
- Diese können dazu führen, dass ein edit, aber OneVsRestClassifier Antworten der Multilabel-Klassifizierung (wenn Y eine matrix ist) oder Multiclass Klassifizierung (wenn y ist ein 1d-array), während MultiOutputClassifier Antworten speziell zu Multioutput-Klassifikation. Auch, soweit ich weiß, Multioutput-Klassifizierung funktioniert nur mit unterschiedlichen multiclass Klassifikationen.
InformationsquelleAutor Tonechas

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Multiclass Klassifizierung

Multilabel-Klassifizierung

Multioutput-Klassifikation