Wie führen Sie unter Probenahme in scikit lernen?

Wir haben ein Netzhaut-Datensatz, wobei das erkrankte Auge Informationen stellt 70 Prozent der Informationen, während die nicht erkrankten Auge stellt die restlichen 30 Prozent.Wir wollen einen Datensatz, wobei die erkrankten als auch die nicht erkrankten Proben sollten die gleiche Anzahl. Gibt es eine Funktion zur Verfügung, mit deren Hilfe wir das gleiche tun?

InformationsquelleAutor Gaurav Patil | 2015-03-23

15

Ich wählen würde, dies zu tun mit Pandas DataFrame und numpy.random.Auswahl. Auf diese Weise ist es einfach zu tun Stichproben zu produzieren gleich große Daten-sets. Ein Beispiel:
```
import pandas as pd
import numpy as np

data = pd.DataFrame(np.random.randn(7, 4))
data['Healthy'] = [1, 1, 0, 0, 1, 1, 1]
```
Dieser Daten hat zwei nicht-gesunden und fünf gesunden Proben. Um nach dem Zufallsprinzip wählen zwei Proben aus der gesunden Bevölkerung, die Sie tun:
```
healthy_indices = data[data.Healthy == 1].index
random_indices = np.random.choice(healthy_indices, 2, replace=False)
healthy_sample = data.loc[random_indices]
```
Zur automatischen Auswahl einer teilstichprobe der gleichen Größe wie die nicht-gesunden Gruppe, die Sie tun können:
```
sample_size = sum(data.Healthy == 0)  # Equivalent to len(data[data.Healthy == 0])
random_indices = np.random.choice(healthy_indices, sample_size, replace=False)
```
- Bitte korrigieren Sie mich, wenn ich falsch Liege, aber um eine teilstichprobe der gleichen Größe wie die nicht-gesunden Gruppe nach der Ernte der gesunden Gruppe, wäre es nicht: ` not_healthy = df[df.Gesund == 0].index random_indices = np.random.Wahl(not_healthy, sum(data['gesund']), replace=False) renew_sample = Daten.loc[random_indices]`
- Soweit ich sehe, beide Lösungen sind gleichwertig.
InformationsquelleAutor RickardSjogren
2

Als eine Variante, die Sie verwenden können stochastische Methode. Angenommen, Sie haben einen Datensatz data die eine große Zahl von Tupeln (X, Y), wo Y kranke Auge Informationen (0 oder 1). Bereiten Sie eine Hülle für Ihr dataset, die Pässe alle nicht erkrankten Augen und geht erkrankten Augen mit Wahrscheinlichkeit 0.3 /0.7 (Sie brauchen nur 30% der erkrankten Augen aus dem dataset).
```
from random import random


def wrapper(data):
    prob = 0.3 / 0.7

    for X, Y in data:
        if Y == 0:
            yield X, Y
        else:
            if random() < prob:
                yield X, Y


# now you can use the wrapper to extract needed information
for X, Y in wrapper(your_dataset):
    print X, Y
```
Vorsichtig sein, wenn Sie benötigen, um dieses wrapper als einen generator, der viele Male und wollen, haben identische Ergebnisse, müssen Sie Feste random-seed vor der Verwendung der Funktion random(). Mehr darüber: https://docs.python.org/2/library/random.html

InformationsquelleAutor Fomalhaut
1

Können Sie die np.random.choice für eine naive unter sampling wie bereits angedeutet, aber ein Problem kann sein, dass einige Ihrer Stichproben sehr ähnlich sind und damit verfälscht die Daten.

Eine bessere option ist die Verwendung der unausgewogen-lernen - Paket, das mehrere Optionen zum Ausgleich ein dataset. Eine gute Anleitung und Beschreibung dieser finden Sie hier.

Den Paket-Listen ein paar gute Möglichkeiten, unter Probenahme (von der github):
- Zufällige Mehrheit unter-Probenahme mit Ersatz
- Extraktion von Mehrheit-Minderheit Tomek links
- Unter-sampling mit Cluster-Centroide
- NearMiss-(1 & 2 & 3)
- Condensed Nearest Neighbour
- Einseitige Auswahl
- Neighboorhood Reinigung Regel
- Editiert Nächsten Nachbarn
- Instanz Härte Schwelle
- Wiederholt Bearbeitet Nächsten Nachbarn
- AllKNN
InformationsquelleAutor ege

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.