Wie zu tun, gewichtete Stichprobe von Kategorien in python

Gegeben eine Liste von Tupeln, wobei jedes Tupel besteht aus einer Wahrscheinlichkeit und eine Sache möchte ich zum Beispiel ein Element entsprechend seiner Wahrscheinlichkeit. Zum Beispiel, geben Sie die Liste [ (.3, 'a'), (.4, 'b'), (.3, 'c')] ich würde gerne auf Probe " b " 40% der Zeit.

Was ist der übliche Weg, dies zu tun, in python?

Habe ich mir angeschaut das random-Modul, das scheint nicht zu haben eine entsprechende Funktion und numpy.zufällig die, obwohl es eine polynomial-Funktion scheint nicht zu die Ergebnisse in eine schöne form für dieses problem. Ich bin im Grunde auf der Suche nach etwas wie mnrnd in matlab.

Vielen Dank.

Danke für die vielen Antworten, so schnell. Um zu klären, ich bin nicht auf der Suche nach Erklärungen, wie zu schreiben, ein sampling-Schema, sondern verwies auf einfache Weise eine Stichprobe aus einer multinomial-Verteilung gegeben sei eine Menge von Objekten und gewichten oder gesagt werden, dass keine solche Funktion existiert in der standard-Bibliothek und so sollte man schreiben, die eigenen.

Dieses wurde abgedeckt, bevor. Hier ist meine eigene Meinung: stackoverflow.com/questions/3655430/...
mögliche Duplikate von Eine gewichtete version von random.Wahl
numpy.random.multniomial IST mnrnd. Genauer gesagt willst du eine Liste wo die Reihenfolge ist nicht wichtig, z.B. [a,a,a,b,b,b,b,c,c,c] oder eine Verteilung mit einer pseudo-zufälligen Reihenfolge.
Dies nennt man den kategorischen distribution, durch die Art und Weise.

InformationsquelleAutor John | 2011-06-21

10
```
import numpy

n = 1000
pairs = [(.3, 'a'), (.3, 'b'), (.4, 'c')]
probabilities = numpy.random.multinomial(n, zip(*pairs)[0])
result = zip(probabilities, zip(*pairs)[1])
# [(299, 'a'), (299, 'b'), (402, 'c')]
[x[0] * x[1] for x in result]
# ['aaaaaaaaaa', 'bbbbbbbbbbbbbbbbbbb', 'cccccccccccccccccccc']
```
Wie genau möchten Sie die Ergebnisse erhalten?
- Ich habe ausgetauscht, die reduce()-Wahnsinn für eine besser lesbare Liste-comphehension. (Ich bin mir nicht sicher, ob Sie benachrichtigt werden, wenn ich Editiere meinen Beitrag jetzt...)
- FWIW, IMHO sholte's Antwort ist viel einfacher ein. Und kann man es verlängern zu handhaben beliebige Elemente sehr einfache Art und Weise (wie gezeigt). Dank
- Sie können ändern, mein code, um ähnliche Ergebnisse zu sholte ist: numpy.random.multinomial(5, [.3, .3, .4]) - möglicherweise-Rückgabe: array([2, 2, 1]). sholte entspricht das Ergebnis könnte wie folgt Aussehen: array([1, 0, 2, 0, 1]). Ich sehe nicht, wie sich sein code wäre einfacher als das. Wenn Sie kümmern sich um die Bestellung, sein Ergebnis wäre nützlicher, wenn Sie nicht, mir wäre. Jedenfalls, ich habe code, um seinen input, Arbeit in meinem code und bringt das Ergebnis zurück in eine form, die ich dachte, könnte für ihn von nutzen.
- Ich aktualisiert meine Antwort. Bitte beachten Sie, dass, wenn Sie kommentieren, meine größte Sorge war es, in die Lesbarkeit des Codes. Jedenfalls, deine Antwort ist richtig, und nach einigen geistigen Ringen es zeigt sich die Schönheit der multinomial's. Dank
- Ja, es ist wirklich nicht lesbar ist 🙂 ich blieb nur der Eingang, wie es von John, das ist, warum es stellte sich heraus, etwas hässlich 🙂 - wrestling ist ein guter Weg, es zu setzen. Deins sieht sehr sauber jetzt.
InformationsquelleAutor phant0m
19

Diese könnten tun, was Sie wollen:
```
numpy.array([.3,.4,.3]).cumsum().searchsorted(numpy.random.sample(5))
```
- Werke für numerische Wahlen, sondern kann verallgemeinert werden durch die Spaltung von einem Wörterbuch in ein Wahrscheinlichkeiten-array und ein Werte-array, und die Rückgabe einer sampler Funktion. Trotz der Komplikation, und vorausgesetzt, man gibt ein sampler, damit man nicht haben, um neu berechnen, die kumulative Summe, +1, da ist effizient für große arrays aufgrund numpy tun binäre Suche.
- Ich wünschte, jemand würde erklären das besser. Wenn [.3,.4,.3] sind die GEWICHTE, wie sollen wir, um die Werte mit Ihnen verbunden?
- in diesem Fall lassen die Stichprobe Wahrscheinlichkeiten werden sampled und Werte werden vals=['a','b','c']. Dann werden die abgetasteten Werte werden einfach map(lambda x:vals[x], sampled).
InformationsquelleAutor sholte
10

Da niemand benutzt die numpy.random.Wahl Funktion, hier ist eines, das zu generieren, was Sie brauchen, in einem einzigen, kompakten line:
```
numpy.random.choice(['a','b','c'], size = 20, p = [0.3,0.4,0.3])
```
- Dies ist die einfachste Lösung. Ist das p-argument zu random.Wahl relativ neu?
- schon seit geraumer Zeit, ich glaube (in Anbetracht, dass die Antwort arbeitete im Sept 2015).
- Dies funktioniert wunderbar für mich, hier im Jahr 2017, ich war nur neugierig, da die Lösungen rund um die Zeit der ursprünglichen Frage im Jahr 2011 sind alle längeren.
- Eine Zeile, intuitiv zu verstehen, Jahre später. Dies sollte die Antwort vergeben.
InformationsquelleAutor JP_smasher
3

Gibt es hacks, die Sie tun können, wenn, zum Beispiel, Ihre Wahrscheinlichkeiten passen gut in Prozentsätze, etc.

Zum Beispiel, wenn Sie fein sind die Prozentsätze, die folgenden arbeiten (auf Kosten einer hohen Speicher-overhead):

Aber der "echte" Weg, es zu tun mit beliebigen float-Wahrscheinlichkeiten ist, die Probe aus der kumulativen Verteilung nach bauen. Dies entspricht der Unterteilung der Einheit Intervall [0,1] in 3 Liniensegmente bezeichnet 'a','b' und 'c'; dann ist Kommissionierung einen beliebigen Punkt auf der Einheit Intervall und sehen, welche Strecke es.
```
#!/usr/bin/python3
def randomCategory(probDict):
    """
        >>> dist = {'a':.1, 'b':.2, 'c':.3, 'd':.4}

        >>> [randomCategory(dist) for _ in range(5)]
        ['c', 'c', 'a', 'd', 'c']

        >>> Counter(randomCategory(dist) for _ in range(10**5))
        Counter({'d': 40127, 'c': 29975, 'b': 19873, 'a': 10025})
    """
    r = random.random() # range: [0,1)
    total = 0           # range: [0,1]
    for value,prob in probDict.items():
        total += prob
        if total>r:
            return value
    raise Exception('distribution not normalized: {probs}'.format(probs=probDict))
```
Muss man vorsichtig sein, von Methoden, die Werte zurückgeben, auch wenn deren Wahrscheinlichkeit 0 ist. Glücklicherweise funktioniert diese Methode nicht, aber nur, wenn man einfügen könnte if prob==0: continue.

Für das Protokoll, hier ist der hackish Weg, es zu tun:
```
import random

def makeSampler(probDict):
    """
        >>> sampler = makeSampler({'a':0.3, 'b':0.4, 'c':0.3})
        >>> sampler.sample()
        'a'
        >>> sampler.sample()
        'c'
    """
    oneHundredElements = sum(([val]*(prob*100) for val,prob in probDict.items()), [])
    def sampler():
        return random.choice(oneHundredElements)
    return sampler
```
Jedoch, wenn Sie don ' T haben die Auflösung Fragen... das ist wohl tatsächlich der Schnellste Weg möglich. =)
- -1 für die "hackish" Weg mit den Prozenten, aber +10 für die kumulative Verteilung !
- Ich habe eine Frage: probDict.Elemente() keine definierte Reihenfolge, konnte es nicht passieren, dass es nicht immer wieder die (k, v) - Paare in der gleichen Reihenfolge, die führen würde, um eine ungleichmäßige Verteilung?
- Dies ist nicht ein Problem, weil es nicht egal, in welcher Reihenfolge Sie gehen in. Jeder Algorithmus, die hier gegeben werden, sollten für die [('a',0.2),('b',0.8)] oder [('b',0.8),('a',0.2)]. Die alternative wäre, abholen ein zufälliger Reihenfolge und immer benutzen, dass man, auch durch Rücksendung der üblichen sample() generator. Meine bisherige Lösung hat, und es ist mehr Speicher. Es gibt nichts zu gewinnen, es sei denn, Sie können die Vorteile einer Strategie zum Vorsortieren Sie in einige seltsame Fraktale Struktur so, dass die binäre Suche führt zu einer deutlichen speedup für Distributionen mit viele, viele mögliche Werte...
- Ich bin mir nicht sicher, ob dies ist, was ich meinte: Wenn Sie anrufen randomCategory() für die erste Zeit, probDict.Elemente() zurückgeben kann [('a',0.2),('b',0.8)], aber wenn Sie nennen es das zweite mal, könnte es zurück [('b',0.8),('a',0.2)]. Eine Analogie vielleicht: angenommen, Sie haben einen großen Eimer (b: 0.8) und ein kleiner Eimer (a: 0.2). Sie werfen Münzen hinein, trifft immer ein, nie verpassen. Wenn Sie ständig bewegen Sie den Eimer (das denken im 1d) - oder-Schalter, sondern - würde sich das auf das Ergebnis des Experiments? Wenn ich jetzt darüber nachdenke, mit der Analogie, würde ich sagen Nein, obwohl 🙂
InformationsquelleAutor ninjagecko
1

Wie wärs mit der Erstellung 3 "ein", 4 "b" und 3 "c" in eine Liste ein, dann nur nach dem Zufallsprinzip wählen Sie eine. Mit genug Iterationen erhalten Sie die gewünschte Wahrscheinlichkeit.

InformationsquelleAutor Fredrik Pihl

Ich rechne damit, die polynomial-Funktion ist eine noch relativ einfache Möglichkeit, um Proben von einer Verteilung in zufälliger Reihenfolge. Dies ist nur eine Art

import numpy
from itertools import izip

def getSamples(input, size):
    probabilities, items = zip(*input)
    sampleCounts = numpy.random.multinomial(size, probabilities)
    samples = numpy.array(tuple(countsToSamples(sampleCounts, items)))
    numpy.random.shuffle(samples)
    return samples

def countsToSamples(counts, items):
    for value, repeats in izip(items, counts):
        for _i in xrange(repeats):
            yield value

Dem Eingänge wie angegeben [(.2, 'a'), (.4, 'b'), (.3, 'c')] und Größe ist die Anzahl der Proben, die Sie benötigen.

InformationsquelleAutor Dunes

0

Ich bin mir nicht sicher, ob dies die pythonic Weise zu tun, was Sie Fragen, aber Sie verwenden könnte
random.sample(['a','a','a','b','b','b','b','c','c','c'],k)
wobei k die Anzahl der Proben, die Sie wollen.

Für eine robuste Methode, halbieren Einheit Intervall in Abschnitte, basierend auf der kumulativen Wahrscheinlichkeit und schöpfen aus der gleichmäßigen Verteilung (0,1) random.random(). In diesem Fall ist der subintervals wäre (0,.3)(.3,.7)(.7,1). Wählen Sie das element basierend auf die subinterval es fällt.
- Bezüglich deiner Beschreibung der Einheit-Intervall-Methode, die Sie haben, um die Fälle, wo es fällt, zwischen den Intervallen und, wenn es Intervalle von 0-Länge.
- Die Wahrscheinlichkeit einer zufälligen Zahl zwischen 0 und 1 liegen zwischen den Intervallen 0 ist. Ein Intervall von 0-Länge ist 0 die Wahrscheinlichkeit von auftretenden.
- Mathematisch, ja. Aber das stimmt nicht mit floating-point-Arithmetik.
- Dies wird nur von Belang, wenn die Endpunkte der Intervalle darstellbar sind, die durch floating-point-zahlen, und wenn die extra Wahrscheinlichkeit von 1/(2^53) die Angelegenheiten, die op soll wohl roll seinen/Ihren eigenen Funktionen.
InformationsquelleAutor Marty B
0

Nur inspiriert von sholte's sehr einfache (und richtige) Antwort: ich werde nur zeigen, wie einfach es sein wird zu verlängern, um Griff beliebigen Elementen, wie:
```
In []: s= array([.3, .4, .3]).cumsum().searchsorted(sample(54))
In []: c, _= histogram(s, bins= arange(4))
In []: [item* c[i] for i, item in enumerate('abc')]
Out[]: ['aaaaaaaaaaaa', 'bbbbbbbbbbbbbbbbbbbbbbbbbb', 'cccccccccccccccc']
```
Update:

Basierend auf dem feedback von phant0m es stellt sich heraus, dass eine noch einfachere Lösung umgesetzt werden kann, basierend auf multinomial wie:
```
In []: s= multinomial(54, [.3, .4, .3])
In []: [item* s[i] for i, item in enumerate('abc')]
Out[]: ['aaaaaaaaaaaaaaa', 'bbbbbbbbbbbbbbbbbbbbbbbbbbb', 'cccccccccccc']
```
IMHO haben wir hier eine schöne Zusammenfassung empirical cdf und multinomial based sampling nachgeben ähnliche Ergebnisse. So, in Zusammenfassung, es abholen eine, die am besten für Ihre Zwecke.

InformationsquelleAutor eat

Kann dies von marginalen nutzen, aber ich habe es auf diese Weise:

import scipy.stats as sps
N=1000
M3 = sps.multinomial.rvs(1, p = [0.3,0.4,0.3], size=N, random_state=None)
M3a = [ np.where(r==1)[0][0] for r in M3 ] # convert 1-hot encoding to integers

Dies ist ähnlich zu @Essen Antwort.

InformationsquelleAutor Astrid

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.