multiprocessing: Wie Teile ich ein dict von mehreren Prozessen?

Einem Programm erstellt mehrere Prozesse, dass die Arbeit an einem join-in der Lage Warteschlange Q, und kann schließlich zu manipulieren, ein globales Wörterbuch D Ergebnisse gespeichert werden. (so dass jedes Kind Prozess kann verwendet D zum speichern der Ergebnis-und auch sehen, welche Ergebnisse die weitere Kind-Prozesse erzeugt werden)

Wenn ich drucken Sie das Wörterbuch D in einem Kind-Prozess, sehe ich die änderungen, die gemacht wurden auf (D. H. auf D). Aber nach der main-Prozess schließt sich Q, wenn ich drucken Sie D, es ist ein leeres dict!

Ich verstehen, es ist ein Synchronisierungs - /lock-Problem. Kann mir jemand sagen, was hier passiert, und wie kann ich synchronisieren, Zugang zu D?

Dieses funktioniert nicht wie erwartet, mindestens auf python 3.7.2 mit osx 10.14.4 Dict ist nicht synchronisiert und der Inhalt wird neu geschrieben, durch andere Prozesse. Aber <code>multiprocessing.Manager().Liste()</code> funktioniert wie erwartet.

InformationsquelleAutor dop | 2011-07-26

multiprocessing python

131

Allgemeine Antwort beinhaltet die Verwendung einer Manager Objekt. Angepasst an die docs:
```
from multiprocessing import Process, Manager

def f(d):
    d[1] += '1'
    d['2'] += 2

if __name__ == '__main__':
    manager = Manager()

    d = manager.dict()
    d[1] = '1'
    d['2'] = 2

    p1 = Process(target=f, args=(d,))
    p2 = Process(target=f, args=(d,))
    p1.start()
    p2.start()
    p1.join()
    p2.join()

    print d
```
Ausgabe:
```
$ python mul.py 
{1: '111', '2': 6}
```
- Dank senderle. In der Tat, D = multiprocessing.Manager().dict() löst mein problem. Ich war mit D = dict().
- funktioniert mit Manager - ().dict (), nicht aber Manager().Liste()
- funktioniert perfekt für mich, sobald ich die geänderte strings, Ganzzahlen und Feste der Liste. Sie müssen einen Fehler zu machen irgendwo.
- Ist manager.dict() dieser Prozess sicher?
- wenn Sie Fragen, ob der Zugriff auf die manager synchronisiert ist, glaube ich, die Antwort ist ja. multiprocessing.Manager() gibt ein Instanz der SyncManager, die Namen, die vermuten lässt, wie viel!
- Ich möchte numpy zufälligen Zustand von einem übergeordneten Prozess mit einem Kind-Prozess. Ich habe versucht, mit Manager aber noch kein Glück. Könnten Sie bitte einen Blick auf meine Frage, here und sehen, wenn Sie eine Lösung anbieten? Ich kann immer noch verschiedene Zufallszahlen, wenn ich np.random.seed(None) jedes mal, wenn ich eine zufällige Zahl erzeugt, aber dieser hat mir nicht erlauben, verwenden Sie die random-Status des übergeordneten Prozesses, das ist nicht das, was ich will. Jede Hilfe wird sehr geschätzt.
InformationsquelleAutor senderle
20

multiprocessing ist nicht wie threading. Jeder Kind-Prozess bekommt eine Kopie der wichtigsten Prozess-Speicher. Allgemein Zustand ist geteilt über Kommunikation (pipes/sockets), Signale, oder shared memory.

Multiprocessing macht einige Abstraktionen, die es für Ihre use - case- gemeinsamen Zustand, der behandelt, wie lokale, die durch die Nutzung von Proxys oder shared memory: http://docs.python.org/library/multiprocessing.html#sharing-state-between-processes

Relevanten Abschnitte:
- http://docs.python.org/library/multiprocessing.html#shared-ctypes-objects
- http://docs.python.org/library/multiprocessing.html#module-multiprocessing.managers
- Vielen Dank. Sie führte mich um die/eine Lösung: multiprocessing.Manager().dict().
- Kann jemand erläutern, was die Aussage "Jedes Kind Prozess bekommt eine Kopie der wichtigsten Prozess-Speicher" bedeutet.
- standardmäßig erzeugte Prozess hat keinen Zugriff auf den Speicher des übergeordneten Prozesses (dies ist eine von dieschlüssel Unterschiede zur threads). Also, wenn ein Prozess ein Objekt des übergeordneten Prozesses, es ist zum erstellen einer Kopie (anstelle einer Referenz auf das eigentliche Objekt). Die Antwort oben beschreibt, wie zum freigeben von Objekten zwischen Prozessen.
InformationsquelleAutor Jeremy Brown

Ich würde gerne meine eigene Arbeit, die ist schneller als die Manager dict und ist einfacher und stabiler als pyshmht Bibliothek verwendet, Tonnen von Speicher und funktioniert nicht für Mac OS. Obwohl mein dict funktioniert nur für unformatierte strings und ist unveränderlich aktuell.
Ich verwenden Sie linear probing Umsetzung und speichern der Schlüssel und Werte Paare in einem separaten Speicher block nach der Tabelle.

from mmap import mmap
import struct
from timeit import default_timer
from multiprocessing import Manager
from pyshmht import HashTable


class shared_immutable_dict:
    def __init__(self, a):
        self.hs = 1 << (len(a) * 3).bit_length()
        kvp = self.hs * 4
        ht = [0xffffffff] * self.hs
        kvl = []
        for k, v in a.iteritems():
            h = self.hash(k)
            while ht[h] != 0xffffffff:
                h = (h + 1) & (self.hs - 1)
            ht[h] = kvp
            kvp += self.kvlen(k) + self.kvlen(v)
            kvl.append(k)
            kvl.append(v)

        self.m = mmap(-1, kvp)
        for p in ht:
            self.m.write(uint_format.pack(p))
        for x in kvl:
            if len(x) <= 0x7f:
                self.m.write_byte(chr(len(x)))
            else:
                self.m.write(uint_format.pack(0x80000000 + len(x)))
            self.m.write(x)

    def hash(self, k):
        h = hash(k)
        h = (h + (h >> 3) + (h >> 13) + (h >> 23)) * 1749375391 & (self.hs - 1)
        return h

    def get(self, k, d=None):
        h = self.hash(k)
        while True:
            x = uint_format.unpack(self.m[h * 4:h * 4 + 4])[0]
            if x == 0xffffffff:
                return d
            self.m.seek(x)
            if k == self.read_kv():
                return self.read_kv()
            h = (h + 1) & (self.hs - 1)

    def read_kv(self):
        sz = ord(self.m.read_byte())
        if sz & 0x80:
            sz = uint_format.unpack(chr(sz) + self.m.read(3))[0] - 0x80000000
        return self.m.read(sz)

    def kvlen(self, k):
        return len(k) + (1 if len(k) <= 0x7f else 4)

    def __contains__(self, k):
        return self.get(k, None) is not None

    def close(self):
        self.m.close()

uint_format = struct.Struct('>I')


def uget(a, k, d=None):
    return to_unicode(a.get(to_str(k), d))


def uin(a, k):
    return to_str(k) in a


def to_unicode(s):
    return s.decode('utf-8') if isinstance(s, str) else s


def to_str(s):
    return s.encode('utf-8') if isinstance(s, unicode) else s


def mmap_test():
    n = 1000000
    d = shared_immutable_dict({str(i * 2): '1' for i in xrange(n)})
    start_time = default_timer()
    for i in xrange(n):
        if bool(d.get(str(i))) != (i % 2 == 0):
            raise Exception(i)
    print 'mmap speed: %d gets per sec' % (n / (default_timer() - start_time))


def manager_test():
    n = 100000
    d = Manager().dict({str(i * 2): '1' for i in xrange(n)})
    start_time = default_timer()
    for i in xrange(n):
        if bool(d.get(str(i))) != (i % 2 == 0):
            raise Exception(i)
    print 'manager speed: %d gets per sec' % (n / (default_timer() - start_time))


def shm_test():
    n = 1000000
    d = HashTable('tmp', n)
    d.update({str(i * 2): '1' for i in xrange(n)})
    start_time = default_timer()
    for i in xrange(n):
        if bool(d.get(str(i))) != (i % 2 == 0):
            raise Exception(i)
    print 'shm speed: %d gets per sec' % (n / (default_timer() - start_time))


if __name__ == '__main__':
    mmap_test()
    manager_test()
    shm_test()

Auf meinem laptop performance-Ergebnisse sind:

mmap speed: 247288 gets per sec
manager speed: 33792 gets per sec
shm speed: 691332 gets per sec

einfaches Beispiel:

ht = shared_immutable_dict({'a': '1', 'b': '2'})
print ht.get('a')

Github? Dokumentation? wie können wir dieses tool nutzen?

InformationsquelleAutor alyaxey

Zusätzlich zu @senderle hier, manche werden sich vielleicht auch Fragen, wie, um die Funktionalität verwenden, die von multiprocessing.Pool hier.

Das schöne ist, dass es eine .Pool() Methode, um die manager Instanz, die imitiert bekannte API der obersten Ebene multiprocessing.

from itertools import repeat
import multiprocessing as mp
import os
import pprint

def f(d):
    pid = os.getpid()
    d[pid] = "Hi, I was written by process %d" % pid

if __name__ == '__main__':
    with mp.Manager() as manager:
        d = manager.dict()
        with manager.Pool() as pool:
            pool.map(f, repeat(d, 10))
        # `d` is a DictProxy object that can be converted to dict
        pprint.pprint(dict(d))

Ausgabe:

$ python3 mul.py 
{22562: 'Hi, I was written by process 22562',
 22563: 'Hi, I was written by process 22563',
 22564: 'Hi, I was written by process 22564',
 22565: 'Hi, I was written by process 22565',
 22566: 'Hi, I was written by process 22566',
 22567: 'Hi, I was written by process 22567',
 22568: 'Hi, I was written by process 22568',
 22569: 'Hi, I was written by process 22569',
 22570: 'Hi, I was written by process 22570',
 22571: 'Hi, I was written by process 22571'}

Dies ist ein etwas anderes Beispiel, bei dem jeder Prozess nur protokolliert die Prozess-ID der globalen DictProxy Objekt d.

InformationsquelleAutor Brad Solomon

2

Vielleicht können Sie versuchen, pyshmht die gemeinsame Nutzung von Speicher-basierten hash-Tabelle-Erweiterung für Python.

Bemerken
1. Es ist nicht vollständig getestet, nur für Ihre Referenz.
2. Derzeit fehlt lock/sem Mechanismen für multiprocessing.
InformationsquelleAutor felix021

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.