Python-multiprocessing für parallele Prozesse

Tut mir Leid wenn das zu einfach für einige Leute, aber ich verstehe immer noch nicht den trick mit python-multiprocessing. Ich habe gelesen

http://docs.python.org/dev/library/multiprocessing

http://pymotw.com/2/multiprocessing/basics.html
und viele andere tutorials und Beispiele, die google mir gibt,... viele von Ihnen von hier aus zu.

Gut, meine situation ist die, dass ich haben, um zu berechnen, viele numpy-Matrizen, und ich brauche, um Sie zu speichern in einer einzigen numpy matrix hinterher. Sagen wir, ich will mit 20 cores (oder, dass ich 20 Kerne) aber ich habe es nicht geschafft, erfolgreich in den pool Ressource, da es hält die Prozesse am Leben, bis der pool "stirbt". Also ich dachte an sowas:

from multiprocessing import Process, Queue  
import numpy as np  

def f(q,i):  
     q.put( np.zeros( (4,4) ) ) 

if __name__ == '__main__':   
     q = Queue()   
     for i in range(30):   
          p = Process(target=f, args=(q,))  
          p.start()  
          p.join()  
     result = q.get()  
     while q.empty() == False:
          result += q.get()  
     print result

aber dann sieht es aus wie die Prozesse laufen nicht parallel, sondern Sie laufen nacheinander (bitte korrigiert mich wenn ich falsch Liege) und ich weiß nicht, ob Sie sterben, nachdem Sie Ihre Berechnung (also für mehr als 20 Prozesse, die diejenigen, die haben Ihren Teil verlassen Sie den Kern frei für einen anderen Prozess). Plus, für eine sehr große Anzahl (sagen wir 100.000), speichern alle diese Matrizen einen (wirklich groß) in eine Warteschlange verwenden eine Menge Speicher, die rendering-code nutzlos ist, da die Idee ist, jedes Ergebnis bei jeder iteration in der letzten Folge, wie Sie mit einem Schloss (und seinem Erwerb() und release () - Methoden), aber wenn dieser code nicht für die parallele Verarbeitung, die Sperre ist nutzlos...

Ich hoffe, jemand kann mir helfen.

Vielen Dank im Voraus!

InformationsquelleAutor Carlos | 2012-01-06

multiprocessing python

14

Sind Sie richtig, Sie sind ausgeführt sequentiell in deinem Beispiel.

p.join() wird der aktuelle thread blockiert, bis es fertig ist die Ausführung. Sie werden entweder beitreten wollen Ihre Prozesse individuell außerhalb deiner for-Schleife (z.B. durch Speicherung in einer Liste und dann iteriert es) oder so etwas wie numpy.Pool und apply_async mit einem Rückruf. Das wird auch lassen Sie es hinzufügen, um Ihre Ergebnisse direkt, statt die Objekte herum.

Beispiel:
```
def f(i):  
    return i*np.identity(4)

if __name__ == '__main__':
    p=Pool(5)
    result = np.zeros((4,4))
    def adder(value):
        global result
        result += value

    for i in range(30):
        p.apply_async(f, args=(i,), callback=adder)
    p.close()
    p.join()
    print result
```
Schließen und dann den Beitritt der pool am Ende sorgt dafür, dass der pool, die die Prozesse abgeschlossen haben und die result Objekt fertig berechnet. Man könnte auch untersuchen, mit Pool.imap als eine Lösung für Ihr problem. Dass insbesondere die Lösung würde wie folgt Aussehen:
```
if __name__ == '__main__':
    p=Pool(5)
    result = np.zeros((4,4))

    im = p.imap_unordered(f, range(30), chunksize=5)

    for x in im:
        result += x

    print result
```
Dieser Reiniger ist für Ihre spezifische situation, kann aber nicht sein, für was auch immer Sie letztlich versuchen, zu tun.

Als zu speichern Sie alle Ihre unterschiedliche Ergebnisse, wenn ich Ihre Frage zu verstehen, können Sie fügen Sie es einfach aus-das Ergebnis in eine in der callback-Methode (wie oben) oder Artikel-at-a-time mit imap/imap_unordered (was immer das Ergebnis speichert, aber du wirst es klar, wie es baut). Dann ist es nicht aufbewahrt werden müssen, länger als es braucht, um hinzuzufügen, um das Ergebnis.
- Vielen Dank für deine Antwort! Ich verstehe die erste Lösung mehr, und ich finde die callback-extrem hilfreich, da die imap_unordered scheint zum speichern aller Ergebnisse, und das ist, was ich nicht tun, um nicht zu Essen Speicher. Wie für den pool, ich bin mir nicht sicher (wegen dem, was ich gelesen habe über die maxtasksperchild Attribut), dass wenn ich "x" Prozessoren", 3x" Prozesse werden ausgeführt, da die "x" ersten Prozesse nicht sterben. Ich bin mir auch nicht sicher, ob der Speicher für das erste "x" Prozesse ist, frei nach dem Rückruf. Ich Frage, um nicht einfach nur "block" (mein pc, wenn Sie viele mehr und größere Matrizen
- Oh! Ich denke, jetzt verstehe ich es: Die Arbeiter Leben so lange, wie der pool ist lebendig, aber sobald Sie beenden, einen Prozess, den Sie freie Ressourcen und nehmen dann die nächste Prozess-und tun die Berechnung... Ist es das?
- Yup, das ist es. Ich würde nicht zu viel sorgen machen Pool oder der Suche nach einem Ersatz, es sei denn, Sie haben tatsächlich profiling-Daten anzeigt, dass es ein problem ist. Es gibt Optimierungen Sie machen können, aber bis Sie die demonstration, dass es ein problem im realen system die meisten von Ihnen sind nicht Wert die Mühe.
- Ich habe gerade festgestellt, dass die Prozesse wie ein Duplikat Ihrer Eltern, mit der gleichen Menge an Speicher. Beim arbeiten mit vielen Daten (Bilder als Matrizen oder Vektoren) das ist ein echtes Problem, also denke ich, ich sollte die Arbeit mit threads. Haben Sie vielleicht eine Idee, wie man das gleiche tun wie zuvor, aber mit threads? Ich werde auf jeden Fall Lesen Sie die Dokumentation und Beispiele. Vielen Dank nochmal David.
- Keine sorgen, hoffe es hilft ^_^ Es gibt ein paar verschiedene Lösungen für das Speicher-problem. Das multiprocessing-Modul ist vor allem für den Umgang mit CPU-gebundenen Probleme, während threading funktioniert am besten für E / a-gebunden Probleme, wo IO blockieren könnten. Ich würde vorschlagen, immer alles einrichten, diese Methode zu verwenden und dann zu sehen, ob es ist etwas, das Sie brauchen, um zu optimieren, um dann die öffnung noch eine Frage, um ein wenig mehr feedback auf Sie.
InformationsquelleAutor David H. Clements

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.