Die OpenMP-threads auf der selben cpu-Kern

Ich bin derzeit Programm zu parallelisieren mit openmp auf einem 4-core phenom2. Jedoch bemerkte ich, dass meine Parallelisierung tut man nicht alles für die performance. Natürlich habe ich angenommen, habe ich etwas verpasst (falsesharing, Serialisierung durch Schleusen, ...), aber ich war nicht in der Lage zu finden, etwas. Außerdem wird von der CPU-Auslastung, schien es, wie das Programm ausgeführt wurde, nur auf einem core. Aus dem, was ich sched_getcpu() sollte mir die Id der Kern der thread ausführen, der Aufruf wird derzeit geplant. Also schrieb ich das folgende test-Programm:

#include <iostream>
#include <sstream>
#include <omp.h>
#include <utmpx.h>
#include <random>
int main(){
    #pragma omp parallel
    {
        std::default_random_engine rand;
        int num = 0;
    #pragma omp for
        for(size_t i = 0; i < 1000000000; ++i) num += rand();
    auto cpu = sched_getcpu();
    std::ostringstream os;
        os<<"\nThread "<<omp_get_thread_num()<<" on cpu "<<sched_getcpu()<<std::endl;
        std::cout<<os.str()<<std::flush;
    std::cout<<num;
    }
}

Auf meinem Rechner dies gibt die folgende Ausgabe(die Zufallszahlen variieren natürlich):

Thread 2 on cpu 0 num 127392776
Thread 0 on cpu 0 num 1980891664
Thread 3 on cpu 0 num 431821313
Thread 1 on cpu 0 num -1976497224

Von diesem ich gehe davon aus, dass alle threads ausführen auf dem gleichen Kern (mit id 0). Um mehr Sicherheit ich habe auch versucht, den Ansatz von diese Antwort. Die Ergebnisse, wo das gleiche. Zusätzlich mit #pragma omp parallel num_threads(1) nicht machen, die Ausführung langsamer (etwas schneller, in der Tat), Kreditvergabe Glaubwürdigkeit der Theorie, dass alle threads die gleiche cpu, jedoch ist die Tatsache, dass die cpu immer angezeigt, wie 0 macht mich irgendwie misstrauisch. Zusätzlich habe ich überprüft GOMP_CPU_AFFINITY wurde zunächst nicht festgelegt ist, also ich habe versucht, es zu 0 1 2 3, die gebunden werden muss jeder thread auf einem anderen Kern von dem, was ich verstehe. Jedoch, dass nicht einen Unterschied machen.

Da die Entwicklung auf einem windows-system habe, verwende ich linux in virtualbox für meine Entwicklung. Also ich dachte, dass vielleicht das virtuelle system konnte nicht auf alle Kerne. Aber die überprüfung der Einstellungen von virtualbox zeigte sich, dass die virtuelle Maschine bekommen soll alle 4 Kerne und die Ausführung meiner test-Programm 4 mal zur gleichen Zeit scheint die Verwendung aller 4 Kerne zu urteilen, ist die cpu-Auslastung (und die Tatsache, dass das system sehr standfest).

Also, meine Frage ist im Grunde, was genau Los ist hier. Mehr auf den Punkt:
Ist mein Abzug, dass alle threads die gleiche core-richtig? Wenn es ist, was könnten die Gründe für dieses Verhalten?

hier ist ein allgemeiner Fehler, hast du die Umgebungsvariable OMP_NUM_THREADS =4?
OMP_NUM_THREADS scheint nicht eingestellt zu sein, aber da openmp erstellt 4 threads, die ich glaube nicht, dass ich brauchen würde.
komisch, ich denke, es könnte etwas werden mit der virtuellen Maschine habe ich versucht den gleichen code noch installiert utmpx.h und es schien zu funktionieren, auf eine 8 und eine 16-core-Maschine
Ich habe irgendwo gelesen, dass die virtuelle Maschine (guest OS) läuft als einzelner Prozess in Ihrem host-Betriebssystem. Könnte dies die Ursache für das Verhalten, das Sie sehen?
Das gleiche passiert mir auf einem 2-CPU x86-64-server mit Scientific Linux 6. Keine IDE-oder eine virtuelle Maschine in Sicht.

InformationsquelleAutor Grizzly | 2012-02-21

c++linux openmp virtualbox

6

Nach einigen Experimenten fand ich heraus, dass das problem war, dass ich angefangen mein Programm innerhalb der eclipse-IDE, die scheinbar legen Sie die Affinität mit nur einem Kern. Ich dachte ich hab die gleichen Probleme beim starten von außerhalb der IDE, sondern eine wiederholte Tests zeigten, dass das Programm funktioniert gut, wenn von der Konsole aus gestartet, anstatt von innerhalb der ide.

InformationsquelleAutor Grizzly
2

Ich das kompilierte Programm mit g++ 4.6 auf Linux
```
g++ --std=c++0x -fopenmp test.cc -o test
```
Der Ausgang war überraschend:
```
Thread 2 on cpu 2

Thread 3 on cpu 1
910270973
Thread 1 on cpu 3
910270973
Thread 0 on cpu 0
910270973910270973
```
Die Tatsache, dass die 4 threads gestartet werden (wenn Sie nicht festgelegt haben, die Anzahl der threads in irgendeiner Weise, z.B. mit OMP_NUM_THREADS) soll andeuten, dass das Programm in der Lage ist zu sehen, 4 nutzbaren CPUs. Ich kann mir nicht vorstellen, warum es nicht mit Ihnen, aber ich vermute, dass ein problem in Ihrer hardware - /software-Einstellung, die einige Umgebungsvariablen, oder in den compiler-Optionen.

InformationsquelleAutor baol
0

Sollten Sie verwenden #pragma omp parallel for

Und ja, du hast Recht über nicht benötigen OMP_NUM_THREADS. omp_set_num_threads(4); sollte auch getan haben, in Ordnung.
- Warum sollte ich Sie verwenden #pragma omp parallel for, wenn ich die threads für Dinge, die außerhalb der Schleife (wie das schreiben, Ihre id in die Ausgabe)? Und wie ich bereits erwähnt es tut Erzeuge 4 threads standardmäßig, die nur zu sein scheinen, ausgeführt auf dem gleichen Kern
- Das ist auch wahr. btw, wenn Sie nicht sagen, omp parallel, dann keine Parallelisierung geschieht in der Schleife. Aber natürlich sind Sie innerhalb eines parallelen Abschnitts, so.... Die einzige andere mögliche Erklärung, die ich denken kann, ist ein Mangel an hardware-Unterstützung für Ihr virtualbox. Haben Sie versucht, mit anderen CPU ' s? superuser.com/questions/33723/...
- Ich Tat es nicht. Aber wie bereits erwähnt ist es möglich, alle Kerne aus der vbox, so ist die mangelnde Unterstützung scheint unwahrscheinlich
InformationsquelleAutor Nav
0

wenn Sie auf windows läuft, versuchen Sie dies:

c:\windows\system32\cmd.exe /C start /affinity F path\to\your\program.exe

/affinity 1 verwendet CPU0

/affinity 2 nutzt CPU1

/affinity 3 verwendet CPU0 und CPU1

/affinity 4 verwendet CPU2

/Affinität F nutzt alle 4 Kerne

Konvertieren Sie die Zahl in hex, und sehen Sie die bits von rechts, das sind die Kerne verwendet werden.

können Sie überprüfen, die Affinität, während seine Ausführung mit dem task-manager.
- Die vbox hat die richtige Affinität zur Nutzung aller Kerne (ich habe überprüft, und außerdem, wie würde es mit Ihnen allen in meinem test mit mehrfachen Start von meinem Testprogramm). Da ich von linux in der vbox, die nicht wirklich helfen.
InformationsquelleAutor krishnaraj

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.