CUDA-Runtime-API-Fehler 30: Wiederholt kernel-Aufrufe

Habe ich vor kurzem begonnen zu lernen CUDA, und ich stolperte ein sehr seltsames Verhalten, das ich nicht verstehen kann.

Mein code im wesentlichen berechnet eine Durchschnittliche Ausführungszeit für eine einfache atomicAdd kernel. Um dies zu erreichen, nenne ich den kernel in einer Schleife um einen besseren Durchschnitt. Ich schließe das Gerät Speicher-Allokation und-Kopien in der Schleife will ich auch in meiner Ausführung mal schätzen. Das problem ist, dass das Programm oft nicht mit Laufzeit-API-Fehler 30, wenn die Anzahl der Durchläufe durch die Schleife ist zu hoch.

Ich vermutete, dass ich vielleicht ein Problem mit meiner memory access, also ich habe memcheck laufen auf dem Programm-ohne Erfolg. Es gibt anscheinend kein memory-Fehler. Auch, wenn der kernel nur ein paar mal, es gibt keine Probleme, die auch scheinen zu zeigen, der kernel ist nicht genau das das Problem. Es ist nur, wenn ich nenne es auch Häufig in Folge, dass ich Probleme habe.

Einem Skelett mein code folgt:

for(int i = 0; i < runs; i++)
{


    //////////////////////////////////
    //Copy memory from Host to Device
    //////////////////////////////////

    cutilSafeCallNoSync( cudaMemcpy(dev_waveforms, waveforms, num_wf * wf_length *  sizeof(float), 
                        cudaMemcpyHostToDevice) );
    cutilSafeCallNoSync( cudaMemcpy(dev_delays, delays, num_wf * sizeof(int), 
                        cudaMemcpyHostToDevice) );




    ////////////////////////
    //Kernel Call
    ////////////////////////

    kernel_wrapper<float>(dev_waveforms, dev_focused, dev_delays, 
                    wf_length, num_wf, threads, blocks, kernel); 

    //copy back to host memory.
    cutilSafeCallNoSync( cudaMemcpy(focused, dev_focused, J * wf_length * sizeof(float), 
        cudaMemcpyDeviceToHost) );

}

Wieder, dieser schlägt nur, wenn läuft ist ausreichend groß. Es gibt auch andere seltsame Dinge gehen auf, aber ich werde es dabei belassen das jetzt.

Oh, ich entwickle auf Windows 7 mit Visual Studio 2010. Meine GPU ist auch als meine Grafikkarte, und ich bin besorgt darüber, dass diese seltsame Effekte.

Vielen Dank im Voraus!

Unter Windows gibt es einen watchdog-timer, die können Reise, die auf lange Kerne. Es ist möglich, dass mehrere Kerne mit no sync führen könnte, das gleiche problem. Sehen Sie, wenn es um eine Zeit-Schwellwert (z.B. 30 Sekunden).
Basierend auf dem, was @PaulR sagte, versuchen Sie, ein cudaDeviceSynchronize(); im inneren der Schleife.
Ein kurzes update: ich habe eingestellt, dass der Schwellwert für den watchdog-timer auf 8s aus dem Standard-2. Ich zunächst dachte, das geholfen hatte, als ich Erfolg 8/10 mal. Aber, ich habe wieder mal versucht und hatte eine 0% Erfolgsquote. Die Inkonsistenz macht es schwierig zu Debuggen. Noch nicht erklären, wie die änderung der array-Größe wirkt sich auf das problem. Auch der Inhalt des arrays zu haben scheint auch eine Wirkung.

InformationsquelleAutor Chance Fate | 2012-08-30

cuda

2

Den Windows-7-Treiber können batch-mehrere Befehle in eine einzige Vorlage zu bekommen, um die erhöhte Treiber-overhead von WDDM (im Vergleich zu pre-WDDM-Treiber, z.B. Win XP). Aus diesem Grund, auch wenn ein einzelner kernel nicht über den watchdog läuft in einer Schleife wie diese. Man könnte cudaDeviceSynchronize() wie @RogerDahl schlägt vor, zu versuchen, das zu umgehen (evtl. nur alle N Iterationen).

Oder auf Linux laufen.

Edit:
Runtime Error 30 ist ein unbekannter Fehler aufgetreten. Wenn dies ein watchdog timer timeout, würde ich erwarten, dass ein cudaErrorLaunchTimeout (Fehler 6). Da Sie nicht bieten vollständigen code, es ist schwer zu sagen, was den Fehler verursacht. Ich vermute es ist ein bug im kernel-code.
- Danke an alle für die Vorschläge. Ich habe 'cudaDeviceSynchronize()' innerhalb der Schleife, aber das problem besteht weiterhin. Ich bin auf der Suche in ändern der Registrierungsschlüssel, die mit dem watchdog-timer, und ich werde dies testen, aber ich vermute, das ist nicht das Problem. Ich habe festgestellt, dass ich das problem beheben, wenn ich doppelklicken die Größe des Ausgabe-arrays fokussiert und dev_focused durch setzen J=2 im code. Zum Beispiel, wenn ich runs = 1000, das Programm wird nur gelingen, 2/10 mal mit J = 1. Mit J = 2 Erfolgsquote ist 10/10. Also ist dies eine Lösung, aber eine, für die ich keine Erklärung.
InformationsquelleAutor harrism
1

Lief ich in den gleichen Fehler und festgestellt, dass mein kernel war eigentlich der überschreitung der Speicher hatte ich reserviert. Da Sie verdoppelt Ihre Puffer-und sah das problem Weg, würde ich erwarten, dass Sie möglicherweise das gleiche Problem Auftritt.

Mein Problem war ein bug in meinem Mathe zu bestimmen, wie viele threads und Blöcke, um zu starten. Ich wurde lanciert acht mal so viele Blöcke, wie ich wollte. In meinem kernel, die Mathematik, um festzustellen, welches element einen bestimmten thread, der sollte arbeiten führte Zugriff auf die außerhalb meiner array.

Stellen Sie sicher, dass Sie überprüfen, welches element(s) des Arrays jeder thread arbeitet mit, um zu verhindern, dass die Ausführung des threads, wäre der Zugriff auf/ändern von Speicher außerhalb des Arrays.

InformationsquelleAutor NickS
1

Für jemand anderen kommen zu diesem post auf der Suche nach einer Antwort auf warum Sie werden immer ein error 30 Meldung:

Erhalten Sie auch diese Fehlermeldung, wenn Sie versehentlich einen CPU-variable als eines der Argumente für Ihre GPU Gerät Funktion. Dies ist die häufigste Ursache für dieses problem für mich. Sie würden denken, daß nach so vielen Zeiten der versehentlich die Platzierung der cpu kopieren der Variablen als ein argument, das man lernen würde, aber ...

Stellen Sie sicher, dass alle Ihre Argumente für Ihr Gerät-Funktion:
myDeviceFunciont<<<1,N>>>(argument1, argument2, argument3)

sind GPU-Variablen (sprich: die Variablen, die Sie in cudaMalloc & cudaMemcpy Speicher auf der GPU)

InformationsquelleAutor Chris

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.