Unterschiedliche Ergebnisse zwischen Debug und Release

Habe ich das problem, dass mein code gibt unterschiedliche Ergebnisse beim Vergleich von debug zu release. Ich habe überprüft, dass beide Modi mit /fp:precise, also das sollte nicht das problem sein. Das Hauptproblem habe ich mit diesem ist, dass die komplette image-Analyse (es ist ein Bild Verständnis project) ist vollständig deterministisch, es gibt absolut nichts zufällig.

Ein weiteres Problem mit diesem ist die Tatsache, dass meine Version tatsächlich immer liefert das gleiche Ergebnis (23.014 für die Bild), wenn der debug-gibt einen zufälligen Wert zwischen 22 und 23, die sollten einfach nicht sein. Ich habe bereits geprüft, ob es möglicherweise Faden verwandt, aber nur ein Teil des Algorithmus, die multi-Thread gibt der genau das gleiche Ergebnis für beide debug und release.

Was sonst noch hier passiert?

Update1: Der code, den ich jetzt verantwortlich für dieses Verhalten:

float PatternMatcher::GetSADFloatRel(float* sample, float* compared, int sampleX, int compX, int offX)
{
    if (sampleX != compX)
    {
        return 50000.0f;
    }
    float result = 0;

    float* pTemp1 = sample;
    float* pTemp2 = compared + offX;

    float w1 = 0.0f;
    float w2 = 0.0f;
    float w3 = 0.0f;

    for(int j = 0; j < sampleX; j ++)
    {
        w1 += pTemp1[j] * pTemp1[j];
        w2 += pTemp1[j] * pTemp2[j];
        w3 += pTemp2[j] * pTemp2[j];
    }               
    float a = w2 / w3;
    result = w3 * a * a - 2 * w2 * a + w1;
    return result / sampleX;
}

Update2:
Dies ist nicht reproduzierbar mit 32bit-code. Während der debug-und release-code wird immer der gleiche Wert für 32bit, es ist noch immer anders aus, die 64-bit version und die 64-bit-debug -, noch liefert einige absolut zufällige Werte.

Update3:
Okay, ich fand es, um sicher zu sein, verursacht durch OpenMP. Wenn ich es deaktivieren, funktioniert es einwandfrei. (sowohl Debug-als auch Release mit ein und demselben code, und beide haben OpenMP aktiviert).

Folgende code ist der code, gebe mir Mühe:

#pragma omp parallel for shared(last, bestHit, cVal, rad, veneOffset)
for(int r = 0; r < 53; ++r)
{
    for(int k = 0; k < 3; ++k)
    {
        for(int c = 0; c < 30; ++c)
        {
            for(int o = -1; o <= 1; ++o)
            {
                /*
                r: 2.0f - 15.0f, in 53 steps, representing the radius of blood vessel
                c: 0-29, in steps of 1, representing the absorption value (collagene)
                iO: 0-2, depending on current radius. Signifies a subpixel offset (-1/3, 0, 1/3)
                o: since we are not sure we hit the middle, move -1 to 1 pixels along the samples
                */

                int offset = r * 3 * 61 * 30 + k * 30 * 61 + c * 61 + o + (61 - (4*w+1))/2;

                if(offset < 0 || offset == fSamples.size())
                {
                    continue;
                }
                last = GetSADFloatRel(adapted, &fSamples.at(offset), 4*w+1, 4*w+1, 0);
                if(bestHit > last)
                {
                    bestHit = last;
                    rad = (r+8)*0.25f;
                    cVal = c * 2;
                    veneOffset =(-0.5f + (1.0f / 3.0f) * k + (1.0f / 3.0f) / 2.0f);
                    if(fabs(veneOffset) < 0.001)
                        veneOffset = 0.0f;
                }
                last = GetSADFloatRel(input, &fSamples.at(offset), w * 4 + 1, w * 4 + 1, 0);
                if(bestHit > last)
                {
                    bestHit = last;
                    rad = (r+8)*0.25f;
                    cVal = c * 2;
                    veneOffset = (-0.5f + (1.0f / 3.0f) * k + (1.0f / 3.0f) / 2.0f);
                    if(fabs(veneOffset) < 0.001)
                        veneOffset = 0.0f;
                }
            }
        }
    }
}

Hinweis: mit Release-Modus und OpenMP aktiviert ist, bekomme ich das gleiche Ergebnis wie mit der Deaktivierung von OpenMP. Debug-Modus und OpenMP aktiviert, bekommt ein anderes Ergebnis, OpenMP deaktiviert, erhält das gleiche Ergebnis wie bei Release.

Wir könnten mehr helfen, wenn wir sehen, einige code. Im Allgemeinen, meine Vermutung ist, dass Sie Locker syntax irgendwo, dass der normale compiler versteht richtig, aber der debugger nicht.
verwenden valgrind zu überprüfen, wenn Sie einige Speicher-Korruption, die möglicherweise dazu führen, dass nicht deterministisch Verhalten.
Interessant. Die üblichen Heisenbug situation ist, dass das debugging wird mehr zuverlässige Ergebnisse.
Riecht wie ein Undefiniertes Verhalten...
Release und debug sind nur verschiedene Sätze von Projekt-Optionen - Sie können ändern Sie die Optionen eins nach dem anderen, bis Sie finden, diejenigen, die in Ihrem Release-Ausgabe passen Sie Ihre Debug-Ausgabe. Aber wir haben nicht genug Informationen, um Ihnen zu sagen, was Los ist. Drucken Sie intermediate output, Teile und herrsche... 8 - )
Hinzufügen intermediate output wird wahrscheinlich Ergebnisse als es die Kräfte einer Ordnung der Operationen auf den compiler an. Legen Sie eine printf-Anweisung und kann das problem gehen Weg, nehmen Sie es wieder aus und das problem gibt.
Ich Neige dazu, zu widersprechen. Wenn er Einsätze printfs in der Mitte seiner Berechnung Schleifen dann ja etwas bekommen könnte nachbestellt werden. Aber wenn er ruft 10 numerische Routinen und überprüft die Eingabe - /Ausgabe-dann kann dieser Ansatz helfen, ihn zu finden Sie heraus, welche der Routinen geben unterschiedliche Ergebnisse bei debug und unter release. Wenn Sie stecken, können Sie versuchen, die Verengung, das problem...
Hmmm...siehe Felix von Leitner ' s umfangreiche Präsentation auf die aktuelle assembly produziert, die von verschiedenen c-Compiler (PDF-link!). Moderne Compiler können-und wird schwer zu manipulieren-code.
Sie haben viele unsynchronised Zugriffe auf shared-Variablen innerhalb der parallelen region last und bestHit werden die meisten offensichtlichen. Diese fordert, dass Probleme auftreten, wenn der code ausgeführt wird.

InformationsquelleAutor SinisterMJ | 2012-08-14

c++debug-mode openmp release-mode visual-studio-2010

4

Rücksicht auf mein Kommentar, das ist der code, dass ist wahrscheinlich die Wurzel des Problems:
```
#pragma omp parallel for shared(last, bestHit, cVal, rad, veneOffset)
{
    ...
    last = GetSADFloatRel(adapted, &fSamples.at(offset), 4*w+1, 4*w+1, 0);
    if(bestHit > last)
    {
```
last ist nur zugewiesen werden, bevor es wieder Lesen, so ist es ein guter Kandidat für eine lastprivate variable, wenn Sie wirklich brauchen, wird der Wert aus der letzten iteration außerhalb der parallelen region. Ansonsten einfach machen es private.

Zugang zu bestHit, cVal, rad, und veneOffset synchronisiert werden sollten, die von einer kritischen region:
```
#pragma omp critical
if (bestHit > last)
{
    bestHit = last;
    rad = (r+8)*0.25f;
    cVal = c * 2;
    veneOffset =(-0.5f + (1.0f / 3.0f) * k + (1.0f / 3.0f) / 2.0f);
    if(fabs(veneOffset) < 0.001)
        veneOffset = 0.0f;
}
```
Beachten Sie, dass standardmäßig werden alle Variablen, mit Ausnahme der Zähler parallel for Schleifen und jene definiert, die innerhalb der parallelen region, die geteilt werden, d.h. die shared Klausel in Ihrem Fall tut nichts, es sei denn, Sie gelten auch für die default(none) - Klausel.

Andere Sache, die Sie sollten sich bewusst sein, dass in 32-bit-Modus von Visual Studio verwendet x87-FPU Mathematik, während im 64-bit Modus er verwendet SSE-math standardmäßig. x87-FPU hat Zwischenberechnungen mit 80-bit floating-point-Präzision (auch für Berechnungen mit float nur) während der SSE-Einheit unterstützt nur die standard-IEEE single und double-Genauigkeit. Einführung in OpenMP oder andere Parallelisierung Technik, um eine 32-bit-x87-FPU-code bedeutet, dass an bestimmten Punkten Zwischenwerte sollten zurück konvertiert werden, um die einzelnen Genauigkeit von float und wenn man ausreichend viele Zeiten zu einem leichten oder deutlichen Unterschied (abhängig von der numerischen Stabilität des Algorithmus) konnte beobachtet werden, dass zwischen den Ergebnissen aus den serial-code und die parallelen.

Basierend auf deinem code, ich würde vorschlagen, die folgenden geänderten code geben Ihnen eine gute parallele Leistung, weil es keine synchronisation bei jeder iteration:
```
#pragma omp parallel private(last)
{
    int rBest = 0, kBest = 0, cBest = 0;
    float myBestHit = bestHit;

    #pragma omp for
    for(int r = 0; r < 53; ++r)
    {
        for(int k = 0; k < 3; ++k)
        {
            for(int c = 0; c < 30; ++c)
            {
                for(int o = -1; o <= 1; ++o)
                {
                    /*
                    r: 2.0f - 15.0f, in 53 steps, representing the radius of blood vessel
                    c: 0-29, in steps of 1, representing the absorption value (collagene)
                    iO: 0-2, depending on current radius. Signifies a subpixel offset (-1/3, 0, 1/3)
                    o: since we are not sure we hit the middle, move -1 to 1 pixels along the samples
                    */

                    int offset = r * 3 * 61 * 30 + k * 30 * 61 + c * 61 + o + (61 - (4*w+1))/2;

                    if(offset < 0 || offset == fSamples.size())
                    {
                        continue;
                    }
                    last = GetSADFloatRel(adapted, &fSamples.at(offset), 4*w+1, 4*w+1, 0);
                    if(myBestHit > last)
                    {
                        myBestHit = last;
                        rBest = r;
                        cBest = c;
                        kBest = k;
                    }
                    last = GetSADFloatRel(input, &fSamples.at(offset), w * 4 + 1, w * 4 + 1, 0);
                    if(myBestHit > last)
                    {
                        myBestHit = last;
                        rBest = r;
                        cBest = c;
                        kBest = k;
                    }
                }
            }
        }
    }
    #pragma omp critical
    if (bestHit > myBestHit)
    {
        bestHit = myBestHit;
        rad = (rBest+8)*0.25f;
        cVal = cBest * 2;
        veneOffset =(-0.5f + (1.0f / 3.0f) * kBest + (1.0f / 3.0f) / 2.0f);
        if(fabs(veneOffset) < 0.001)
        veneOffset = 0.0f;
    }
}
```
Es speichert nur die Werte der Parameter, die die besten Treffer in jeden thread und dann am Ende der parallelen region berechnet rad, cVal und veneOffset auf der Grundlage der besten Werte. Jetzt ist es nur eine kritische region, und es ist am Ende der code. Kann man dies umgehen, auch, aber Sie würden die Einführung eines zusätzlichen arrays.
- Danke, mit der Erklärung zuletzt als privater hast es geschafft, jetzt bekomme ich die gleichen Ergebnisse zwischen release-und debug-Modus!
- hast du auch hinzufügen, die kritische Abschnitte? Ohne Sie bekommen Sie keine Garantie, dass Daten, die Rennen gewonnen nicht occurr.
- Ja, das habe ich, aber für 20 versucht, es machte nie einen Unterschied in Bezug auf das Ergebnis, obwohl. Eigentlich die Leistung MIT der Direktive #pragma omp critical ist noch viel schlimmer, als wenn es single-threaded in den ersten Platz.
- Ja, die kritische Abschnitte hinzufügen Synchronisations-overhead. Was Sie tun können, ist nur den Wert speichern von last, r, c und k geben, dass die besten Treffer in jeden thread in einem shared array (tun Sie es am Ende der parallelen region; das array sollte ein element pro thread; machen bestHist privat), dann außerhalb der parallelen region untersuchen Sie das array und berechnen rad, cVal und veneOffset auf der Grundlage der Werte aus dem thread, der die beste bestHit Wert.
- Ich habe ein Beispiel-code, wie Sie bekommen können, um synchonising der Zugriff auf die gemeinsam genutzten Variablen, die bei jedem Durchlauf. Beachten Sie, dass "für 20 versucht, es machte nie einen Unterschied in Bezug auf das Ergebnis" anders "würde es NIE geben, anderes Ergebnis".
- Ah, schön. Ich habe früher immer manuelle einfädeln, und bin nicht wirklich allzu vertraut mit der OpenMP-threading. Vielen Dank!
InformationsquelleAutor Hristo Iliev
8

Mindestens zwei Möglichkeiten:
1. Einschalten Optimierung kann Ergebnis in der compiler Neuordnung Operationen. Dies kann führen Sie kleine Unterschiede in der floating-point-Berechnungen im Vergleich zu der Reihenfolge ausgeführt, in den debug-Modus, bei denen der Betrieb der Neuordnung nicht auftreten. Diese kann Konto für numerische Unterschiede zwischen debug und release, aber hat nicht Konto für numerische Unterschiede von einem Lauf zum nächsten in den debug-Modus.
2. Sie haben eine Speicher-bezogene Fehler in Ihrem code, wie das Lesen/schreiben über die Grenzen des Arrays unter Verwendung einer nicht initialisierten Variablen, die Verwendung einer nicht zugewiesener Zeiger, etc. Versuchen Sie, es durch ein Speicher-checker, wie die ausgezeichnete Valgrind, solche Probleme zu identifizieren. Speicher-bezogene Fehler kann Konto für nicht-deterministisches Verhalten.
Wenn Sie auf Windows, dann Valgrind nicht verfügbar ist (schade), aber man kann schauen hier für eine Liste von alternativen.
- Ich habe deaktiviert die Optimierung komplett nun im Release-Modus, und jetzt bekomme ich die gleiche zufällige Ergebnisse im Release-Modus. Warum sollte die vollständige Optimierung Ergebnis in einem deterministischen Ergebnis, wenn der Debug gibt mir ein paar random return-Wert?
- Das erste, was ich prüfen, wenn man auf ein nicht-deterministisches Verhalten (und ich bin nicht mit Zufallszahlen) ist memory-Fehler. Sind Sie ein riesiger Schmerz auf die Spur, ohne den richtigen Werkzeugen (ich habe zu viele Tage Sie zu finden, bevor ich hatte die richtige Speicher-debugging-tools).
- Es ist in der Regel das Gegenteil, aber es ist möglich, dass der Optimierer eliminiert bestimmte Berechnungen, weil es "weiß" die Ergebnisse zeigen, wo, wie ohne Optimierung nicht. Und wenn diese Berechnungen verwenden Sie einen nicht-initialisierten Wert irgendwo...
- Eine andere Möglichkeit ist, dass einige code ist schlecht erzogen und hat unbeabsichtigte Nebenwirkungen. Ein ändern der Reihenfolge wahrscheinlich nicht beseitigen die Nebenwirkungen, aber Sie können verschieben Sie Sie auf einen Punkt in der Berechnung wo Sie sich nicht nachteilig auf das Ergebnis.
- Ich lief nun die Anwendung in der ApplicationVerifier von Microsoft, und es sagt 0 Fehler, 0 Warnungen. Interessante Sache: läuft es mit 32bit Ergebnisse wieder in einen anderen Wert (23.009), aber diese Zeit deterministisch, sowohl die debug-und release-Modus.
- Es gibt sicherlich nichts in den code gepostet, der dazu führen sollte, dass nicht-Determinismus im debug-Modus, wenn Sie wiederholt aufgerufen, mit den gleichen Eingaben. Es muss etwas sein, was außerhalb dieser Schleife, was nicht-Determinismus. Ich würde überprüfen, ob die Eingabe ist die gleiche für alle Anrufe. Das geht von "debug" optimiert der compiler kann entrollen der Schleife, die bewirkt, dass die w* add-Operationen neu geordnet werden und dazu führen, dass einige floating-point-Wert Unterschiede, aber nicht nicht-Determinismus.
InformationsquelleAutor Nathan
4

Eine Sache zu überprüfen ist, dass alle Variablen initialisiert sind. Viele Male un-optimierten code (Debug-Modus) initialisiert den Speicher.

InformationsquelleAutor Trent
2

Hätte ich gesagt: die Initialisierung der Variablen im debug-vs nicht im release. Doch Ihre Ergebnisse würden nicht wieder in diesem bis (zuverlässiges Ergebnis in der Ausgabe).

Macht Ihren code setzen auf spezifische offsets oder Größen? Debug-build würde Wachen bytes um einige Zuweisungen.

Könnte es sein, floating-point-Verbindung?

Den debug-floating-point-stack ist ein anderes release, das ist gebaut für mehr Effizienz.

Schau mal hier: http://thetweaker.wordpress.com/2009/08/28/debugrelease-numerical-differences/

InformationsquelleAutor Science_Fiction
2

Gerade über jede nicht definierte Verhalten kann für dieses Konto: initialisierten
Variablen, Schurke Zeiger, mehrere änderungen des gleichen Objekts
ohne eine dazwischenliegende Sequenz, die zeigen, etc. etc. Die Tatsache, dass die
die Ergebnisse sind manchmal unreproduceable argumentiert eher für eine
nicht initialisierte variable, es kann aber auch vorkommen von Zeiger-Probleme oder
bounds-Fehler.

Bewusst sein, dass die Optimierung ändern können Ergebnisse, vor allem auf einem Intel.
Optimierung ändern können, welche Zwischenwerte spill-Speicher, und
wenn Sie schon nicht gezielt verwendet Klammern, auch die Reihenfolge der Auswertung
in einem Ausdruck. (Und wie wir alle wissen, im Maschinen-floating-point -, (a + b) + c) != a + (b + c).) Noch sollten die Ergebnisse deterministisch sein:
erhalten Sie unterschiedliche Ergebnisse, je nach dem Grad der Optimierung,
aber für eine beliebige Gruppe von Optimierungs-flags, sollten Sie die gleichen Ergebnisse erhalten.

InformationsquelleAutor James Kanze

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.