Warum ist das transponieren einer matrix von 512x512 viel langsamer als transponieren einer matrix von 513x513?

Nach der Durchführung einiger Experimente, die auf quadratische Matrizen in verschiedenen Größen, ein Muster kam. Immer, transponieren einer matrix der Größe 2^n langsamer ist als die Umsetzung einer Größe 2^n+1. Für kleine Werte von n, der Unterschied ist nicht bedeutend.

Große Unterschiede auftreten, jedoch über einen Wert von 512. (zumindest für mich)

Disclaimer: ich kenne die Funktion tatsächlich nicht transponieren der matrix wegen der doppelten vertauschen von Elementen, aber es macht keinen Unterschied.

Folgt der code:

#define SAMPLES 1000
#define MATSIZE 512

#include <time.h>
#include <iostream>
int mat[MATSIZE][MATSIZE];

void transpose()
{
   for ( int i = 0 ; i < MATSIZE ; i++ )
   for ( int j = 0 ; j < MATSIZE ; j++ )
   {
       int aux = mat[i][j];
       mat[i][j] = mat[j][i];
       mat[j][i] = aux;
   }
}

int main()
{
   //initialize matrix
   for ( int i = 0 ; i < MATSIZE ; i++ )
   for ( int j = 0 ; j < MATSIZE ; j++ )
       mat[i][j] = i+j;

   int t = clock();
   for ( int i = 0 ; i < SAMPLES ; i++ )
       transpose();
   int elapsed = clock() - t;

   std::cout << "Average for a matrix of " << MATSIZE << ": " << elapsed / SAMPLES;
}

Ändern MATSIZE können uns ändern die Größe (duh!). Ich veröffentlichte zwei Versionen auf ideone:

Größe 512 - Durchschnitt 2.46 ms - http://ideone.com/1PV7m
Größe 513 - Durchschnitt 0.75 ms - http://ideone.com/NShpo

In meiner Umgebung (MSVS 2010 -, full-Optimierungen), der Unterschied ist ähnlich :

Größe 512 - Durchschnitt 2.19 ms
Größe 513 - Durchschnitt 0.57 ms

Warum ist das passiert?

Dein code sieht cache-unfreundlich zu mir.
und es ist.
Es ist so ziemlich das gleiche Problem wie in dieser Frage: stackoverflow.com/questions/7905760/...
Pflege zu elavorate, @CodesInChaos? (Oder sonst jemand.)
Wie zu Lesen, die akzeptierte Antwort?
Ja, ich sah, was Sie meinte. Ich lese in Kommentaren zuerst.
Ich habe versucht den code mit gcc 4.6.1 in ubuntu 11.10 mit der Standard-Optimierung(O0-Niveau), 513*513 matrix ist langsamer als die 512*512 ein,(2.62 ms für die Größe 513, und 2,45 ms für Größe 512), mit Optimierung-O1 oder oben, Zeit für 512 2.08 ms, und für die 513 ist 0,56 ms. cpu: Intel(R) Core(TM) i3 530 2.93 GHz. kann das jemand erklären?
Es ist ein bisschen sinnlos zu Messen, alles ohne Optimierungen. Mit Optimierungen deaktiviert ist, wird der generierte code wird übersät sein mit den nebensächlichen Müll, verstecken sich andere Engpässe. (z.B. Speicher)

InformationsquelleAutor Luchian Grigore | 2012-07-10

c++optimization performance

183

Die Erklärung kommt von Agner Fog in Optimierung von software in C++ und es reduziert, wie die Daten abgerufen und im cache gespeichert.

Begriffen und detaillierte Informationen finden Sie in der wiki-Eintrag auf caching, ich werde verengen es hier.

Einem cache organisiert ist, in setzt und Linien. In einer Zeit, die nur verwendet wird, von denen eine der Zeilen enthält, kann verwendet werden. Der Speicher kann eine Zeile Spiegel mal die Anzahl der Zeilen gibt uns der cache-Größe.

Für einen bestimmten Speicher-Adresse, können wir berechnen, welche Menge Spiegel mit der Formel:
```
set = ( address / lineSize ) % numberOfsets
```
Diese Art von Formel, die im Idealfall gibt es eine gleichmäßige Verteilung über die Gruppen, weil jeder Speicher-Adresse ist, wie wahrscheinlich zu Lesen (sagte ich ideal).

Es ist klar, dass überschneidungen auftreten können. Im Falle eines cache-miss, wird der Speicher in die lese-cache-und der alte Wert ersetzt. Erinnern jeder Satz hat eine Reihe von Linien, aus denen die least-recently-used ist überschrieben mit dem neu-lese-Speicher.

Ich werde versuchen, etwas Folgen dem Beispiel von Agner:

Davon ausgehen, dass jedes set hat 4 Zeilen, die jeweils 64 Byte. Wir den ersten Versuch zum Lesen der Adresse 0x2710, das geht in Satz 28. Und dann haben wir auch versucht zu Lesen, Adressen 0x2F00, 0x3700, 0x3F00 und 0x4700. Alle diese gehören zu der gleichen Reihe. Vor dem Lesen 0x4700 sämtliche Linien, die in dem set gewesen wäre, besetzt. Lesung, der Speicher evicts eine vorhandene Zeile in der Menge, die Linie, die zunächst hielt 0x2710. Das problem liegt in der Tatsache, dass wir Lesen von Adressen, die (für dieses Beispiel) 0x800 auseinander. Dies ist die kritischen Schritt (wieder für das Beispiel).

Den kritischen Schritt kann auch berechnet werden:
```
criticalStride = numberOfSets * lineSize
```
Variablen Abstand criticalStride oder ein Vielfaches auseinander, kämpfen für die gleiche cache-Zeilen.

Dies ist der Theorie-Teil. Neben der Erklärung (auch Agner, ich verfolge es eng zu vermeiden, Fehler zu machen):

Davon aus einer matrix von 64x64 (denken Sie daran, die Wirkungen variieren je nach cache) mit 8kb cache, 4 Zeilen pro set * Größe von 64 bytes. Jede Zeile kann bis zu 8-von den Elementen in der matrix (64-bit int).

Den kritischen Schritt wäre, 2048 bytes, das entspricht 4 Zeilen der matrix (die kontinuierliche in-memory).

Übernehmen wir die Verarbeitung Zeile 28. Wir versuchen, nehmen Sie die Elemente dieser Zeile und tauschen Sie sich mit den Elementen aus Spalte 28. Die ersten 8 Glieder der Reihe bilden eine cache-line, aber Sie gehen in 8 verschiedenen cache-Zeilen in Spalte 28. Denken Sie daran, kritische Schritt 4 Zeilen auseinander (4 aufeinander folgende Elemente in einer Spalte).

Wenn das element 16 erreicht ist, in der Spalte (4 cache-lines pro set & 4 Reihen auseinander = Probleme), die ex-0-element wird aus dem cache verdrängten. Wenn wir erreichen das Ende der Spalte alle vorherigen cache-Zeilen hätte verloren und musste Neuladen auf den Zugriff auf das nächste element (die gesamte Zeile wird überschrieben).

Haben eine Größe, die nicht ein Vielfaches der kritische Schritt, Saut diese perfekte Szenario für eine Katastrophe, wie wir sind, nicht mehr den Umgang mit Elementen, die wichtig sind, Schrittlänge voneinander entfernt auf die vertikale, also die Anzahl der cache neu geladen wird stark reduziert.

Anderen Haftungsausschluss - ich habe gerade meinen Kopf um die Erklärung und hoffe, dass ich nagelte ihn, aber ich könnte falsch sein. Wie auch immer, ich bin warten auf eine Antwort (oder Bestätigung) von Mysticial. 🙂
- Ach und das nächste mal. Nur ping mich direkt durch die Lounge. Ich finde nicht jede Instanz von Namen auf, SO. 🙂 Ich sah nur noch das durch die periodischen E-Mail-Benachrichtigungen.
- Grigore Einer meiner Freunde erzählt mir, dass sein Intel core i3 pc auf Ubuntu 11.04 i386zeigt fast die gleiche Leistung, die mit gcc-4.6.Und so ist das gleiche für meinen computer Intel Core 2 Duo mit mingw-gcc4.4,der läuft auf windows 7(32).Es zeigt einen großen Unterschied, wenn ich kompilieren diesem segment mit einer etwas älteren pc intel centrino mit gcc-4.6,der läuft auf ubuntu 12.04 i386.
- Beachten Sie auch, dass der Speicher zugreifen, wenn die Adressen unterscheiden sich durch ein Vielfaches von 4096 haben eine falsche Abhängigkeit von Intel SnB-Familie CPUs. (d.h. die gleiche Verschiebung innerhalb einer Seite). Dies kann den Durchsatz verringern, wenn einige der Vorgänge sind Geschäfte, esp. eine Mischung von Lasten und speichert.
- which goes in set 24 meinst du "im set 28" statt? Und tun Sie übernehmen die 32-sets?
- Sie sind richtig, es ist der 28. 🙂 Ich auch doppelt überprüft die verlinkten Papier, die für die ursprüngliche Erklärung können Sie navigieren zu 9.2 Cache-Organisation
- Ich spüre wie etwas fehlt. Was ist die numberOfSets für das erste Beispiel? Es scheint 0x80 = 128 aus der Art, wie die zahlen funktionieren, aber ich weiß nicht, warum es sein sollte.
InformationsquelleAutor Luchian Grigore
75

Luchian gibt eine Erklärung warum dieses Verhalten passiert, aber ich dachte, es wäre eine nette Idee, um zu zeigen, eine mögliche Lösung für dieses problem und gleichzeitig zeigen Sie ein wenig über cache-oblivious-algorithmen.

Ihren Algorithmus im Grunde genommen:
```
for (int i = 0; i < N; i++) 
   for (int j = 0; j < N; j++) 
        A[j][i] = A[i][j];
```
ist einfach nur schrecklich für eine moderne CPU. Eine Lösung ist, um zu wissen, die details über Ihre cache-system und die Anpassung des Algorithmus zu vermeiden diese Probleme. Funktioniert sehr gut, solange Sie wissen, diese details.. nicht besonders portable.

Können wir besser machen? Ja, wir können: Einen Allgemeinen Ansatz für dieses problem sind cache-oblivious-algorithmen, die, wie der name schon sagt, vermeidet es, abhängig von der spezifischen cache-Größen [1]

Die Lösung würde wie folgt Aussehen:
```
void recursiveTranspose(int i0, int i1, int j0, int j1) {
    int di = i1 - i0, dj = j1 - j0;
    const int LEAFSIZE = 32; //well ok caching still affects this one here
    if (di >= dj && di > LEAFSIZE) {
        int im = (i0 + i1) / 2;
        recursiveTranspose(i0, im, j0, j1);
        recursiveTranspose(im, i1, j0, j1);
    } else if (dj > LEAFSIZE) {
        int jm = (j0 + j1) / 2;
        recursiveTranspose(i0, i1, j0, jm);
        recursiveTranspose(i0, i1, jm, j1);
    } else {
    for (int i = i0; i < i1; i++ )
        for (int j = j0; j < j1; j++ )
            mat[j][i] = mat[i][j];
    }
}
```
Etwas komplexer, aber ein kurzer test zeigt etwas sehr Interessantes auf meinem alten e8400 mit VS2010 x64 Version, testcode für MATSIZE 8192
```
int main() {
    LARGE_INTEGER start, end, freq;
    QueryPerformanceFrequency(&freq);
    QueryPerformanceCounter(&start);
    recursiveTranspose(0, MATSIZE, 0, MATSIZE);
    QueryPerformanceCounter(&end);
    printf("recursive: %.2fms\n", (end.QuadPart - start.QuadPart) / (double(freq.QuadPart) / 1000));

    QueryPerformanceCounter(&start);
    transpose();
    QueryPerformanceCounter(&end);
    printf("iterative: %.2fms\n", (end.QuadPart - start.QuadPart) / (double(freq.QuadPart) / 1000));
    return 0;
}

results: 
recursive: 480.58ms
iterative: 3678.46ms
```
Edit: Über den Einfluss der Größe: Es ist viel weniger ausgeprägt ist zwar noch spürbar um einige Grad, das ist, weil wir mit der iterativen Lösung als Blattknoten statt recursing bis zu 1 (die übliche Optimierung für rekursive algorithmen). Wenn wir LEAFSIZE = 1, wird der cache hat keinen Einfluss für mich [8193: 1214.06; 8192: 1171.62ms, 8191: 1351.07ms - das ist innerhalb der Fehlergrenze, die Schwankungen sind im 100ms-Bereich, das "benchmark" ist nicht etwas, dass ich zu bequem mit, wenn wir wollten, ganz genaue Werte])

[1] Quellen für diese Sachen: Gut, wenn Sie nicht bekommen kann einen Vortrag von jemandem, der arbeitete mit Leiserson und co auf dieser.. ich nehme an, Ihre Papiere ein guter Ausgangspunkt. Diese algorithmen sind noch Recht selten beschrieben - CLR hat eine einzige Fußnote über Sie. Noch, es ist eine großartige Möglichkeit, um die Leute zu überraschen.

Bearbeiten (Hinweis: ich bin nicht derjenige, der dies geschrieben, Antwort; ich wollte nur hinzufügen das):

Hier ist eine komplette C++ - version des obigen Codes:
```
template<class InIt, class OutIt>
void transpose(InIt const input, OutIt const output,
    size_t const rows, size_t const columns,
    size_t const r1 = 0, size_t const c1 = 0,
    size_t r2 = ~(size_t) 0, size_t c2 = ~(size_t) 0,
    size_t const leaf = 0x20)
{
    if (!~c2) { c2 = columns - c1; }
    if (!~r2) { r2 = rows - r1; }
    size_t const di = r2 - r1, dj = c2 - c1;
    if (di >= dj && di > leaf)
    {
        transpose(input, output, rows, columns, r1, c1, (r1 + r2) / 2, c2);
        transpose(input, output, rows, columns, (r1 + r2) / 2, c1, r2, c2);
    }
    else if (dj > leaf)
    {
        transpose(input, output, rows, columns, r1, c1, r2, (c1 + c2) / 2);
        transpose(input, output, rows, columns, r1, (c1 + c2) / 2, r2, c2);
    }
    else
    {
        for (ptrdiff_t i1 = (ptrdiff_t) r1, i2 = (ptrdiff_t) (i1 * columns);
            i1 < (ptrdiff_t) r2; ++i1, i2 += (ptrdiff_t) columns)
        {
            for (ptrdiff_t j1 = (ptrdiff_t) c1, j2 = (ptrdiff_t) (j1 * rows);
                j1 < (ptrdiff_t) c2; ++j1, j2 += (ptrdiff_t) rows)
            {
                output[j2 + i1] = input[i2 + j1];
            }
        }
    }
}
```
- Dies wäre relevant, wenn Sie im Vergleich die Zeiten zwischen Matrizen in verschiedenen Größen, nicht rekursiv und iterativ. Versuchen Sie die rekursive Lösung auf einer matrix der Größe angegeben.
- Da Sie bereits erklärt warum sieht er das Verhalten, das ich dachte, dass es ganz interessant vorstellen, eine Lösung für dieses problem im Allgemeinen.
- Weil, ich bin zu hinterfragen, warum eine größere matrix dauert eine kürzere Zeit, um den Prozess, nicht auf der Suche nach einem schnelleren Algorithmus...
- Die Unterschiede zwischen und 16383 16384 sind.. 28 vs. 27ms für mich hier, oder etwa 3,5% - nicht wirklich signifikant. Und ich würde überrascht sein ob es.
- Warum würden Sie nicht 16383 zählen? 16384 ist ein Vielfaches von 2 und 512, 16383 sollte Chaos der kritischen stride up, sollte es nicht? Mit der iterativen version bekomme ich einen viel niedrigeren Ergebnis für 511-vs 512, als auch-und das ist weit mehr, als das bisschen weniger Arbeit es zu tun hat.
- Ah, richtig. Was ist, wenn Sie laufen und 16383 16384 mit der iterativen Lösung? Ist der Unterschied viel größer?
- 4541.32 ms vs. 15010.51 ms wie erwartet. Ich meine klar mit der LEAFSIZE Konstante bedeutet, mein Algorithmus ist nicht vollständig cache-oblivious (aber offensichtlich schneller als recursing bis zu 1), so würde ich erwarten, dass einige kleine Wirkung. Die Erhöhung der leafsize sollten diesen Effekt noch dramatischer, aber, da am Ende würden wir implementieren Sie die iterative Lösung. Ich dachte nur, ein Algorithmus, der wäre nicht/viel weniger beeinflusst durch caching wäre eine gute Passform für diese Frage als Nachtrag zu Ihrer Antwort.
- Es könnte interessant sein, zu erklären, was die recursiveTranspose hat, dh, dass es nicht gefüllt wird, bis der cache so viel durch den Betrieb auf kleine Kacheln (von LEAFSIZE x LEAFSIZE dimension).
- Auch, was passiert, wenn LEAFSIZE ist ein Kritischer Schritt.
InformationsquelleAutor Voo
46

Als illustration zu der Erklärung in Luchian Grigore Antwort, hier ist, was die matrix-cache Präsenz sieht aus wie für die beiden Fälle von 64x64 und 65x65 Matrizen (siehe den link oben für details auf die zahlen).

Farben in der Animation unten haben folgende Bedeutung:
- – nicht im cache,
- – im cache
- – cache-Treffer,
- – Lesen aus dem RAM,
- – cache-miss.
Den 64x64 Fall:

Bemerken, wie fast jeder Zugang zu einer neuen Zeile führt, die in einem cache-miss. Und nun, wie sieht es für den normalen Fall, ein 65x65 matrix:

Hier kannst du sehen, dass die meisten Zugriffe nach der ersten Erwärmung sind cache hits. Dies ist, wie CPU-cache soll die arbeiten im Allgemeinen.
- Großartige Darstellung!
- Warum sind die vertikalen scan-cache trifft nicht gespeichert in dem ersten Fall, aber Sie sind in dem zweiten Fall? Wie es scheint, einen bestimmten block zugegriffen wird genau einmal für die meisten Blöcke in beiden Beispielen.
- Ich kann sehen, von @LuchianGrigore die Antwort, dass es ist, weil alle Zeilen in der Spalte zu dem gleichen set gehören.
- Ja, tolle Darstellung. Ich sehe, dass Sie mit der gleichen Geschwindigkeit. Aber eigentlich sind Sie das nicht, sind Sie nicht?
- ja, die animation die FPS sind die gleichen. Ich habe nicht simulieren, Verlangsamung, nur die Farben sind hier wichtig.
- Es wäre interessant, zwei statische Bilder illustrieren die verschiedenen cache-sets.
InformationsquelleAutor Ruslan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.