Prefetching Beispiele?

Kann mir jemand ein Beispiel geben oder einen link zu einem Beispiel, das verwendet __builtin_prefetch im GCC (oder nur die asm-Anweisung prefetcht0 im Allgemeinen) um eine erhebliche performance-Vorteil? Insbesondere möchte ich das Beispiel, um die folgenden Kriterien erfüllen:

Es ist ein einfaches, kleines, in sich geschlossenes Beispiel.
Entfernen der __builtin_prefetch Instruktion resultiert in einem Leistungsabfall.
Austausch der __builtin_prefetch Anweisung mit den entsprechenden Speicher-Zugriff führt zu Leistungseinbußen.

Ist, ich will die kürzeste Beispiel zeigt __builtin_prefetch Durchführung einer Optimierung, die nicht verwaltet werden, ohne dass es.

InformationsquelleAutor Shaun Harker | 2011-09-07

Hier ist ein tatsächlicher code, ich habe gezogen aus einem größeren Projekt. (Sorry, es ist das kürzeste, das ich finden kann, hatte eine deutliche Beschleunigung von prefetching.)
Dieser code führt eine sehr große Daten transponieren.

In diesem Beispiel verwendet die SSE-prefetch-Anweisungen, die möglicherweise das gleiche wie die, die der GCC emittiert.

Um dieses Beispiel auszuführen, müssen Sie zum kompilieren dieses für x64 und mehr als 4 GB Speicher. Sie können es mit einem kleineren datasize, aber es wird zu schnell, zu Zeit.

#include <iostream>
using std::cout;
using std::endl;

#include <emmintrin.h>
#include <malloc.h>
#include <time.h>
#include <string.h>

#define ENABLE_PREFETCH


#define f_vector    __m128d
#define i_ptr       size_t
inline void swap_block(f_vector *A,f_vector *B,i_ptr L){
    // To be super-optimized later.

    f_vector *stop = A + L;

    do{
        f_vector tmpA = *A;
        f_vector tmpB = *B;
        *A++ = tmpB;
        *B++ = tmpA;
    }while (A < stop);
}
void transpose_even(f_vector *T,i_ptr block,i_ptr x){
    // Transposes T.
    // T contains x columns and x rows.
    // Each unit is of size (block * sizeof(f_vector)) bytes.

    //Conditions:
    // - 0 < block
    // - 1 < x

    i_ptr row_size = block * x;
    i_ptr iter_size = row_size + block;

    // End of entire matrix.
    f_vector *stop_T = T + row_size * x;
    f_vector *end = stop_T - row_size;

    // Iterate each row.
    f_vector *y_iter = T;
    do{
        // Iterate each column.
        f_vector *ptr_x = y_iter + block;
        f_vector *ptr_y = y_iter + row_size;

        do{

#ifdef ENABLE_PREFETCH
            _mm_prefetch((char*)(ptr_y + row_size),_MM_HINT_T0);
#endif

            swap_block(ptr_x,ptr_y,block);

            ptr_x += block;
            ptr_y += row_size;
        }while (ptr_y < stop_T);

        y_iter += iter_size;
    }while (y_iter < end);
}
int main(){

    i_ptr dimension = 4096;
    i_ptr block = 16;

    i_ptr words = block * dimension * dimension;
    i_ptr bytes = words * sizeof(f_vector);

    cout << "bytes = " << bytes << endl;
//   system("pause");

    f_vector *T = (f_vector*)_mm_malloc(bytes,16);
    if (T == NULL){
        cout << "Memory Allocation Failure" << endl;
        system("pause");
        exit(1);
    }
    memset(T,0,bytes);

    // Perform in-place data transpose
    cout << "Starting Data Transpose...   ";
    clock_t start = clock();
    transpose_even(T,block,dimension);
    clock_t end = clock();

    cout << "Done" << endl;
    cout << "Time: " << (double)(end - start) / CLOCKS_PER_SEC << " seconds" << endl;

    _mm_free(T);
    system("pause");
}

Wenn ich es mit ENABLE_PREFETCH aktiviert, dies ist die Ausgabe:

bytes = 4294967296
Starting Data Transpose...   Done
Time: 0.725 seconds
Press any key to continue . . .

Wenn ich es mit ENABLE_PREFETCH deaktiviert, das ist die Ausgabe:

bytes = 4294967296
Starting Data Transpose...   Done
Time: 0.822 seconds
Press any key to continue . . .

So gibt es eine 13% speedup von prefetching.

EDIT:

Hier einige weitere Ergebnisse:

Operating System: Windows 7 Professional/Ultimate
Compiler: Visual Studio 2010 SP1
Compile Mode: x64 Release

Intel Core i7 860 @ 2.8 GHz, 8 GB DDR3 @ 1333 MHz
Prefetch   : 0.868
No Prefetch: 0.960

Intel Core i7 920 @ 3.5 GHz, 12 GB DDR3 @ 1333 MHz
Prefetch   : 0.725
No Prefetch: 0.822

Intel Core i7 2600K @ 4.6 GHz, 16 GB DDR3 @ 1333 MHz
Prefetch   : 0.718
No Prefetch: 0.796

2 x Intel Xeon X5482 @ 3.2 GHz, 64 GB DDR2 @ 800 MHz
Prefetch   : 2.273
No Prefetch: 2.666

Interessant. Leider auf die beiden Maschinen, die ich getestet habe (Macbook Pro "Core 2 Duo" und eine Linux Maschine mit einem "Quad-Core AMD Opteron Prozessor 2376") ich habe nicht einen signifikanten Unterschied zwischen den beiden Versionen. Ich vermute, es hat zu tun mit der cache-Größe -- es aussieht, haben Sie eine bessere Maschine als die zwei. Was denkst du?
Mein Rechner ist ein Core i7-920 @ 3,5 GHz. 8 MB L3-cache. Diese 10% speedup ist mehr oder weniger konstant auf 3 anderen Rechnern, die ich getestet habe: Core i7 2600K @ 4.6 GHz und 2 x Xeon X5482 @ 3.2 GHz. Aber ich gebe zu, ich habe nie getestet es auf einem laptop oder einem AMD-Rechner.
Ich habe gerade bearbeitet meine Antwort mit den benchmarks, die auf allen 4 Maschinen, die ich getestet habe. Sie sind alle Intel-desktops/workstations. Also, dass könnte der Grund sein. Ich wollte nicht testen, ob dein 3. Punkt enthält. Es könnte sein, dass das ersetzen es mit einem memory access könnte produzieren das gleiche Ergebnis.
Der Dritte Punkt ist schwierig zu testen, aufgrund der out-of-order Ausführung. Um zum Dritten Punkt zu halten, werden Sie brauchen, um einige 100 - 200 Anweisungen zwischen den laden zu, wenn es tatsächlich gebraucht wird. Eine angehaltene Last blockieren der pipeline nach der re-order-Puffer gefüllt. Aber ein prefetch nicht. Das einzige mal, wenn Sie sehen die Strafe der angehaltene Last ist, wenn man tatsächlich genug Anweisungen überlauf der re-order-Puffer... Wenn Sie ersetzen Sie einfach mein prefetch mit einem normalen laden, der compiler wird vermutlich optimieren, die Last als dead code... (die stillt Ihren letzten Punkt, lol)
Ja, man müsste hinzufügen, eine Art von "dummy" - Sache, die Sie in den Speicher zugreifen und drucken Sie dann Ihren Wert, so dass Sie nicht optimiert, verschenkt-das ist, was ich Tue. Können Sie mir einen link zu Informationen über das, was Sie diskutieren über die festgefahrenen Belastungen und re-order-Puffer? Ich denke, dass könnte mir eine Welt des guten.

InformationsquelleAutor Mysticial

Binäre Suche ist ein einfaches Beispiel, das könnte profitieren von einer ausdrücklichen prefetching. Der Zugriff Muster in eine binäre Suche sieht ziemlich random, um den hardware-prefetcher, also gibt es wenig chance, dass er genau Vorhersagen, was zu Holen.

In diesem Beispiel habe ich prefetch-die beiden möglichen "Mitte" Orte der next-Schleife, iteration, die in der aktuellen iteration. Einer der prefetches wird wahrscheinlich nie benutzt werden, aber der andere (es sei denn, dies wird die Letzte iteration).

 #include <time.h>
 #include <stdio.h>
 #include <stdlib.h>

 int binarySearch(int *array, int number_of_elements, int key) {
         int low = 0, high = number_of_elements-1, mid;
         while(low <= high) {
                 mid = (low + high)/2;
            #ifdef DO_PREFETCH
            //low path
            __builtin_prefetch (&array[(mid + 1 + high)/2], 0, 1);
            //high path
            __builtin_prefetch (&array[(low + mid - 1)/2], 0, 1);
            #endif

                 if(array[mid] < key)
                         low = mid + 1; 
                 else if(array[mid] == key)
                         return mid;
                 else if(array[mid] > key)
                         high = mid-1;
         }
         return -1;
 }
 int main() {
     int SIZE = 1024*1024*512;
     int *array =  malloc(SIZE*sizeof(int));
     for (int i=0;i<SIZE;i++){
       array[i] = i;
     }
     int NUM_LOOKUPS = 1024*1024*8;
     srand(time(NULL));
     int *lookups = malloc(NUM_LOOKUPS * sizeof(int));
     for (int i=0;i<NUM_LOOKUPS;i++){
       lookups[i] = rand() % SIZE;
     }
     for (int i=0;i<NUM_LOOKUPS;i++){
       int result = binarySearch(array, SIZE, lookups[i]);
     }
     free(array);
     free(lookups);
 }

Wenn ich kompilieren und ausführen dieses Beispiels mit DO_PREFETCH aktiviert, ich sehe eine Reduktion um 20% Laufzeit:

 $ gcc c-binarysearch.c -DDO_PREFETCH -o with-prefetch -std=c11 -O3
 $ gcc c-binarysearch.c -o no-prefetch -std=c11 -O3

 $ perf stat -e L1-dcache-load-misses,L1-dcache-loads ./with-prefetch 

  Performance counter stats for './with-prefetch':

    356,675,702      L1-dcache-load-misses     #   41.39% of all L1-dcache hits  
   861,807,382      L1-dcache-loads                                             

   8.787467487 seconds time elapsed

 $ perf stat -e L1-dcache-load-misses,L1-dcache-loads ./no-prefetch 

 Performance counter stats for './no-prefetch':

   382,423,177      L1-dcache-load-misses     #   97.36% of all L1-dcache hits  
   392,799,791      L1-dcache-loads                                             

  11.376439030 seconds time elapsed

Beachten Sie, dass wir tun, doppelt so viele L1-cache lädt in den prefetch-version. Wir tatsächlich tun, viel mehr Arbeit, aber das memory access pattern ist freundlich, die pipeline. Dies zeigt auch die vor-und Nachteile. Während dieser block von code schneller läuft, in der isolation, die wir geladen haben, ist es eine Menge von junk in den caches und dies kann mehr Druck auf andere Teile der Anwendung.

InformationsquelleAutor James Scriven

Habe ich gelernt, eine Menge von der ausgezeichnete Antworten @JamesScriven und @Mystisch. Aber Ihre Beispiele geben nur einen bescheidenen Schub - das Ziel dieser Antwort ist ein (ich muss gestehen, etwas künstlichen) Beispiel, wo dieses Verfahren hat eine größere Wirkung (etwa Faktor 4 auf meinem Rechner).

Gibt es drei mögliche bottle-necks für den modernen Architekturen: CPU-Geschwindigkeit, Speicher-Bandbreite und Speicher-Latenz. Dieses Verfahren wird alle über die Verringerung der Latenzzeiten des Speicher-Zugriffe.

In ein perfektes Szenario, wo die Latenz entspricht X Berechnungs-Schritte, hätten wir einen oracle -, was würden Sie uns sagen, welchen Speicher wir würden in X-Berechnungs-Schritte, die prefetching der Daten veröffentlicht werden sollen, und es würde kommen nur in-time-X Kalkulation-Schritte später.

Für eine Menge von algorithmen, die wir sind (fast) in dieser perfekten Welt. Für eine einfache for-Schleife ist es einfach vorauszusagen, welche Daten werden benötigt, X-Schritte weiter. Out-of-order-Ausführung und andere hardware-tricks machen einen sehr guten job hier, das verbergen der Latenzzeiten fast vollständig.

Das ist der Grund, warum es ist solch eine bescheidene Verbesserung für @Mystischen Beispiel: Der prefetcher ist schon ziemlich gut - es gibt einfach nicht viel Raum für Verbesserung. Die Aufgabe ist auch Speicher-gebunden ist, also wohl nicht viel Bandbreite übrig ist - es könnte immer der limitierende Faktor. Ich konnte sehen, am besten um 8% Verbesserung auf meinem Rechner.

Die entscheidende Erkenntnis aus der @JamesScriven Beispiel: weder wir, noch die CPU weiß, den nächsten access-Adresse, bevor die die aktuellen Daten aus dem Speicher geholt - diese Abhängigkeit ist ziemlich wichtig, ansonsten out-of-order-Ausführung würde dazu führen, dass Sie einen Blick vorwärts, und wäre die hardware in der Lage sein, um die prefetch-Daten. Allerdings, denn wir können darüber spekulieren, nur ein Schritt, es ist nicht viel potential. Ich war nicht in der Lage, mehr als 40% auf meinem Rechner.

Also lasst rig den Wettbewerb und bereiten die Daten in einer Weise, dass wir wissen, welche Adresse zugegriffen wird, die in X Schritten, aber es unmöglich machen, für die hardware zu finden, die es sich aufgrund von Abhängigkeiten auf noch nicht abgerufene Daten (siehe das gesamte Programm am Ende der Antwort):

//making random accesses to memory:
unsigned int next(unsigned int current){
   return (current*10001+328)%SIZE;
}

//the actual work is happening here
void operator()(){

    //set up the oracle - let see it in the future oracle_offset steps
    unsigned int prefetch_index=0;
    for(int i=0;i<oracle_offset;i++)
        prefetch_index=next(prefetch_index);

    unsigned int index=0;
    for(int i=0;i<STEP_CNT;i++){
        //use oracle and prefetch memory block used in a future iteration
        if(prefetch){
            __builtin_prefetch(mem.data()+prefetch_index,0,1);    
        }

        //actual work, the less the better
        result+=mem[index];

        //prepare next iteration
        prefetch_index=next(prefetch_index);  #update oracle
        index=next(mem[index]);               #dependency on `mem[index]` is VERY important to prevent hardware from predicting future
    }
}

Einige Bemerkungen:

Daten so aufbereitet, dass das Orakel immer Recht.
vielleicht überraschend, die weniger CPU-gebundene Aufgabe, desto größer ist der speed-up: wir sind in der Lage sich zu verstecken die Latenz fast vollständig, wodurch der speed-up ist CPU-time+original-latency-time/CPU-time.

Kompilieren und ausführen führt:

>>> g++ -std=c++11 prefetch_demo.cpp -O3 -o prefetch_demo
>>> ./prefetch_demo
#preloops   time no prefetch    time prefetch   factor
...
7   1.0711102260000001  0.230566831 4.6455521002498408
8   1.0511602149999999  0.22651144600000001 4.6406494398521474
9   1.049024333 0.22841439299999999 4.5926367389641687
....

einer Geschwindigkeit zwischen 4 und 5.

Auflistung der prefetch_demp.cpp:

//prefetch_demo.cpp

#include <vector>
#include <iostream>
#include <iomanip>
#include <chrono>

const int SIZE=1024*1024*1;
const int STEP_CNT=1024*1024*10;

unsigned int next(unsigned int current){
   return (current*10001+328)%SIZE;
}


template<bool prefetch>
struct Worker{
   std::vector<int> mem;

   double result;
   int oracle_offset;

   void operator()(){
        unsigned int prefetch_index=0;
        for(int i=0;i<oracle_offset;i++)
            prefetch_index=next(prefetch_index);

        unsigned int index=0;
        for(int i=0;i<STEP_CNT;i++){
            //prefetch memory block used in a future iteration
            if(prefetch){
                __builtin_prefetch(mem.data()+prefetch_index,0,1);    
            }
            //actual work:
            result+=mem[index];

            //prepare next iteration
            prefetch_index=next(prefetch_index);
            index=next(mem[index]);
        }
   }

   Worker(std::vector<int> &mem_):
       mem(mem_), result(0.0), oracle_offset(0)
   {}
};

template <typename Worker>
    double timeit(Worker &worker){
    auto begin = std::chrono::high_resolution_clock::now();
    worker();
    auto end = std::chrono::high_resolution_clock::now();
    return std::chrono::duration_cast<std::chrono::nanoseconds>(end-begin).count()/1e9;
}


 int main() {
     //set up the data in special way!
     std::vector<int> keys(SIZE);
     for (int i=0;i<SIZE;i++){
       keys[i] = i;
     }

     Worker<false> without_prefetch(keys);
     Worker<true> with_prefetch(keys);

     std::cout<<"#preloops\ttime no prefetch\ttime prefetch\tfactor\n";
     std::cout<<std::setprecision(17);

     for(int i=0;i<20;i++){
         //let oracle see i steps in the future:
         without_prefetch.oracle_offset=i;
         with_prefetch.oracle_offset=i;

         //calculate:
         double time_with_prefetch=timeit(with_prefetch);
         double time_no_prefetch=timeit(without_prefetch);

         std::cout<<i<<"\t"
                  <<time_no_prefetch<<"\t"
                  <<time_with_prefetch<<"\t"
                  <<(time_no_prefetch/time_with_prefetch)<<"\n";
     }

 }

InformationsquelleAutor ead

0

Vom die Dokumentation:
```
      for (i = 0; i < n; i++)
        {
          a[i] = a[i] + b[i];
          __builtin_prefetch (&a[i+j], 1, 1);
          __builtin_prefetch (&b[i+j], 0, 1);
          /* ... */
        }
```
Ich erwarte, dass der CPU hardware prefetcher, hätte zuvor abgerufener sowieso schon. Dies ist in der Regel die Ursache von Menschen, die entdecken, dass "prefetch tut nichts" - es erfordert wirklich, dass die access-Muster ist etwas, was eine Recht einfache Logik, die Analyse der Zugriffsmuster nicht Vorhersagen können.
Ich bin nicht einverstanden, dass dies ist eine schlechte Antwort. Der OP wollte ein einfaches Beispiel (wahrscheinlich wissen, wie es zu benutzen), diese Antworten auf, die.
Ältere CPUs mit weniger smart hardware-prefetching profitierte von software-prefetching in mehr Fällen. Ich denke, auch P4 gewesen wäre schlau genug, um HW-prefetch-sequentiellen Zugriffen, um zusammenhängende Daten, though. Dies ist ein schreckliches Beispiel, weil es einen Fall, wo die extra-prefetch-Anweisungen nur die Dinge verlangsamen. @a3mlord: Der OP wollte eine Leistung gewinnen, nicht nur die syntax.
In diesem Beispiel ist zu kurz, um die Frage zu beantworten.

InformationsquelleAutor wallyk
0

Prefetching-Daten optimiert werden kann, um die Cache-Line-Größe, die für die meisten modernen 64-bit-Prozessoren, 64 bytes, zum Beispiel pre-load ein uint32_t[16] mit einer Anweisung.

Beispielsweise auf ArmV8 ich entdeckte durch Experimente casting der Speicher Zeiger auf einen uint32_t 4x4-matrix Vektor (das ist 64 bytes groß) halbiert die erforderlichen Anweisungen erforderlich, wie zuvor musste ich erhöhen um 8, wie es war, lade nur die Hälfte der Daten, auch wenn mein Verständnis war, dass es holt eine volle cache-Zeile.

Prefetching-eine uint32_t[32] original-code Beispiel...
```
int addrindex = &B[0];
    __builtin_prefetch(&V[addrindex]);
    __builtin_prefetch(&V[addrindex + 8]);
    __builtin_prefetch(&V[addrindex + 16]);
    __builtin_prefetch(&V[addrindex + 24]);
```
Nach...
```
int addrindex = &B[0];
__builtin_prefetch((uint32x4x4_t *) &V[addrindex]);
__builtin_prefetch((uint32x4x4_t *) &V[addrindex + 16]);
```
Aus irgendeinem Grund der Datentyp int für die Adresse index/offset Gaben bessere Leistung. Getestet mit GCC-8 auf Cortex-a53. Mit einem gleichwertig 64-byte-Vektor auf andere Architekturen werden möglicherweise geben die gleiche Leistungsverbesserung, wenn Sie finden, dass es nicht pre-fetching alle Daten, wie in meinem Fall. In meiner Anwendung mit einer million iteration Schleife Leistungssteigerung von 5%, gerade dies zu tun. Es wurden weitere Voraussetzungen für die Verbesserung.

den 128 megabyte "V" memory allocation werden musste, ausgerichtet auf 64 bytes.
```
uint32_t *V __attribute__((__aligned__(64))) = (uint32_t *)(((uintptr_t)(__builtin_assume_aligned((unsigned char*)aligned_alloc(64,size), 64)) + 63) & ~ (uintptr_t)(63));
```
Ich hatte auch die C-Operatoren anstelle von Neon-Interna, da Sie erfordern regelmäßige Datentyp Zeiger (in meinem Fall war es uint32_t *), da ansonsten der neue gebaut in den prefetch-Methode hatte einen performance-regression.

Mein reales Beispiel finden Sie unter https://github.com/rollmeister/veriumMiner/blob/main/algo/scrypt.c in der scrypt_core() und seine interne Funktion, die alle leicht zu Lesen. Die harte Arbeit erfolgt durch GCC8. Allgemeine Verbesserung der Leistung auf 25%.

InformationsquelleAutor Rauli Kumpulainen

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.