große integer-addition mit CUDA

Ich habe die Entwicklung eines kryptografischen Algorithmus auf der GPU und derzeit stecken mit einem Algorithmus durchführen zu großen integer-addition. Große Ganzzahlen dargestellt werden, in einer üblichen Weise als eine Reihe von 32-bit-Worten.

Zum Beispiel, können wir einen thread zum addieren zwei 32-bit-Worten. Für Einfachheit, lassen vermuten
dass die zahlen, die Hinzugefügt werden, sind von der gleichen Länge und die Anzahl der threads pro block == Anzahl der Wörter. Dann:

__global__ void add_kernel(int *C, const int *A, const int *B) {
     int x = A[threadIdx.x];
     int y = B[threadIdx.x];
     int z = x + y;
     int carry = (z < x);
     /** do carry propagation in parallel somehow ? */
     ............

     z = z + newcarry; //update the resulting words after carry propagation
     C[threadIdx.x] = z;
 }

Ich bin mir ziemlich sicher, dass es einen Weg gibt, zu tragen, Ausbreitung über einige knifflige Reduzierung Verfahren aber konnte es nicht herausfinden..

Hatte ich einen Blick auf CUDA-Schub-Erweiterungen aber große integer-Paket scheint nicht zu realisieren noch.
Vielleicht kann jemand mir einen Tip geben, wie zu tun, die auf CUDA ?

Die GPU kann mit bis zu 64 bit (long long) direkt. Ein Ansatz für 128-bit ist beschrieben im dies ALSO Frage/Antwort.
Ich denke, was willst du von CUDA erreicht werden kann, von C-Techniken. Daher habe ich retaged die Frage in C zu. Hoffe auf nette Antwort von den C-Experten.
Ja, Sie können auch das Programm einer long-integer-addition mit nur high-level-C-Konstrukte (im Gegensatz zu PXT linline Montage in CUDA), aber es würde deutlich mehr Anweisungen, als ich darauf hinwies, in dieser Antwort auf: stackoverflow.com/questions/12448549/...
vielen Dank für die Anregungen. Ich weiß, dass CUDA unterstützt spezielle systeminterne Funktionen zu verwenden carry-flag nach Ergänzungen. Der Punkt ist, die zahlen können sehr groß (über 2048 32-bit-Worte) also ich bin wirklich auf der Suche für eine parallele Lösung, vielleicht über parallele Reduktion irgendwie ?
Außerdem ist überträgt sich rein rechnerisch nicht intensiv genug ist, um sinnvoll aufgeteilt auf mehrere threads (zumindest aus der Spitze von meinem Kopf). Für die Multiplikation, Sie könnten jeden thread arbeiten auf der Summierung einer Spalte teilweise 32x32->64-bit-Produkte, dann propagieren der trägt am Ende. Sie konnten auch einen Blick in die latenten tragen Vermehrung, indem Sie die Ergebnisse einer Zusatz as separate Summen-und carry-Vektoren. Viel hängt von der genauen algorithmischen Kontext.
ja, ich Stimme zudem nicht, dass rechenintensive als Multiplikation. Aber immer noch, wenn ich eine integer der Länge 2048 oder noch mehr Worte, dabei zusätzlich in einer Schleife mit einem CUDA-thread wäre sehr innefficient, weil dieser Vorgang sieht embarrasingly parallel zu mir, außer für die Fortpflanzung.
Ich habe gehackt zusammen ein cuda-kernel zu tun, die parallele Zugabe von bis zu 1024 64-bit-unsigned-Mengen, und in der Lage zu handhaben Chargen dieser Probleme parallel auch. Ein kernel-Berechnung Standpunkt, und wenn wir Chargen einer großen Anzahl von Problemen in parallel, es ist über 10x schneller als meine naiven CPU-code. Wenn Sie werfen in die Daten kopieren Zeit, es ist in etwa auf Augenhöhe mit der CPU-Zeit. Es gibt keine PTX -, nur C-code, also ich bin mir sicher, dass es gemacht werden könnte, um schneller zu laufen, aber ich weiß nicht, wie viel. Ich poste es als Antwort, wenn Sie wollen, um es zu betrachten. Auch mache ich keine Ansprüche über seine Richtigkeit.
Den folgenden link für CUDA-Schub-Erweiterungen enthält den code für große integer-Multiplikation: cuda-thrust-extensions.googlecode.com/svn/trunk/big%20integer

InformationsquelleAutor | 2012-10-18

c cuda gpgpu thrust

8

Sind Sie richtig, tragen Vermehrung kann über prefix-sum-Berechnung, aber es ist ein bisschen schwierig zu definieren, die binäre Funktion für diesen Vorgang und beweisen, dass es ist assoziativ (wird benötigt, für die parallele Präfix-Summe). Als eine Angelegenheit von der Tat, dieser Algorithmus wird verwendet, (theoretisch) in Carry-lookahead-adder.

Angenommen, wir haben zwei große ganze zahlen a[0..n-1] und b[0..n-1].
Dann berechnen wir (i = 0..n-1):
```
s[i] = a[i] + b[i]l;
carryin[i] = (s[i] < a[i]);
```
Definieren wir zwei Funktionen:
```
generate[i] = carryin[i];
propagate[i] = (s[i] == 0xffffffff);
```
mit Recht intuitive Bedeutung: generieren[i] == 1 bedeutet, dass der carry generiert am
position, die ich während propagieren[i] == 1 bedeutet, dass das tragen weitergegeben wird, von der position
(i - 1) (i + 1). Unser Ziel ist die Berechnung der Funktion carryout[0..n-1] verwendet zum aktualisieren der resultierende Summe s[0..n-1]. carryout berechnet werden kann, die rekursiv wie folgt:
```
carryout[i] = generate[i] OR (propagate[i] AND carryout[i-1])
carryout[0] = 0
```
Hier carryout[i] == 1 if carry erzeugt an der position i ODER es wird generiert, manchmal früher UND vermehrt auf position habe ich. Endlich, wir aktualisieren die resultierende Summe:
```
s[i] = s[i] + carryout[i-1];  for i = 1..n-1
carry = carryout[n-1];
```
Nun es ist ziemlich einfach zu beweisen, dass carryout-Funktion ist in der Tat binären, assoziativen und daher parallele Präfix-Summe Berechnung gilt. Um dies zu implementieren, die auf CUDA, wir können mischen der beiden flags 'erzeugen' und 'verbreiten' in eine einzelne variable, da Sie sich gegenseitig ausschließen, d.h.:
```
cy[i] = (s[i] == -1u ? -1u : 0) | carryin[i];
```
In anderen Worten,
```
cy[i] = 0xffffffff  if propagate[i]
cy[i] = 1           if generate[i]
cy[u] = 0           otherwise
```
Dann kann man überprüfen, dass die folgende Formel berechnet Präfix-Summe für carryout Funktion:
```
cy[i] = max((int)cy[i], (int)cy[k]) & cy[i];
```
für alle k < ich. Der Beispielcode unten zeigt eine große Bereicherung für 2048-word-Integer-zahlen. Hier habe ich noch CUDA-Blöcke mit 512 threads:
```
//add & output carry flag
#define UADDO(c, a, b) \ 
     asm volatile("add.cc.u32 %0, %1, %2;" : "=r"(c) : "r"(a) , "r"(b));
//add with carry & output carry flag
#define UADDC(c, a, b) \ 
     asm volatile("addc.cc.u32 %0, %1, %2;" : "=r"(c) : "r"(a) , "r"(b));

#define WS 32

__global__ void bignum_add(unsigned *g_R, const unsigned *g_A,const unsigned *g_B) {

extern __shared__ unsigned shared[];
unsigned *r = shared; 

const unsigned N_THIDS = 512;
unsigned thid = threadIdx.x, thid_in_warp = thid & WS-1;
unsigned ofs, cf;

uint4 a = ((const uint4 *)g_A)[thid],
      b = ((const uint4 *)g_B)[thid];

UADDO(a.x, a.x, b.x) //adding 128-bit chunks with carry flag
UADDC(a.y, a.y, b.y)
UADDC(a.z, a.z, b.z)
UADDC(a.w, a.w, b.w)
UADDC(cf, 0, 0) //save carry-out

//memory consumption: 49 * N_THIDS /64
//use "alternating" data layout for each pair of warps
volatile short *scan = (volatile short *)(r + 16 + thid_in_warp +
        49 * (thid / 64)) + ((thid / 32) & 1);

scan[-32] = -1; //put identity element
if(a.x == -1u && a.x == a.y && a.x == a.z && a.x == a.w)
    //this indicates that carry will propagate through the number
    cf = -1u;

//"Hillis-and-Steele-style" reduction 
scan[0] = cf;
cf = max((int)cf, (int)scan[-2]) & cf;
scan[0] = cf;
cf = max((int)cf, (int)scan[-4]) & cf;
scan[0] = cf;
cf = max((int)cf, (int)scan[-8]) & cf;
scan[0] = cf;
cf = max((int)cf, (int)scan[-16]) & cf;
scan[0] = cf;
cf = max((int)cf, (int)scan[-32]) & cf;
scan[0] = cf;

int *postscan = (int *)r + 16 + 49 * (N_THIDS / 64);
if(thid_in_warp == WS - 1) //scan leading carry-outs once again
    postscan[thid >> 5] = cf;

__syncthreads();

if(thid < N_THIDS / 32) {
    volatile int *t = (volatile int *)postscan + thid;
    t[-8] = -1; //load identity symbol
    cf = t[0];
    cf = max((int)cf, (int)t[-1]) & cf;
    t[0] = cf;
    cf = max((int)cf, (int)t[-2]) & cf;
    t[0] = cf;
    cf = max((int)cf, (int)t[-4]) & cf;
    t[0] = cf;
}
__syncthreads();

cf = scan[0];
int ps = postscan[(int)((thid >> 5) - 1)]; //postscan[-1] equals to -1
scan[0] = max((int)cf, ps) & cf; //update carry flags within warps
cf = scan[-2];

if(thid_in_warp == 0)
    cf = ps;
if((int)cf < 0)
    cf = 0;

UADDO(a.x, a.x, cf) //propagate carry flag if needed
UADDC(a.y, a.y, 0)
UADDC(a.z, a.z, 0)
UADDC(a.w, a.w, 0)
((uint4 *)g_R)[thid] = a;
}
```
Beachten Sie, dass Makros UADDO /UADDC vielleicht nicht mehr notwendig, seit CUDA 4.0 verfügt über die entsprechenden Interna (aber ich bin mir nicht ganz sicher).

Auch die Bemerkung, dass, obwohl die parallele Reduktion ist Recht schnell, wenn Sie brauchen, um hinzuzufügen mehrere große zahlen in einer Zeile, es wäre besser, verwenden einige redundante Darstellung (die wurde vorgeschlagen, in den Kommentaren oben), d.h., zuerst sammeln die Ergebnisse der Additionen im 64-bit-Worten, und führen Sie dann einen carry-propagation am Ende in "einem Zug".
- Ich habe versucht zu kompilieren, aber ich bekam eine Fehlermeldung in dieser Zeile: volatile short *scan = (volatile short *)(r + 16 + thid_in_warp + (49 * (thid / 64)) + ((thid / 32) & 1); Es scheint zu sein, fehlt eine schließende Klammer. Ich versucht, indem man am Ende vor dem Semikolon. Könntest du es überprüfen? (Nach der Festsetzung, dass ich einen Fehler beim starten versucht, es zu benutzen, fügen Sie zwei 2048x32bit unsigned ints. Vielleicht habe ich einen Fehler in meinem eigenen code.)
- oops, du hast Recht, es sollte (r + 16 + thid_in_warp + 49 * (thid / 64)) + ((thid / 32) & 1). Ich reparierte es. Bitte stellen Sie auch sicher, dass Sie genügend Anteil mem für den Algorithmus korrekt ausgeführt werden, die über (49 * 512 / 64) + 32 Wörter.
- Ich bin Zuweisung von 4096 bytes, die scheint, wie es sollte mehr als genug sein. Ich aktualisierte mein test mit deiner geänderten Zeile. Ich bin noch immer die unspecified launch failure. Vielleicht ist es etwas, was ich Tue.
- es gab auch ein problem mit dem Lesen der input-Daten und speichern der Ergebnisse im global mem. Ich fest, dass auch. Dies geschieht, wenn Sie rip-code von größer eins 😉
- Eine andere Sache: sind Sie kompilieren für 64-bit ? Ich erkannte, dass negative offests könnte wirklich böse, da Sie keine Vorzeichen erweitert, standardmäßig, dh. hier: postscan - [((thid >> 5) - 1)]
- Ok mit deinem code ändert kann ich es kompilieren und ausführen, ohne abzustürzen jetzt. Ja, ich bin kompilieren für 64 bit. Aber einer meiner test-Fälle hat einen großen int (2048x32bit) mit allen bits auf 1 gesetzt (also 0xF...FFF) und die anderen großen int = 0 x 1 ist, und es nicht auf diesem test-Fall bei der unsigned int offset 128, das cpu Ergebnis ist null, und die gpu Ergebnis ist 0xFFFFFFFF. Die ersten 128 unsigned ints von dem Ergebnis übereinstimmen das cpu-Ergebnis (alles Nullen). Ich denke, das wäre, wo man warp bricht in der nächsten in Ihrem code. Es ist vielleicht noch etwas, was ich falsch mache, natürlich.
- vielen Dank für die überprüfung der code. Das würde bedeuten, dass ein warp nicht weitergegeben. Ich werde überprüfen Sie dieses Beispiel auf meine Maschine morgen. Eine weitere Vorsichtsmaßnahme ist, dass mit UADDO/UADDC Makros möglicherweise nicht immer sicher, da der compiler kann neu anordnen, Anweisungen und Schrauben bis der carry-flags..
InformationsquelleAutor

Ich dachte, ich würde post auf meine Antwort auch, zusätzlich zu @asm, also ist diese Frage ALSO eine Art von repository-Ideen. Ähnlich wie @asm ich Sie erkennen und speichern der carry-Zustandes sowie die "carry-through" - Zustand, dh. wenn die intermediate-Wort Ergebnis wird alle 1 s (0xF...FFF), so dass, wenn Sie einen tragen, wurden zu vermehren, in dieses Wort, es würde "carry-through", um das nächste Wort.

Ich habe keine PTX oder asm in meinem code, also wählte ich für die Verwendung von 64-bit vorzeichenlosen Ganzzahlen anstelle von 32-bit zu erreichen, 2048x32bit Fähigkeit, mit 1024 threads.

Einen größeren Unterschied aus @asm code ist in meiner parallel-carry-propagation-Schema. Ich konstruiere ein bit-packed array ("carry"), wo jedes bit repräsentiert das carry-Bedingung generiert, die von der unabhängigen intermediate 64-bit ergänzt, die aus jedem der 1024 threads. Ich auch konstruieren, eine bit-packed array ("carry_through"), wo jedes bit stellt den carry_through Zustand der einzelnen 64-bit-zwischenergebnisses. Für 1024 threads, diese Beträge zu 1024/64 = 16x64-bit-Wörtern von shared memory für jedes bit-verpackt-array, also insgesamt shared mem usage ist 64+3 32bit Mengen?. Mit diesen bit packed arrays, führe ich die folgende zu erzeugen, die eine kombinierte propagiert tragen Kennzeichen:

carry = carry | (carry_through ^ ((carry & carry_through) + carry_through);

(beachten Sie, dass carry nach Links verschoben, indem man: carry[i] zeigt an, dass das Ergebnis von a[i-1] + b[i-1] erzeugt eine tragen)
Die Erklärung ist wie folgt:

die bitweise und-Verknüpfung von carry und carry_through erzeugt den Kandidaten, wo Sie einen tragen wird
interagieren Sie mit einer Sequenz von einem oder mehr tragen, obwohl die Bedingungen
hinzufügen das Ergebnis von Schritt eins bis carry_through erzeugt ein Ergebnis, das
geändert hat bits repräsentieren alle Wörter, die betroffen sein werden von
die Ausbreitung der carry in der carry_through Sequenz
unter der exklusiv-oder carry_through plus das Ergebnis aus Schritt 2
zeigt den betroffenen die Ergebnisse weisen mit einem 1-bit -
unter die bitweise oder-Verknüpfung das Ergebnis aus Schritt 3 und der ordentlichen
tragen Indikatoren gibt eine Kombination carry-Zustand, das ist dann
update alle Zwischenergebnisse.

Beachten Sie, dass die Zugabe in Schritt 2 erfordert ein anderes multi-word hinzufügen (für große Ganzzahlen, bestehend aus mehr als 64 Worte). Ich glaube, dass dieser Algorithmus funktioniert, und es hat den test bestanden Fällen, die ich geworfen haben es.

Hier ist mein Beispiel code implementiert dies:

//parallel add of large integers
//requires CC 2.0 or higher
//compile with:
//nvcc -O3 -arch=sm_20 -o paradd2 paradd2.cu
#include <stdio.h>
#include <stdlib.h>

#define MAXSIZE 1024 //the number of 64 bit quantities that can be added
#define LLBITS 64  //the number of bits in a long long
#define BSIZE ((MAXSIZE + LLBITS -1)/LLBITS) //MAXSIZE when packed into bits
#define nTPB MAXSIZE

//define either GPU or GPUCOPY, not both -- for timing
#define GPU
//#define GPUCOPY

#define LOOPCNT 1000

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)

//perform c = a + b, for unsigned integers of psize*64 bits.
//all work done in a single threadblock.
//multiple threadblocks are handling multiple separate addition problems
//least significant word is at a[0], etc.

__global__ void paradd(const unsigned size, const unsigned psize, unsigned long long *c, const unsigned long long *a, const unsigned long long *b){

  __shared__ unsigned long long carry_through[BSIZE];
  __shared__ unsigned long long carry[BSIZE+1];
  __shared__ volatile unsigned mcarry;
  __shared__ volatile unsigned mcarry_through;

  unsigned idx = threadIdx.x + (psize * blockIdx.x);
  if ((threadIdx.x < psize) && (idx < size)){
    //handle 64 bit unsigned add first
    unsigned long long cr1 = a[idx];
    unsigned long long lc = cr1 + b[idx];
    //handle carry
    if (threadIdx.x < BSIZE){
      carry[threadIdx.x] = 0;
      carry_through[threadIdx.x] = 0;
      }
    if (threadIdx.x == 0){
      mcarry = 0;
      mcarry_through = 0;
      }
    __syncthreads();
    if (lc < cr1){
      if ((threadIdx.x%LLBITS) != (LLBITS-1))  
        atomicAdd(&(carry[threadIdx.x/LLBITS]), (2ull<<(threadIdx.x%LLBITS)));
      else atomicAdd(&(carry[(threadIdx.x/LLBITS)+1]), 1);
      }
    //handle carry-through
    if (lc == 0xFFFFFFFFFFFFFFFFull) 
      atomicAdd(&(carry_through[threadIdx.x/LLBITS]), (1ull<<(threadIdx.x%LLBITS))); 
    __syncthreads();
    if (threadIdx.x < ((psize + LLBITS-1)/LLBITS)){
      //only 1 warp executing within this if statement
      unsigned long long cr3 = carry_through[threadIdx.x];
      cr1 = carry[threadIdx.x] & cr3;
      //start of sub-add
      unsigned long long cr2 = cr3 + cr1;
      if (cr2 < cr1) atomicAdd((unsigned *)&mcarry, (2u<<(threadIdx.x)));
      if (cr2 == 0xFFFFFFFFFFFFFFFFull) atomicAdd((unsigned *)&mcarry_through, (1u<<threadIdx.x));
      if (threadIdx.x == 0) {
        unsigned cr4 = mcarry & mcarry_through;
        cr4 += mcarry_through;
        mcarry |= (mcarry_through ^ cr4); 
        }
      if (mcarry & (1u<<threadIdx.x)) cr2++;
      //end of sub-add
      carry[threadIdx.x] |= (cr2 ^ cr3);
      }
    __syncthreads();
    if (carry[threadIdx.x/LLBITS] & (1ull<<(threadIdx.x%LLBITS))) lc++;
    c[idx] = lc;
  }
}

int main() {

  unsigned long long *h_a, *h_b, *h_c, *d_a, *d_b, *d_c, *c;
  unsigned at_once = 256;   //valid range = 1 .. 65535
  unsigned prob_size = MAXSIZE ; //valid range = 1 .. MAXSIZE
  unsigned dsize = at_once * prob_size;
  cudaEvent_t t_start_gpu, t_start_cpu, t_end_gpu, t_end_cpu;
  float et_gpu, et_cpu, tot_gpu, tot_cpu;
  tot_gpu = 0;
  tot_cpu = 0;


  if (sizeof(unsigned long long) != (LLBITS/8)) {printf("Word Size Error\n"); return 1;}
  if ((c = (unsigned long long *)malloc(dsize * sizeof(unsigned long long)))  == 0) {printf("Malloc Fail\n"); return 1;}

  cudaHostAlloc((void **)&h_a, dsize * sizeof(unsigned long long), cudaHostAllocDefault);
  cudaCheckErrors("cudaHostAlloc1 fail");
  cudaHostAlloc((void **)&h_b, dsize * sizeof(unsigned long long), cudaHostAllocDefault);
  cudaCheckErrors("cudaHostAlloc2 fail");
  cudaHostAlloc((void **)&h_c, dsize * sizeof(unsigned long long), cudaHostAllocDefault);
  cudaCheckErrors("cudaHostAlloc3 fail");

  cudaMalloc((void **)&d_a, dsize * sizeof(unsigned long long));
  cudaCheckErrors("cudaMalloc1 fail");
  cudaMalloc((void **)&d_b, dsize * sizeof(unsigned long long));
  cudaCheckErrors("cudaMalloc2 fail");
  cudaMalloc((void **)&d_c, dsize * sizeof(unsigned long long));
  cudaCheckErrors("cudaMalloc3 fail");
  cudaMemset(d_c, 0, dsize*sizeof(unsigned long long));

  cudaEventCreate(&t_start_gpu);
  cudaEventCreate(&t_end_gpu);
  cudaEventCreate(&t_start_cpu);
  cudaEventCreate(&t_end_cpu);

  for (unsigned loops = 0; loops <LOOPCNT; loops++){
  //create some test cases
  if (loops == 0){
  for (int j=0; j<at_once; j++)
  for (int k=0; k<prob_size; k++){
    int i= (j*prob_size) + k;
    h_a[i] = 0xFFFFFFFFFFFFFFFFull;
    h_b[i] = 0;
    }
    h_a[prob_size-1] = 0;
    h_b[prob_size-1] = 1;
    h_b[0] = 1;
  }
  else if (loops == 1){
  for (int i=0; i<dsize; i++){
    h_a[i] = 0xFFFFFFFFFFFFFFFFull;
    h_b[i] = 0;
    }
    h_b[0] = 1;
  }
  else if (loops == 2){
  for (int i=0; i<dsize; i++){
    h_a[i] = 0xFFFFFFFFFFFFFFFEull;
    h_b[i] = 2;
    }
    h_b[0] = 1;
  }
  else {
  for (int i = 0; i<dsize; i++){
    h_a[i] = (((unsigned long long)lrand48())<<33) + (unsigned long long)lrand48();
    h_b[i] = (((unsigned long long)lrand48())<<33) + (unsigned long long)lrand48();
    }
  }
#ifdef GPUCOPY
  cudaEventRecord(t_start_gpu, 0);
#endif
  cudaMemcpy(d_a, h_a, dsize*sizeof(unsigned long long), cudaMemcpyHostToDevice);
  cudaCheckErrors("cudaMemcpy1 fail");
  cudaMemcpy(d_b, h_b, dsize*sizeof(unsigned long long), cudaMemcpyHostToDevice);
  cudaCheckErrors("cudaMemcpy2 fail");
#ifdef GPU
  cudaEventRecord(t_start_gpu, 0);
#endif
  paradd<<<at_once, nTPB>>>(dsize, prob_size, d_c, d_a, d_b);
  cudaCheckErrors("Kernel Fail");
#ifdef GPU
  cudaEventRecord(t_end_gpu, 0);
#endif
  cudaMemcpy(h_c, d_c, dsize*sizeof(unsigned long long), cudaMemcpyDeviceToHost);
  cudaCheckErrors("cudaMemcpy3 fail");
#ifdef GPUCOPY
  cudaEventRecord(t_end_gpu, 0);
#endif
  cudaEventSynchronize(t_end_gpu);
  cudaEventElapsedTime(&et_gpu, t_start_gpu, t_end_gpu);
  tot_gpu += et_gpu;
  cudaEventRecord(t_start_cpu, 0);
  //also compute result on CPU for comparison
  for (int j=0; j<at_once; j++) {
    unsigned rc=0;
    for (int n=0; n<prob_size; n++){
      unsigned i = (j*prob_size) + n;
      c[i] = h_a[i] + h_b[i];
      if (c[i] < h_a[i]) {
        c[i] += rc;
        rc=1;}
      else {
        if ((c[i] += rc) != 0) rc=0;
        }
      if (c[i] != h_c[i]) {printf("Results mismatch at offset %d, GPU = 0x%lX, CPU = 0x%lX\n", i, h_c[i], c[i]); return 1;}
      }
    }
  cudaEventRecord(t_end_cpu, 0);
  cudaEventSynchronize(t_end_cpu);
  cudaEventElapsedTime(&et_cpu, t_start_cpu, t_end_cpu);
  tot_cpu += et_cpu;
  if ((loops%(LOOPCNT/10)) == 0) printf("*\n");
  }
  printf("\nResults Match!\n");
  printf("Average GPU time = %fms\n", (tot_gpu/LOOPCNT));
  printf("Average CPU time = %fms\n", (tot_cpu/LOOPCNT));

  return 0;
}

tatsächlich glaube ich, dass mein carry-propagation weiter reduziert werden kann zu: carry = tragen | (carry_through ^ (tragen + carry_through));
HM interessante Ideen )) ich werde überprüfen Sie Ihren code später heute
Dies ist sehr nützlich. Können Sie die zahlen für die Durchschnittliche Zeit, die auf die CPU vs GPU für Ihre Maschine (mit Angabe von CPu, GPU, OS, etc)?

InformationsquelleAutor Robert Crovella

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.