Wie zu transponieren einer matrix in CUDA/cublas?

Sagen, dass ich eine matrix mit einer dimension von A*B auf die GPU, wo B (Anzahl der Spalten) ist die führende dimension angenommen, ein C-Stil. Gibt es eine Methode in CUDA (oder cublas) zu transponieren dieser matrix FORTRAN-Stil, wo A (Anzahl der Zeilen) wird die führende dimension?

Ist es sogar besser, wenn es umgesetzt werden können, während host->device transfer, während halten Sie die original-Daten unverändert.

Da CUBLAS kann auf beide umgesetzt und normale Matrizen, werden Sie wahrscheinlich nicht brauchen, um explizit berechnen Sie die matrix transponieren, auch wenn das arbeiten mit Matrizen, das sind in row-major-Reihenfolge.
Es scheint, dass mit cublas<t>geam, wie unten vorgeschlagen, ist eine sehr effiziente Methode zur Durchführung von matrix-Umsetzung in CUDA. Für eine vollständige code und ein Vergleich mit den matrix-Transponierung mit Schub, siehe Was ist die effizienteste Methode zum transponieren einer matrix in CUDA?.

InformationsquelleAutor Hailiang Zhang | 2012-12-08

c cublas cuda gpu

4

Den CUDA SDK beinhaltet eine matrix transponieren, können Sie sehen, hier Beispiele auf, wie die Umsetzung ein, die von einer naiven Implementierung einer optimierten Versionen.

Beispiel:

Naiv transponieren
```
__global__ void transposeNaive(float *odata, float* idata,
int width, int height, int nreps)
{
    int xIndex = blockIdx.x*TILE_DIM + threadIdx.x;
    int yIndex = blockIdx.y*TILE_DIM + threadIdx.y;
    int index_in = xIndex + width * yIndex;
    int index_out = yIndex + height * xIndex;

    for (int r=0; r < nreps; r++)
    {
        for (int i=0; i<TILE_DIM; i+=BLOCK_ROWS)
        {
          odata[index_out+i] = idata[index_in+i*width];
        }
    }
}
```
Wie talonmies hatte Punkt aus können Sie angeben, wenn Sie möchten, betreiben die matrix transponiert oder nicht, in der cublas-matrix-Operationen wie zB.: für cublasDgemm (), wo C = a * op(A) * op(B) + b * C, vorausgesetzt, Sie betreiben wollte als umgesetzt (A^T), die auf die Parameter, die Sie angeben können, wenn es ("'N' normal oder 'T' transponiert)
- Hi, ich weiß, das ist ein paar Jahre zu spät. Aber gibt es eine Möglichkeit, dies zu tun in-place? Ich habe versucht, die naive Lösung mit einer temp-Variablen, aber es scheint nicht zu arbeiten für eine nicht-sq-matrix.
- Für die sequenzielle Ausführung gibt es bekannte algorithmen. In GPUs weiß ich über diese impact.crhc.illinois.edu/shared/papers/p207-sung.pdf kann es dir helfen.
- Danke für das Papier!
- Np, sind Sie willkommen.
InformationsquelleAutor dreamcrash

als gefragt, innerhalb der Titel, die Umsetzung Gerät row-major matrix A[m], [n], man kann es so machen:

    float* clone = ...;//copy content of A to clone
    float const alpha(1.0);
    float const beta(0.0);
    cublasHandle_t handle;
    cublasCreate(&handle);
    cublasSgeam( handle, CUBLAS_OP_T, CUBLAS_OP_N, m, n, &alpha, clone, n, &beta, clone, m, A, m );
    cublasDestroy(handle);

Und zu vervielfachen, zwei row-major Matrizen A[m][k] B[k][n], C=A*B

    cublasSgemm( handle, CUBLAS_OP_N, CUBLAS_OP_N, n, m, k, &alpha, B, n, A, k, &beta, C, n );

wo C ist auch ein row-major matrix.

Ist es möglich dies zu tun, ohne ein Klon?

InformationsquelleAutor Feng Wang

4

Version von CUBLAS zusammen mit der CUDA-5-toolkit enthält ein BLAS-like-Methode (cublasgeam), die verwendet werden könnten, um das transponieren einer matrix. Es ist dokumentiert hier.

InformationsquelleAutor Talal

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.