Matrix inversion in OpenCL

Ich versuche zu beschleunigen, einige Berechnungen mit OpenCL und Teil des Algorithmus besteht in der Invertierung einer matrix. Gibt es eine open-source-Bibliothek oder frei verfügbare code zur Berechnung lu-Faktorisierung (lapack dgetrf und dgetri) der matrix oder Allgemeine inversion geschrieben in OpenCL oder CUDA? Die matrix ist real und Platz, aber keine anderen speziellen Eigenschaften außerdem. Bisher habe ich es geschafft, nur basic-blas matrix-Vektor-Operationen-Implementierungen auf der gpu.

Die matrix ist ziemlich klein, nur etwa 60-100 Zeilen und Spalten, so könnte es sein, schneller berechnet auf die cpu, aber es wird irgendwie in der Mitte des Algorithmus, so hätte ich es zu übertragen, zu hosten, berechnen Sie die inverse, und übertragen Sie dann das Ergebnis wieder auf das Gerät, wo es dann in viel größeren Berechnungen.

Sie sollten auch beachten, dass das invertieren einer matrix eine teure operation sein kann, insbesondere für große Matrizen, und sehr oft gibt es eine alternative Möglichkeit zur Lösung des Problems bei der hand. LU-ZERLEGUNG ist ein "Baustein", dass kann verwendet werden, um zu vermeiden, tun eine echte inverse.

InformationsquelleAutor buchtak | 2010-05-31

opencl

5

Habe ich nicht eine Implementierung in Open-CL, aber beide "Numerical Recipes" und Gil Strang ist "In der Angewandten Mathematik" haben wunderbare Erklärungen, die wäre einfach zu code. "NR" ist C-code, den Sie anpassen konnte.

berechnen Sie die inverse

Dies ist falsch. Sie sind nicht der Berechnung einer inverse mit LR-ZERLEGUNG, Sie sind in der ZERLEGUNG der matrix. Wenn Sie wollten, dass die inverse, die Sie würde tun müssen, forward-back-substitution mit einer Reihe von einheitsvektoren. Es ist ein kleiner aber wichtiger Unterschied.

InformationsquelleAutor duffymo
12

Blick auf ViennaCL: http://viennacl.sourceforge.net/
- Dies ist, was ich wollte. Der einzige Haken ist, dass der Kernel für die LU-Faktorisierung verwenden Sie nicht schwenken, also Ihre Leistung eher schlecht und numerisch instabil für einige Eingaben.
InformationsquelleAutor Hal Finkel
1

Überprüfen CULA

http://www.culatools.com/
http://www.culatools.com/versions/basic

InformationsquelleAutor Gautham Ganapathy
1

Ich weiß das ist ziemlich spät, aber wenn Sie versuchen zu tun, alle matrix-Berechnungen auf eine matrix, die kleine (60-100 Zeilen), dann die Berechnungen viel schneller von der CPU anstatt GPU weil die Zeit, die es braucht, um kopieren Sie die Daten vom Hauptspeicher auf die GPU zu Gedenken. Wenn Sie wollen, um dies zu tun, dann würde ich vorschlagen, Blick in eine parallele Sprache, wie z.B. OpenMP oder MPI, da diese erlauben würde, Sie zu parallelisieren code, um die Geschwindigkeit der Berechnungen auf die CPU.

InformationsquelleAutor th3n3wguy

Ich machen, die Rechnung bis zu 2k x 2k bei CPU über den Multi-Thread-mit eigen lib, also es ist jetzt 3.5-3.65-mal schneller (hängt von Größe der matrix) als mit einem thread.
Ich habe eine Intel Xeon 3,5 Ghz E5-1620 v3 Prozessor und 16Gb ram. (Leider habe ich gelöscht, die alte version hinzufügen genauen Werte, aber wenn hat Priorität, ich könnte schreiben Sie die sw)

Dies ist meine matrix inverse Algorithmus, den ich verwendet, zu vergleichen mit. (Es ist richtig, wie gesagt, eine Menge von tests, die wieder excel-Ergebnis):

/*
Uses 2D arrays.
Main routines are:
init_2Dvector() that initializes any 2d vector (can be uchar, char, int, float or double)
multiply_2Dvector()
inverse()
*/

#include<iostream>
#include <vector>
#include <stdlib.h>
#include <time.h>

using namespace std;

/*
void print_2Dvector(vector<vector<double> >& vec)
{
    size_t xmax, ymax;
    ymax = vec.size();
    xmax = vec[0].size(); 

    int x, y;
    for (y = 0; y < ymax; y++)
    {
        for (x = 0; x < xmax; x++)
            cout << vec[y][x] << " \t";
        cout << endl;
    }
}*/

void print_2Dvector(vector<vector<double> >& vec,char *format="%lg \t")
{
    size_t xmax, ymax;
    ymax = vec.size();
    xmax = vec[0].size();

    int x, y;
    for (y = 0; y < ymax; y++)
    {
        {
            for (x = 0; x < xmax; x++)
                printf(format, vec[y][x]);
        }
        cout << endl;
    }
}

//Resizes to y_dim,x_dim any kind of 2d array:
template<typename T>
void init_2Dvector(vector<vector<T> >& vec, size_t y_dim, size_t x_dim)
{
    vec.resize(y_dim);
    for (size_t i = 0; i < vec.size(); i++)
        vec[i].resize(x_dim);
}
//Returns vec1*vec2. vec1 and 2 are not touch
vector< vector<double> > multiply_2Dvector(vector< vector<double> > vec1, vector< vector<double> > vec2)
{
    size_t xmax, ymax;
    ymax = vec1.size();   
    xmax = vec1[0].size();
    vector< vector<double> > vec3;
    if ((ymax != vec2[0].size()) || (xmax != vec2.size()))
    {
        cout << "ERROR on dim2_multiply() dimensions of vec2 not corresponding with vec1 ones" << endl; getchar(); return{};//returns a null
    }
    init_2Dvector(vec3, ymax, ymax);
    cout << "dimensions of vec3=" << vec3.size() << " x " << vec3[0].size() << endl;
    double xx;
    for (int y = 0; y < ymax; y++)
        for (int x = 0; x < ymax; x++)
        {
            xx = 0.0;
            for (int t = 0; t < xmax; t++)
                xx += vec1[y][t] * vec2[t][x];
            vec3[y][x] = xx;
        }
    return vec3;//ok
}

//returns inverse of x2, x2 is not modified
vector< vector<double> > inverse(vector< vector<double> > x)
{
    if (x.size() != x[0].size())
    {
        cout << "ERROR on inverse() not square array" << endl; getchar(); return{};//returns a null
    }

    size_t dim = x.size();
    int i, j, ord;
    vector< vector<double> > y(dim,vector<double>(dim));//output
    //init_2Dvector(y, dim, dim);
    //1. Unity array y: 
    for (i = 0; i < dim; i++)
    {
        y[i][i] = 1.0;
        for (j = i+1; j < dim; j++)
        {
            y[i][j]= y[j][i] = 0.0;
        }
    }

    double diagon, coef;
    double *ptrx, *ptry, *ptrx2, *ptry2;
    for (ord = 0; ord<dim; ord++)
    {
        //2 Hacemos diagonal de x =1
        int i2;
        if (fabs(x[ord][ord])<1e-15) //Si el elemento diagonal es 0 sumamos una columna que no sea 0 el elemento correspondiente
        {
            for (i2 = ord + 1; i2<dim; i2++)
            {
                if (fabs(x[i2][ord])>1e-15) break;
            }
            if (i2 >= dim)
                return{};//error, returns null
            for (i = 0; i<dim; i++)//sumo la linea que no es 0 el de la misma fila de ord
            {
                x[ord][i] += x[i2][i];
                y[ord][i] += y[i2][i];
            }
        }
        diagon = 1.0/x[ord][ord];
        ptry = &y[ord][0];
        ptrx = &x[ord][0];
        for (i = 0; i < dim; i++)
        {
            *ptry++ *= diagon;
            *ptrx++ *= diagon;
        }

        //Hacemos '0' la columna ord salvo elemento diagonal:
        for (i = 0; i<dim; i++)//Empezamos por primera fila
        {
            if (i == ord) continue;
            coef = x[i][ord];//elemento ha hacer 0 
            if (fabs(coef)<1e-15) continue; //si es cero se evita
            ptry = &y[i][0];
            ptry2 = &y[ord][0];
            ptrx = &x[i][0];
            ptrx2 = &x[ord][0];
            for (j = 0; j < dim; j++)
            {
                *ptry++ = *ptry - coef * (*ptry2++);//1ª matriz
                *ptrx++ = *ptrx - coef * (*ptrx2++);//2ª matriz
            }
        }
    }//end ord
    return y;
}


void test_5_inverse()
{
    vector< vector<double> > vec1 = {
        {0,-5,0,7,33,11,-1},
        {72,0,-11,7,9,33,5 },
        { -13,31,-5,15,29,30,24 },
        { -24,9,8,-23,31,-12,4 },
        { -3,-22,4,-24,-5,27,-10 },
        { -10,-21,-16,-32,-11,20,14 },
        {5,30,13,-32,29,-13,-13 }
    };
    vector< vector<double> > vec2;
    vec2 = inverse(vec1);
    vector< vector<double> > vec3;
    vec3 = multiply_2Dvector(vec1, vec2);

    cout << "initial array (must be unmodified):" << endl;
    print_2Dvector(vec1);

    cout << "Must be diagon array:" << endl;
    print_2Dvector(vec3," %8.3lf");
    cout << endl;
}


void test_6_inverse(int dim)
{
    vector< vector<double> > vec1(dim, vector<double>(dim));
    for (int i=0;i<dim;i++)
        for (int j = 0; j < dim; j++)
        {
            vec1[i][j] = (-1.0 + 2.0*rand() /RAND_MAX) * 10000;
        }

    vector< vector<double> > vec2;
    double ini, end;
    ini = (double)clock();
    vec2 = inverse(vec1);
    end = (double)clock();
    cout << "Time inverse =" << (end - ini) /CLOCKS_PER_SEC << endl;
    vector< vector<double> > vec3;
    vec3 = multiply_2Dvector(vec1, vec2);

    cout << "initial array (must be unmodified):" << endl;
    //print_2Dvector(vec1);

    cout << "Must be diagon array:" << endl;
    //print_2Dvector(vec3, " %8.3lf");
    cout << endl;
}

int main()
{
    vector< vector<double> > vec1;
    init_2Dvector(vec1, 10, 5);    //size_t ymax = vec1.size(),xmax = vec1[0].size();
    //test_2_dimension_vector();
    //test_one_dimension_vector();
    test_5_inverse();
    test_6_inverse(1300);
    cout << endl << "=== END ===" << endl; getchar(); 
    return 1;
}

Bitte Messen Sie und Bearbeiten Sie Ihren Kommentar mit der benchmark Hexe CPU verwendet, input-Daten, etc.
Danke, es ist getan. HINWEIS: (ich kann nicht kommentieren die cuda-Lösung in post gerade nach unten): Wenn Sie übersetzt aus, dass der CUDA-code kümmern, dass die meisten GPU-boards verwenden können lokale arrays > 256 Elemente so 512 zu machen, werden Ihnen Fehler.

InformationsquelleAutor mathengineer

0

Die ursprüngliche Frage (jetzt 7 Jahre alt) tatsächlich gelöst wurde 4 Jahre später in einem Papier beschreiben, matrix inversion in CUDA auf der Grundlage von Gauss-Jordan. Er versucht, zum verteilen der Berechnungen auf verschiedene threads, und gibt detaillierte performance-Hinweise für Matrizen von bis zu 2048 in der Größe.

Zwar nicht OpenCL, die Allgemeinen Ideen übersetzen von CUDA ganz einfach.
- Das ist ein sehr guter Punkt, aber kümmert sich um die Verwendung von Doppel-nicht-Schwimmer (opencl und cuda in der Regel Menschen bevorzugen die Verwendung von floats zu verdoppeln, cuda-Kerne Kapazität), da beim hinzufügen von kleinen Werten zu höheren diejenigen mit Schwimmer sammelt sich eine Menge Fehler mehr als mit Schwimmer. Schwimmer verwendet 8-stellig und Doppel-16. Hinzufügen von 1 bis 9 Ziffern Nummer nicht ändern, ein float-Wert, so könnte es passiert unbekannter Rundungsfehler enthalten diejenigen, die provoziert 0 Determinante Fehler " division
InformationsquelleAutor StarShine

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.