Erste Schritte mit Intel x86-SSE SIMD-Befehle

Ich will lernen, mehr über die Verwendung der SSE.

Welche Möglichkeiten gibt es, um zu lernen, neben den offensichtlichen Lesen der Die Intel® 64 und IA-32 Architectures Software Developer ' s Manuals?

Hauptsächlich bin ich interessiert an der Arbeit mit den GCC X86 Built-in-Funktionen.

InformationsquelleAutor Liran Orevi | 2009-09-07

45

Erste, die ich nicht empfehlen auf die Verwendung der built-in-Funktionen - Sie sind nicht tragbar (über Compilern der gleichen Architektur).

Verwenden Interna, GCC macht einen wunderbaren job Optimierung SSE Interna in noch mehr optimierten code. Sie können immer einen Blick auf die Versammlung und sehen, wie Sie mit SSE, um das volle Potenzial.

Interna einfach nur wie normale Funktionsaufrufe:
```
#include <immintrin.h>  //portable to all x86 compilers

int main()
{
    __m128 vector1 = _mm_set_ps(4.0, 3.0, 2.0, 1.0); //high element first, opposite of C array order.  Use _mm_setr_ps if you want "little endian" element order in the source.
    __m128 vector2 = _mm_set_ps(7.0, 8.0, 9.0, 0.0);

    __m128 sum = _mm_add_ps(vector1, vector2); //result = vector1 + vector 2

    vector1 = _mm_shuffle_ps(vector1, vector1, _MM_SHUFFLE(0,1,2,3));
    //vector1 is now (1, 2, 3, 4) (above shuffle reversed it)
    return 0;
}
```
Verwenden _mm_load_ps oder _mm_loadu_ps zum laden von Daten aus arrays.

Natürlich gibt es viel mehr Möglichkeiten, SSE ist wirklich mächtig und meiner Meinung nach relativ leicht zu erlernen.

Siehe auch https://stackoverflow.com/tags/sse/info für Sie einige links zu guides.
- Kennen Sie heiß zu machen, ein Skalarprodukt von zwei arrays int32 Elemente jeder?
- Stellen Sie eine Frage für Sie, und ich werde sicher helfen 🙂
- ist gcc/clang (und vielleicht ICC). Definitiv nicht zur Verfügung stehen MSVC. Die richtigen catch-all-portable-header für SSE/AVX-Interna ist immintrin.h. Es war eine gute Idee, Sie zu ersetzen xmmintrin.h (denn das definiert nur SSE1-Interna), obwohl.
InformationsquelleAutor LiraNuna
40

Seit Ihr gefragt für Ressourcen:

Ein praktischer Leitfaden für die Verwendung von SSE mit C++: Guter überblick über das Konzept zur Verwendung der SSE-effektiv, mit Beispielen.

MSDN Auflistung von Compiler-Interna: Umfassende Referenz für alle Ihre intrinsischen Bedürfnisse. Es ist, MSDN, aber so ziemlich alle Interna hier aufgelistet die unterstützt werden von GCC und ICC als gut.

Christopher Wright SSE-Seite: Schnelle Referenz auf die Bedeutung der SSE-opcodes. Ich denke, die Intel-Handbücher können, dienen die gleiche Funktion, doch dieser ist schneller.

Wahrscheinlich ist es am besten zu schreiben, die meisten Ihrer code-Interna, aber überprüfen Sie die objdump deine compiler-Ausgabe, um sicherzustellen, dass es die Herstellung von effizienten code. SIMD-code-Generierung ist immer noch eine relativ neue Technologie und es ist sehr gut möglich, dass der compiler könnte es falsch in einigen Fällen.

InformationsquelleAutor int3
7

Ich finde Dr. Agner Fog Forschung & optimization-guides sehr wertvoll! Er hat auch einige Bibliotheken & Test-tools, habe ich noch nicht ausprobiert.
http://www.agner.org/optimize/

InformationsquelleAutor tomByrer

Schritt 1: schreiben einige assembly manuell

Ich empfehlen, dass Sie zuerst versuchen, zu schreiben, Ihre eigenen Montage manuell zu finden-und genau kontrollieren, was passiert, wenn Sie anfangen, zu lernen.

Dann stellt sich die Frage, wie zu beobachten, was passiert im Programm, und die Antworten sind:

GDB
verwenden Sie die C-standard-Bibliothek zu print und assert Dinge

Verwendung der C-standard-Bibliothek selbst erfordert ein wenig Arbeit, aber nicht viel. Ich habe zum Beispiel diese Arbeit getan, schön für Sie unter Linux in das folgende Dateien von meinem test-setup:

Mit diesen Helfern habe ich dann anfangen zu spielen, um mit den Grundlagen, wie:

laden und speichern von Daten zum /vom Speicher in den SSE-Registern
hinzufügen von Ganzzahlen und Gleitkommazahlen in verschiedenen Größen
behaupten, dass die Ergebnisse das sind was ich erwarte

addpd.S

#include <lkmc.h>

LKMC_PROLOGUE
.data
    .align 16
    addps_input0: .float 1.5, 2.5,  3.5,  4.5
    addps_input1: .float 5.5, 6.5,  7.5,  8.5
    addps_expect: .float 7.0, 9.0, 11.0, 13.0
    addpd_input0: .double 1.5, 2.5
    addpd_input1: .double 5.5, 6.5
    addpd_expect: .double 7.0, 9.0
.bss
    .align 16
    output:       .skip 16
.text
    /* 4x 32-bit */
    movaps addps_input0, %xmm0
    movaps addps_input1, %xmm1
    addps %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, addps_expect, $0x10)

    /* 2x 64-bit */
    movaps addpd_input0, %xmm0
    movaps addpd_input1, %xmm1
    addpd %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, addpd_expect, $0x10)
LKMC_EPILOGUE

GitHub upstream.

paddq.S

#include <lkmc.h>

LKMC_PROLOGUE
.data
    .align 16
    input0:       .long 0xF1F1F1F1, 0xF2F2F2F2, 0xF3F3F3F3, 0xF4F4F4F4
    input1:       .long 0x12121212, 0x13131313, 0x14141414, 0x15151515
    paddb_expect: .long 0x03030303, 0x05050505, 0x07070707, 0x09090909
    paddw_expect: .long 0x04030403, 0x06050605, 0x08070807, 0x0A090A09
    paddd_expect: .long 0x04040403, 0x06060605, 0x08080807, 0x0A0A0A09
    paddq_expect: .long 0x04040403, 0x06060606, 0x08080807, 0x0A0A0A0A
.bss
    .align 16
    output:       .skip 16
.text
    movaps input1, %xmm1

    /* 16x 8bit */
    movaps input0, %xmm0
    paddb %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddb_expect, $0x10)

    /* 8x 16-bit */
    movaps input0, %xmm0
    paddw %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddw_expect, $0x10)

    /* 4x 32-bit */
    movaps input0, %xmm0
    paddd %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddd_expect, $0x10)

    /* 2x 64-bit */
    movaps input0, %xmm0
    paddq %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddq_expect, $0x10)

LKMC_EPILOGUE

GitHub upstream.

Schritt 2: schreiben Sie einige Interna

Für die Produktion Codes jedoch, Sie werden wahrscheinlich wollen, verwenden Sie die bereits bestehenden Interna statt raw assembly erwähnt: https://stackoverflow.com/a/1390802/895245

So, jetzt versuche ich zum konvertieren der vorherigen Beispiele in mehr oder weniger äquivalenten C-code-Interna.

addpq.c

#include <assert.h>
#include <string.h>

#include <x86intrin.h>

float global_input0[] __attribute__((aligned(16))) = {1.5f, 2.5f, 3.5f, 4.5f};
float global_input1[] __attribute__((aligned(16))) = {5.5f, 6.5f, 7.5f, 8.5f};
float global_output[4] __attribute__((aligned(16)));
float global_expected[] __attribute__((aligned(16))) = {7.0f, 9.0f, 11.0f, 13.0f};

int main(void) {
    /* 32-bit add (addps). */
    {
        __m128 input0 = _mm_set_ps(1.5f, 2.5f, 3.5f, 4.5f);
        __m128 input1 = _mm_set_ps(5.5f, 6.5f, 7.5f, 8.5f);
        __m128 output = _mm_add_ps(input0, input1);
        /* _mm_extract_ps returns int instead of float:
        * * https://stackoverflow.com/questions/5526658/intel-sse-why-does-mm-extract-ps-return-int-instead-of-float
        * * https://stackoverflow.com/questions/3130169/how-to-convert-a-hex-float-to-a-float-in-c-c-using-mm-extract-ps-sse-gcc-inst
        * so we must use instead: _MM_EXTRACT_FLOAT
        */
        float f;
        _MM_EXTRACT_FLOAT(f, output, 3);
        assert(f == 7.0f);
        _MM_EXTRACT_FLOAT(f, output, 2);
        assert(f == 9.0f);
        _MM_EXTRACT_FLOAT(f, output, 1);
        assert(f == 11.0f);
        _MM_EXTRACT_FLOAT(f, output, 0);
        assert(f == 13.0f);

        /* And we also have _mm_cvtss_f32 + _mm_shuffle_ps, */
        assert(_mm_cvtss_f32(output) == 13.0f);
        assert(_mm_cvtss_f32(_mm_shuffle_ps(output, output, 1)) == 11.0f);
        assert(_mm_cvtss_f32(_mm_shuffle_ps(output, output, 2)) ==  9.0f);
        assert(_mm_cvtss_f32(_mm_shuffle_ps(output, output, 3)) ==  7.0f);
    }

    /* Now from memory. */
    {
        __m128 *input0 = (__m128 *)global_input0;
        __m128 *input1 = (__m128 *)global_input1;
        _mm_store_ps(global_output, _mm_add_ps(*input0, *input1));
        assert(!memcmp(global_output, global_expected, sizeof(global_output)));
    }

    /* 64-bit add (addpd). */
    {
        __m128d input0 = _mm_set_pd(1.5, 2.5);
        __m128d input1 = _mm_set_pd(5.5, 6.5);
        __m128d output = _mm_add_pd(input0, input1);
        /* OK, and this is how we get the doubles out:
        * with _mm_cvtsd_f64 + _mm_unpackhi_pd
        * https://stackoverflow.com/questions/19359372/mm-cvtsd-f64-analogon-for-higher-order-floating-point
        */
        assert(_mm_cvtsd_f64(output) == 9.0);
        assert(_mm_cvtsd_f64(_mm_unpackhi_pd(output, output)) == 7.0);
    }

    return 0;
}

GitHub upstream.

paddq.c

#include <assert.h>
#include <inttypes.h>
#include <string.h>

#include <x86intrin.h>

uint32_t global_input0[] __attribute__((aligned(16))) = {1, 2, 3, 4};
uint32_t global_input1[] __attribute__((aligned(16))) = {5, 6, 7, 8};
uint32_t global_output[4] __attribute__((aligned(16)));
uint32_t global_expected[] __attribute__((aligned(16))) = {6, 8, 10, 12};

int main(void) {

    /* 32-bit add hello world. */
    {
        __m128i input0 = _mm_set_epi32(1, 2, 3, 4);
        __m128i input1 = _mm_set_epi32(5, 6, 7, 8);
        __m128i output = _mm_add_epi32(input0, input1);
        /* _mm_extract_epi32 mentioned at:
        * https://stackoverflow.com/questions/12495467/how-to-store-the-contents-of-a-m128d-simd-vector-as-doubles-without-accessing/56404421#56404421 */
        assert(_mm_extract_epi32(output, 3) == 6);
        assert(_mm_extract_epi32(output, 2) == 8);
        assert(_mm_extract_epi32(output, 1) == 10);
        assert(_mm_extract_epi32(output, 0) == 12);
    }

    /* Now from memory. */
    {
        __m128i *input0 = (__m128i *)global_input0;
        __m128i *input1 = (__m128i *)global_input1;
        _mm_store_si128((__m128i *)global_output, _mm_add_epi32(*input0, *input1));
        assert(!memcmp(global_output, global_expected, sizeof(global_output)));
    }

    /* Now a bunch of other sizes. */
    {
        __m128i input0 = _mm_set_epi32(0xF1F1F1F1, 0xF2F2F2F2, 0xF3F3F3F3, 0xF4F4F4F4);
        __m128i input1 = _mm_set_epi32(0x12121212, 0x13131313, 0x14141414, 0x15151515);
        __m128i output;

        /* 8-bit integers (paddb) */
        output = _mm_add_epi8(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x03030303);
        assert(_mm_extract_epi32(output, 2) == 0x05050505);
        assert(_mm_extract_epi32(output, 1) == 0x07070707);
        assert(_mm_extract_epi32(output, 0) == 0x09090909);

        /* 32-bit integers (paddw) */
        output = _mm_add_epi16(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x04030403);
        assert(_mm_extract_epi32(output, 2) == 0x06050605);
        assert(_mm_extract_epi32(output, 1) == 0x08070807);
        assert(_mm_extract_epi32(output, 0) == 0x0A090A09);

        /* 32-bit integers (paddd) */
        output = _mm_add_epi32(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x04040403);
        assert(_mm_extract_epi32(output, 2) == 0x06060605);
        assert(_mm_extract_epi32(output, 1) == 0x08080807);
        assert(_mm_extract_epi32(output, 0) == 0x0A0A0A09);

        /* 64-bit integers (paddq) */
        output = _mm_add_epi64(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x04040404);
        assert(_mm_extract_epi32(output, 2) == 0x06060605);
        assert(_mm_extract_epi32(output, 1) == 0x08080808);
        assert(_mm_extract_epi32(output, 0) == 0x0A0A0A09);
    }

    return 0;

GitHub upstream.

Schritt 3: gehen Sie und optimieren code und benchmark es

Das Letzte, und die meisten wichtiger und schwieriger Schritt, ist natürlich, um tatsächlich die Interna, um Ihren code zu schnell, und dann vergleichen Sie Ihre Verbesserung.

Tun so, wird wahrscheinlich verlangen, dass Sie lernen, ein wenig über die x86-Mikroarchitektur, die ich nicht kenne mich. CPU-vs. E /a-gebunden wird wahrscheinlich eines der Dinge, kommt: Was bedeuten die Begriffe "CPU-bound" und "I/O bound" bedeuten?

Erwähnt: https://stackoverflow.com/a/12172046/895245 dies wird fast zwangsläufig Lesen von Agner Fog in der Dokumentation, die scheinen zu sein besser als alles, was Intel selbst veröffentlicht hat.

Hoffentlich werden jedoch die Schritte 1 und 2 dienen als Grundlage, um zumindest experiment mit der funktionellen nicht-performance-Aspekte und schnell sehen, was für Anweisungen sind zu tun.

TODO: erstellen Sie eine minimale Interessantes Beispiel einer solchen Optimierung hier.

IDK wenn es ' s eine gute Idee zu schweigen von Linux kernel-Modulen unter Verwendung von SIMD-ohne Warnung, die Sie benötigen kernel_fpu_begin() / _end() um Ihre SIMD-code. Ein LKM ist der Letzte Ort, den Sie erwarten würden, um zu finden, SIMD, und der härteste Ort, um es zu testen, so scheint es vielleicht verwirrend zu bringen, die als erste Schritte in einem intro-to-SIMD-Antwort.
hi Pete, alles unter userland/ in, der verrückte repo ist, gut, userland-Programme 🙂 (ARM-asm / C diejenigen, die auch in baremetal über Newlib + crosstool-NG btw, nicht für x86 nur, weil faul). Kernel-Module sind unter kernel_modules/ ich hatte nie versucht floating-Operationen im kernel-Modulen, gut zu wissen, wie kernel_fpu_begin(). Ich hackte ein Beispiel für Spaß hier.

InformationsquelleAutor Ciro Santilli 新疆改造中心996ICU六四事件

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.