Schnellste de-interleave-operation in C?

Habe ich einen Zeiger auf ein array von bytes mixed enthält die verschachtelte bytes der zwei unterschiedliche arrays array1 und array2. Sagen mixed sieht ungefähr so aus:

a1b2c3d4...

Was ich tun müssen, ist de-verschachteln der bytes, so bekomme ich array1 = abcd... und array2 = 1234.... Ich weiß, die Länge von mixed vor der Zeit, und die Längen der array1 und array2 sind gleichwertig, beide gleich mixed /2.

Hier ist meine aktuelle Umsetzung (array1 und array2 sind bereits zugeordnet):

int i, j;
int mixedLength_2 = mixedLength / 2;
for (i = 0, j = 0; i < mixedLength_2; i++, j += 2)
{
    array1[i] = mixed[j];
    array2[i] = mixed[j+1];
}

Dies vermeidet teure Multiplikation oder division Operationen, aber immer noch nicht schnell genug laufen. Ich hoffe, dass es so etwas wie memcpy braucht man ein indexer, der die low-level-block-copy-Vorgänge, um den Prozess zu beschleunigen. Gibt es eine schnellere Umsetzung, als das, was ich derzeit habe?

Bearbeiten

Die Zielplattform ist Objective-C für iOS und Mac. Eine schnelle operation ist wichtiger für iOS-Geräte, also eine Lösung, die sich an iOS-spezifisch wäre besser als nichts.

Update

Danke an alle für die Antworten, vor allem Stephen Canon, Graham Lee, und Mecki. Hier ist mein "master" - Funktion, die verwendet Stephen ' s NEON Interna, wenn verfügbar und sonst Graham union Cursor mit einer reduzierten Anzahl von Iterationen wie vorgeschlagen von Mecki.

void interleave(const uint8_t *srcA, const uint8_t *srcB, uint8_t *dstAB, size_t dstABLength)
{
#if defined __ARM_NEON__
    //attempt to use NEON intrinsics

    //iterate 32-bytes at a time
    div_t dstABLength_32 = div(dstABLength, 32);
    if (dstABLength_32.rem == 0)
    {
        while (dstABLength_32.quot --> 0)
        {
            const uint8x16_t a = vld1q_u8(srcA);
            const uint8x16_t b = vld1q_u8(srcB);
            const uint8x16x2_t ab = { a, b };
            vst2q_u8(dstAB, ab);
            srcA += 16;
            srcB += 16;
            dstAB += 32;
        }
        return;
    }

    //iterate 16-bytes at a time
    div_t dstABLength_16 = div(dstABLength, 16);
    if (dstABLength_16.rem == 0)
    {
        while (dstABLength_16.quot --> 0)
        {
            const uint8x8_t a = vld1_u8(srcA);
            const uint8x8_t b = vld1_u8(srcB);
            const uint8x8x2_t ab = { a, b };
            vst2_u8(dstAB, ab);
            srcA += 8;
            srcB += 8;
            dstAB += 16;
        }
        return;
    }
#endif

    //if the bytes were not aligned properly
    //or NEON is unavailable, fall back to
    //an optimized iteration

    //iterate 8-bytes at a time
    div_t dstABLength_8 = div(dstABLength, 8);
    if (dstABLength_8.rem == 0)
    {
        typedef union
        {
            uint64_t wide;
            struct { uint8_t a1; uint8_t b1; uint8_t a2; uint8_t b2; uint8_t a3; uint8_t b3; uint8_t a4; uint8_t b4; } narrow;
        } ab8x8_t;

        uint64_t *dstAB64 = (uint64_t *)dstAB;
        int j = 0;
        for (int i = 0; i < dstABLength_8.quot; i++)
        {
            ab8x8_t cursor;
            cursor.narrow.a1 = srcA[j  ];
            cursor.narrow.b1 = srcB[j++];
            cursor.narrow.a2 = srcA[j  ];
            cursor.narrow.b2 = srcB[j++];
            cursor.narrow.a3 = srcA[j  ];
            cursor.narrow.b3 = srcB[j++];
            cursor.narrow.a4 = srcA[j  ];
            cursor.narrow.b4 = srcB[j++];
            dstAB64[i] = cursor.wide;
        }
        return;
    }

    //iterate 4-bytes at a time
    div_t dstABLength_4 = div(dstABLength, 4);
    if (dstABLength_4.rem == 0)
    {
        typedef union
        {
            uint32_t wide;
            struct { uint8_t a1; uint8_t b1; uint8_t a2; uint8_t b2; } narrow;
        } ab8x4_t;

        uint32_t *dstAB32 = (uint32_t *)dstAB;
        int j = 0;
        for (int i = 0; i < dstABLength_4.quot; i++)
        {
            ab8x4_t cursor;
            cursor.narrow.a1 = srcA[j  ];
            cursor.narrow.b1 = srcB[j++];
            cursor.narrow.a2 = srcA[j  ];
            cursor.narrow.b2 = srcB[j++];
            dstAB32[i] = cursor.wide;
        }
        return;
    }

    //iterate 2-bytes at a time
    div_t dstABLength_2 = div(dstABLength, 2);
    typedef union
    {
        uint16_t wide;
        struct { uint8_t a; uint8_t b; } narrow;
    } ab8x2_t;

    uint16_t *dstAB16 = (uint16_t *)dstAB;
    for (int i = 0; i < dstABLength_2.quot; i++)
    {
        ab8x2_t cursor;
        cursor.narrow.a = srcA[i];
        cursor.narrow.b = srcB[i];
        dstAB16[i] = cursor.wide;
    }
}

void deinterleave(const uint8_t *srcAB, uint8_t *dstA, uint8_t *dstB, size_t srcABLength)
{
#if defined __ARM_NEON__
    //attempt to use NEON intrinsics

    //iterate 32-bytes at a time
    div_t srcABLength_32 = div(srcABLength, 32);
    if (srcABLength_32.rem == 0)
    {
        while (srcABLength_32.quot --> 0)
        {
            const uint8x16x2_t ab = vld2q_u8(srcAB);
            vst1q_u8(dstA, ab.val[0]);
            vst1q_u8(dstB, ab.val[1]);
            srcAB += 32;
            dstA += 16;
            dstB += 16;
        }
        return;
    }

    //iterate 16-bytes at a time
    div_t srcABLength_16 = div(srcABLength, 16);
    if (srcABLength_16.rem == 0)
    {
        while (srcABLength_16.quot --> 0)
        {
            const uint8x8x2_t ab = vld2_u8(srcAB);
            vst1_u8(dstA, ab.val[0]);
            vst1_u8(dstB, ab.val[1]);
            srcAB += 16;
            dstA += 8;
            dstB += 8;
        }
        return;
    }
#endif

    //if the bytes were not aligned properly
    //or NEON is unavailable, fall back to
    //an optimized iteration

    //iterate 8-bytes at a time
    div_t srcABLength_8 = div(srcABLength, 8);
    if (srcABLength_8.rem == 0)
    {
        typedef union
        {
            uint64_t wide;
            struct { uint8_t a1; uint8_t b1; uint8_t a2; uint8_t b2; uint8_t a3; uint8_t b3; uint8_t a4; uint8_t b4; } narrow;
        } ab8x8_t;

        uint64_t *srcAB64 = (uint64_t *)srcAB;
        int j = 0;
        for (int i = 0; i < srcABLength_8.quot; i++)
        {
            ab8x8_t cursor;
            cursor.wide = srcAB64[i];
            dstA[j  ] = cursor.narrow.a1;
            dstB[j++] = cursor.narrow.b1;
            dstA[j  ] = cursor.narrow.a2;
            dstB[j++] = cursor.narrow.b2;
            dstA[j  ] = cursor.narrow.a3;
            dstB[j++] = cursor.narrow.b3;
            dstA[j  ] = cursor.narrow.a4;
            dstB[j++] = cursor.narrow.b4;
        }
        return;
    }

    //iterate 4-bytes at a time
    div_t srcABLength_4 = div(srcABLength, 4);
    if (srcABLength_4.rem == 0)
    {
        typedef union
        {
            uint32_t wide;
            struct { uint8_t a1; uint8_t b1; uint8_t a2; uint8_t b2; } narrow;
        } ab8x4_t;

        uint32_t *srcAB32 = (uint32_t *)srcAB;
        int j = 0;
        for (int i = 0; i < srcABLength_4.quot; i++)
        {
            ab8x4_t cursor;
            cursor.wide = srcAB32[i];
            dstA[j  ] = cursor.narrow.a1;
            dstB[j++] = cursor.narrow.b1;
            dstA[j  ] = cursor.narrow.a2;
            dstB[j++] = cursor.narrow.b2;
        }
        return;
    }

    //iterate 2-bytes at a time
    div_t srcABLength_2 = div(srcABLength, 2);
    typedef union
    {
        uint16_t wide;
        struct { uint8_t a; uint8_t b; } narrow;
    } ab8x2_t;

    uint16_t *srcAB16 = (uint16_t *)srcAB;
    for (int i = 0; i < srcABLength_2.quot; i++)
    {
        ab8x2_t cursor;
        cursor.wide = srcAB16[i];
        dstA[i] = cursor.narrow.a;
        dstB[i] = cursor.narrow.b;
    }
}

Nun, wenn die Eingabe tatsächlich interleaved, dann kann man nicht wirklich block-Kopie...
Welche Plattform[s] Sie sind targeting? Viele gut optimierte Bibliothek-Funktionen für die Ausführung dieser Operationen. Es gibt nichts in der C-standard-Bibliothek, jedoch.
Objective-C für iOS/Mac. Diese Optimierung ist besonders wichtig für iOS.
was bedeutet iOS und OS X, oder haben Sie Sorge, über den anderen Plattformen auch?
Bearbeitet mein Kommentar zu klären - iOS und OS X.
memcpy nicht funktioniert, aber ich bin der Hoffnung, für etwas gleich schnell sind.
Sollte nicht sein, dass viel Verbesserung, aber statt i < mixedLength / 2 schreiben Sie j < mixedLength und speichern Sie eine division pro iteration ohne eine temporäre variable.
Danke, hab ich aktualisiert den code entsprechend. Du hast Recht - es ist nicht genug von einer Verbesserung.
Sie können versuchen, das Lesen der Quell-array als ein array von kurzen (2-byte-Mengen) oder vielleicht sogar 4-oder 8-byte-Ganzzahlen. Store durch Extraktion von geraden und ungeraden Hälften mit Schichten und Masken. Nicht wirklich portabel, sondern Sie sollten etwas beschleunigen.
Die de-interleaved bytes übergeben werden, in eine third-party Bibliothek. Könnte ich das evtl ändern Sie das third-party-Bibliothek, sodass es Indizes anders, aber das wäre eine "alles-andere-ist-gescheitert" last resort".
Sie brauchen nicht zu ändern Ihre Schnittstelle. So etwas wie short a=((short*)mixed)[i]; array1[i] = a&0xFF; array2[i] = a>>8;.
Haben Sie schaute auf die Accelerate-framework-API? Sie werden zweifellos finden, was Sie nach gibt.
Ich denke, dass Sie verwenden können vunzp.8 für ein NEON-Teil des Programms. Es sieht aus wie Stephen gab es Sie unten. Siehe auch Codierung für NEON - Teil 5: Neuanordnung von Vektoren.

InformationsquelleAutor Anton | 2013-01-28

10

Aus der Spitze von meinem Kopf, ich weiß nicht, der eine library-Funktion für de-interleaving 2-Kanal-byte-Daten. Allerdings lohnt es sich, die Einreichung einer bug-report bei Apple auf Anfrage eine solche Funktion.

In der Zwischenzeit, es ist ziemlich einfach zu Vektorisieren solche Funktion mit NEON-oder SSE-Interna. Insbesondere auf den ARM, die Sie verwenden möchten vld1q_u8 laden ein Vektor von jeder Quelle im array vuzpq_u8 de-verschachteln Sie, und vst1q_u8 zum speichern der resultierenden Vektoren; hier ist eine grobe Skizze, die ich noch nicht getestet, oder sogar versucht zu bauen, aber es sollte verdeutlichen die Allgemeine Idee. Mehr anspruchsvolle Implementierungen sind definitiv möglich (insbesondere, NEON-laden/speichern zwei 16B Register in einer einzigen Anweisung, die der compiler kann nicht tun dies und einige Menge von pipelining und/oder abrollen kann vorteilhaft sein, je nachdem, wie lang die Puffer sind):
```
#if defined __ARM_NEON__
#   include <arm_neon.h>
#endif
#include <stdint.h>
#include <stddef.h>

void deinterleave(uint8_t *mixed, uint8_t *array1, uint8_t *array2, size_t mixedLength) {
#if defined __ARM_NEON__
    size_t vectors = mixedLength / 32;
    mixedLength %= 32;
    while (vectors --> 0) {
        const uint8x16_t src0 = vld1q_u8(mixed);
        const uint8x16_t src1 = vld1q_u8(mixed + 16);
        const uint8x16x2_t dst = vuzpq_u8(src0, src1);
        vst1q_u8(array1, dst.val[0]);
        vst1q_u8(array2, dst.val[1]);
        mixed += 32;
        array1 += 16;
        array2 += 16;
    }
#endif
    for (size_t i=0; i<mixedLength/2; ++i) {
        array1[i] = mixed[2*i];
        array2[i] = mixed[2*i + 1];
    }
}
```
- Auch wenn die betreffenden Typen waren float und int, ich hätte die gleichen sorgen wie die OP in dieser Frage bei der Verwendung von float Vektor-Anweisungen zu mischen ints, multipliziert mit so vielen Plattformen wie der Accelerate-framework ist für. Die Antwort ist subtil nur für die x86-Architektur. stackoverflow.com/questions/4996384/...
- das wäre nicht wirklich ein Problem sein; die Daten behandelt werden, ganz wie FP, so würde es keine Domäne-Kreuzung Strafen. Es ist ein strittiger Punkt, jedoch.
- Wow, NEON-Interna sind lächerlich schnell. Ich bin mit vld2q_u8 und vst1q_u8 ohne vuzpq_u8, und es lodert.
- FWIW, mit vuzpq_u8 sogar noch schneller, in einigen Prozessoren.
- Ich weiß, diese Frage ist alt, aber ich möchte, um zu bestätigen, dass de-interleaving ist schneller mit vuzpq_u8 als vld2q_u8 auf ein iPhone X von etwa 1,5 x (nicht wissenschaftlich).
InformationsquelleAutor Stephen Canon
3

Habe ich nur getestet, leicht, aber es schien mindestens doppelt so schnell wie Ihre version:
```
typedef union {
uint16_t wide;
struct { uint8_t top; uint8_t bottom; } narrow;
} my_union;

uint16_t *source = (uint16_t *)mixed;
for (int i = 0; i < mixedLength/2; i++)
{
    my_union cursor;
    cursor.wide = source[i];
    array1[i] = cursor.narrow.top;
    array2[i] = cursor.narrow.bottom;
}
```
Merke, dass ich war nicht vorsichtig mit Struktur packen, aber dass Sie in diesem Fall auf dieser Architektur das ist nicht ein problem. Beachten Sie auch, jemand könnte sich beschweren bei meiner Wahl der Benennung top und bottom; ich nehme an, Sie wissen, die Hälfte von ganzen zahlen, die Sie brauchen.
- Ich bin verwirrt, warum diese version würde schneller sein. Es ist sicherlich verschleiern, was Los ist.
- Das ist eine clevere Verwendung von union, und ein schöner Weg, um zu reduzieren die Anzahl der Operationen pro iteration... ich mag es.
- Warum brauchen Sie eine Gewerkschaft? Nur mit einem struct hat genau den gleichen Effekt hier.
- Trotz der Tatsache, dass Ihre version ist nicht endian-sicher. Die Ergebnisse in Matrix1 und Matrix2 wird, hängt von der endian der Plattform.
- wie bereits in der Antwort. Ich nehme an, der Fragesteller weiß, was byte ist die.
- auch die union ist für die Klarheit: es dokumentiert die Tatsache, dass der gleiche Speicher benutzt wird, wie zwei verschiedene Dinge.
- Danke, @GrahamLee. Ich wünschte, ich könnte akzeptieren das als Antwort, da auch ich verwende es, wenn NEON-Interna sind nicht verfügbar.
InformationsquelleAutor

Okay, hier ist dein original-Methode:

static void simpleDeint (
    uint8_t * array1, uint8_t * array2, uint8_t * mixed, int mixedLength
) {
    int i, j;
    int mixedLength_2 = mixedLength / 2;
    for (i = 0, j = 0; i < mixedLength_2; i++, j += 2)
    {
        array1[i] = mixed[j];
        array2[i] = mixed[j+1];
    }
}

Mit 10 Millionen Einträge und -O3 (compiler darf optimieren, um maximale Geschwindigkeit), kann ich diese 154-mal pro Sekunde auf meinem Mac.

Hier ist mein Erster Vorschlag:

static void structDeint (
    uint8_t * array1, uint8_t * array2, uint8_t * mixed, int mixedLength
) {
    int i;
    int len;
    uint8_t * array1Ptr = (uint8_t *)array1;
    uint8_t * array2Ptr = (uint8_t *)array2;
    struct {
        uint8_t byte1;
        uint8_t byte2;
    } * tb = (void *)mixed;

    len = mixedLength / 2;
    for (i = 0; i < len; i++) {
      *(array1Ptr++) = tb->byte1;
      *(array2Ptr++) = tb->byte2;
      tb++;
    }
}

Gleichen Zählung und-Optimierung nach wie vor, ich bekomme 193 läuft pro Sekunde.

Nun die Anregung von Graham Lee:

static void unionDeint (
    uint8_t * array1, uint8_t * array2, uint8_t * mixed, int mixedLength
) {
    union my_union {
        uint16_t wide;
        struct { uint8_t top; uint8_t bottom; } narrow;
    };

    uint16_t * source = (uint16_t *)mixed;
    for (int i = 0; i < mixedLength/2; i++) {
        union my_union cursor;
        cursor.wide = source[i];
        array1[i] = cursor.narrow.top;
        array2[i] = cursor.narrow.bottom;
    }
}

Gleiche setup wie vorher, 198 läuft pro Sekunde (HINWEIS: Diese Methode ist nicht-endian-sicher, das Ergebnis hängt von der CPU-endian Typ. In Ihrem Fall array1 und array2 sind vermutlich vertauscht, da die ARM little-endian, so würden Sie haben, um Sie zu tauschen in den code).

Hier ist meine beste bisher:

static void uint32Deint (
    uint8_t * array1, uint8_t * array2, uint8_t * mixed, int mixedLength
) {
    int i;
    int count;
    uint32_t * fourBytes = (void *)mixed;
    uint8_t * array1Ptr = (uint8_t *)array1;
    uint8_t * array2Ptr = (uint8_t *)array2;


    count = mixedLength / 4;
    for (i = 0; i < count; i++) {
        uint32_t temp = *(fourBytes++);

#if __LITTLE_ENDIAN__
        *(array1Ptr++) = (uint8_t)(temp & 0xFF);
        temp >>= 8;
        *(array2Ptr++) = (uint8_t)(temp & 0xFF);
        temp >>= 8;
        *(array1Ptr++) = (uint8_t)(temp & 0xFF);
        temp >>= 8;
        *(array2Ptr++) = tb->byte2;

#else
        *(array1Ptr++) = (uint8_t)(temp >> 24);
        *(array2Ptr++) = (uint8_t)((temp >> 16) & 0xFF);
        *(array1Ptr++) = (uint8_t)((temp >>  8) & 0xFF);
        *(array2Ptr++) = (uint8_t)(temp & 0xFF);
#endif
    }
    //Either it is a multiple of 4 or a multiple of 2.
    //If it is a multiple of 2, 2 bytes are left over.
    if (count * 4 != mixedLength) {
        *(array1Ptr) = mixed[mixedLength - 2];
        *(array2Ptr) = mixed[mixedLength - 1];
    }
}

Gleiche setup wie oben, 219-mal in einer Sekunde und es sei denn, ich einen Fehler gemacht, sollte funktionieren entweder mit endian Typ.

InformationsquelleAutor Mecki

1

Ich empfehle Graham Lösung, aber wenn das wirklich ist die Geschwindigkeit entscheidend, und Sie sind bereit zu gehen, Assembler, kann man sogar noch schneller.

Die Idee ist diese:
1. Lesen eine ganze 32bit ganze Zahl von mixed. Sie erhalten 'a1b2'.
2. Drehen Sie die unteren 16-bit von 8 bits zu erhalten "1ab2'(wir sind über little endian, da dies der Standardeinstellung in den ARM und daher von Apple Ein#, also die ersten beiden bytes sind die unteren sind).
3. Drehen Sie die gesamte 32bit register rechts(ich denke, es ist richtig...) von 8 bits zu erhalten, '21ab'.
4. Drehen Sie die unteren 16-bit von 8 bits zu erhalten, '12ab'
5. Schreiben der unteren 8 bits zu array2.
6. Drehen Sie den gesamten 32-bit-register von 16 bit.
7. Schreiben der unteren 8 bits zu array1
8. Voraus array1 von 16bit array2 von 16bit und mixed von 32bit.
9. Wiederholen.
Wir haben gehandelt 2 Speicher liest(vorausgesetzt, wir verwenden den Graham ' s version oder äquivalent) und 4-Speicher mit einer Speicherkarte zu Lesen, zwei Speicher schreibt und 4-register-Operationen. Während die Zahl der Operationen hat sich von 6 auf 7, - register-Operationen sind schneller als Speicher-Operationen, so ist es effizienter, die Art und Weise. Auch da Lesen wir von mixed 32bit zu einer Zeit statt 16, wir schneiden iteration management um die Hälfte.

PS: Theoretisch ist dies auch für die 64bit Architektur, aber das tun alle diese Drehungen für 'a1b2c3d4' fahren Sie zum Wahnsinn.
- Wenn Sie verwenden die Montage, warum würden Sie nicht verwenden, SIMD-Befehle, das wäre enorm schneller?
- Vor allem, weil ich nie genug gelernt assembler zu benutzen.
InformationsquelleAutor Idan Arye
1

Für x86-SSE, die pack und punpck Anweisungen sind, was Sie brauchen. Beispiele für die Verwendung von AVX für die Bequemlichkeit der nicht-destruktive 3-Operanden-Instruktionen. (Nicht mit AVX2-256b-Breite Anweisungen, weil die 256b pack/unpck Anweisungen zwei 128b entpackt in den low-und high-128b-Bahnen, so müssten Sie shuffle, um die Dinge in die richtige Abschluss der Bestellung.)

Ein-Interna-version der folgenden würde die gleiche Arbeit. Asm-Anweisungen sind kürzer zu geben, die für nur zu schreiben, eine schnelle Antwort.

Interleave: abcd und 1234 -> a1b2c3d4:
```
# loop body:
vmovdqu    (%rax), %xmm0  # load the sources
vmovdqu    (%rbx), %xmm1
vpunpcklbw %xmm0, %xmm1, %xmm2  # low  halves -> 128b reg
vpunpckhbw %xmm0, %xmm2, %xmm3  # high halves -> 128b reg
vmovdqu    %xmm2, (%rdi)   # store the results
vmovdqu    %xmm3, 16(%rdi)
# blah blah some loop structure.

`punpcklbw` interleaves the bytes in the low 64 of the two source `xmm` registers.  There are `..wd` (word->dword), and dword->qword versions which would be useful for 16 or 32bit elements.
```
De-interleave: a1b2c3d4 -> abcd und 1234
```
#outside the loop
vpcmpeqb    %xmm5, %xmm5   # set to all-1s
vpsrlw     $8, %xmm5, %xmm5   # every 16b word has low 8b = 0xFF, high 8b = 0.

# loop body
vmovdqu    (%rsi), %xmm2     # load two src chunks
vmovdqu    16(%rsi), %xmm3
vpand      %xmm2, %xmm5, %xmm0  # mask to leave only the odd bytes
vpand      %xmm3, %xmm5, %xmm1
vpackuswb  %xmm0, %xmm1, %xmm4
vmovdqu    %xmm4, (%rax)    # store 16B of a[]
vpsrlw     $8, %xmm2, %xmm6     # even bytes -> odd bytes
vpsrlw     $8, %xmm3, %xmm7
vpackuswb  %xmm6, %xmm7, %xmm4
vmovdqu    %xmm4, (%rbx)
```
Diese können natürlich auch ein viel weniger registriert. Ich vermied die Wiederverwendung von Registern für die Lesbarkeit, nicht die Leistung. Hardware-register umbenennen macht die Wiederverwendung ein nicht-Problem, wie lange, wie Sie mit etwas beginnen, das hängt nicht von den vorherigen Wert. (z.B. movd, nicht movss oder pinsrd.)

Deinterleave ist so viel mehr Arbeit, weil die pack Anweisungen signed oder unsigned Sättigung, also die Obere 8b jeder 16b element gelöscht werden ersten.

Alternative wäre die Verwendung pshufb zu packen, gerade oder ungerade Worte von einem single-source-reg in den niedrigen 64 ein register. Jedoch außerhalb der AMD XOP-Befehlssatz ist VPPERM gibt es nicht einen shuffle können, wählen Sie Byte von 2 Register auf einmal (wie Altivec ist viel-liebte vperm). Also nur mit SSE/AVX, müssten Sie 2 mischt für jede 128b von interleaved Daten. Und da store-port-Verwendung könnte der Engpass sein, eine punpck zum kombinieren von zwei 64-bit-Blöcken von a in einem einzigen register einzurichten, 128b speichern.

Mit AMD XOP, deinterleave wäre 2x128b Lasten, 2 VPPERM, und 2x128b speichert.

InformationsquelleAutor Peter Cordes

-1

vorzeitige Optimierung ist schlecht
dem compiler ist wahrscheinlich besser zu optimieren, als Sie sind.

Sagte, es sind Dinge, die Sie tun können, um zu helfen out der compiler, weil Sie semantische Kenntnis von Ihren Daten, dass ein compiler nicht haben:

Lesen und schreiben so viele bytes, wie Sie können, bis auf die native word size - Speicher-Operationen sind teuer, so haben Manipulationen im Register, wo möglich
entrollen von Schleifen - look in "Duff' s Device".

FWIW, ich produzierte zwei Versionen der copy loop, einem viel die gleichen wie deine, die zweite mit dem, was die meisten denken würden, "optimale" (wenn auch simple) C-code:

void test1(byte *p, byte *p1, byte *p2, int n)
{
    int i, j;
    for (i = 0, j = 0; i < n / 2; i++, j += 2) {
        p1[i] = p[j];
        p2[i] = p[j + 1];
    }
}

void test2(byte *p, byte *p1, byte *p2, int n)
{
    while (n) {
        *p1++ = *p++;
        *p2++ = *p++;
        n--; n--;
    }
}

Mit gcc -O3 -S auf der Intel x86-beide produziert fast identische Assembler-code. Hier sind die inneren Schleifen:

LBB1_2:
    movb    -1(%rdi), %al
    movb    %al, (%rsi)
    movb    (%rdi), %al
    movb    %al, (%rdx)
    incq    %rsi
    addq    $2, %rdi
    incq    %rdx
    decq    %rcx
    jne LBB1_2

und

LBB2_2:
    movb    -1(%rdi), %al
    movb    %al, (%rsi)
    movb    (%rdi), %al
    movb    %al, (%rdx)
    incq    %rsi
    addq    $2, %rdi
    incq    %rdx
    addl    $-2, %ecx
    jne LBB2_2

Beide haben die gleiche Anzahl von Anweisungen, die den Unterschied ausmachten, nur weil die erste version zählt bis zu n /2, und die zweite nach unten zählt auf null.

BEARBEITEN hier ist eine bessere version:

/* non-portable - assumes little endian */
void test3(byte *p, byte *p1, byte *p2, int n)
{
    ushort *ps = (ushort *)p;

    n /= 2;
    while (n) {
        ushort n = *ps++;
        *p1++ = n;
        *p2++ = n >> 8;
    }
}

ergibt:

LBB3_2:
    movzwl  (%rdi), %ecx
    movb    %cl, (%rsi)
    movb    %ch, (%rdx)  # NOREX
    addq    $2, %rdi
    incq    %rsi
    incq    %rdx
    decq    %rax
    jne LBB3_2

ist man weniger Unterricht, da dauert es Vorteil der sofortigen Zugang zu %cl und %ch.

In der Theorie Stimme ich zu - lass den compiler optimieren den code für Sie. Dies ist einer von den < 1% low-level-Fälle, wo sogar eine kleine Verringerung der Rechenzeit kann eine signifikante Wirkung auf die system-performance.
"nicht schnell genug" ist ein Indiz dafür, dass die Optimierung ist nicht verfrüht.

InformationsquelleAutor Alnitak

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.