Wie dreht man eine SSE - /AVX-Vektor

Ich ausführen muss, um ein drehen der Betrieb mit möglichst wenig Taktzyklen wie möglich.
Im ersten Fall nehmen wir an __m128i als source-und dest-Typ:

Quelle: || A0 || A1 || A2 || A3 ||

 dest: || A1 || A2 || A3 || A0 ||

dest = (__m128i)_mm_shuffle_epi32((__m128i)source, _MM_SHUFFLE(0,3,2,1));

Nun möchte ich das gleiche tun mit AVX-Interna.
Nehmen wir also an, dieses mal __m256i als source-und dest-Typ:

Quelle: || A0 || A1 || A2 || A3 || A4 || A5 || A6 || A7 ||

 dest: || A1 || A2 || A3 || A4 || A5 || A6 || A7 || A0 ||

Den AVX-Interna fehlt den meisten der entsprechenden SSE-integer-Operationen.
Vielleicht gibt es doch eine Möglichkeit gehen, den gewünschten Ausgang arbeiten mit den floating-point-version.

Habe ich versucht mit:

dest = (__m256i)_mm256_shuffle_ps((__m256)source, (__m256)source, _MM_SHUFFLE(0,3,2,1));

aber was ich bekomme ist:

|| A0 || A2 || A3 || A4 || A5 || A6 || A7 || A1 ||

Jede Idee, wie dieses Problem zu lösen in ein effizient Weise? (ohne zu mischen, SSE-und AVX-Betrieb und ohne "manuell" invertieren A0 und A1

Vielen Dank im Voraus!

Habe nicht viel Erfahrung mit SSE und AVX, aber in der zweiten code-Zeile, wenn dest-Typ ist __m256, warum sind Sie Gießen zu __m128i?
Natürlich war es __m256i, danke!
Tat, das problem zu beheben?
Nein, ich ging einfach Los mit cut&paste..
Scheint, wie alle die nützliche Hinweise sind in AVX2 (warum haben Sie nicht Version, einer der ersten?)

InformationsquelleAutor user1584773 | 2012-08-10

15

Meine Lösung:
```
__m256 tmp =  ( __m256 ) _mm256_permute_ps((__m256)_source, _MM_SHUFFLE ( 0,3,2,1 ));
* ( _dest ) =  ( __m256i) _mm256_blend_ps(tmp, _mm256_permute2f128_ps ( tmp,tmp,1 ), 136);  
```
- Keine chance, eine Erklärung für die 2 immediates Ihre Weitergabe in der zweiten Zeile? (1 136) ich habe gelesen, die docs, aber ich bin immer noch nicht verstehen, warum diese besonderen Werte sind, was Sie wollen für diese.
- vertauscht die oberen und unteren 128b Gassen. 136 = 0x88 = nehmen Sie das hohe element aus einem vector, andere Elemente aus der anderen (also, 0x8, die in jeder Spur, weil blendps setzt die beiden Hälften des imm8 für die zwei Fahrspuren.)
InformationsquelleAutor user1584773
0

Habe ich noch nicht geprüft, wie die Dinge sind mit AVX, aber zumindest für SSE, haben Sie halten _mm_align*?

Zum Beispiel, dies wird ein byte-Vektor durch 2 bytes:
```
__m128i v;
v = _mm_alignr_epi8 (v, v, 2) //v = v[2,3,4,5,6,7,8,9,10,11,12,13,14,15,0,1]
```
Dies kann eine einzelne Anweisung. Auch solche Operationen sind lat-1 /tp-1, d.h. schnell.

AVX ist wahrscheinlich ein bisschen ein Problem mit diesem Ansatz ist eine Anpassung möglicherweise nicht nützlich sein.

InformationsquelleAutor mafu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.