FLOPS pro Zyklus für sandy-bridge und haswell SSE2/AVX/AVX2

Ich bin verwirrt, wie viele flops pro Takt pro Kern kann getan werden, mit Sandy-Bridge und Haswell.
Wie ich es verstehe, mit SSE-es sollte 4 flops pro Takt pro Kern für SSE und 8 flops pro Takt pro Kern für AVX/AVX2.

Scheint dies bestätigt zu werden hier,
Wie kann ich erreichen das theoretische maximum von 4 FLOPs pro Zyklus?
und hier,
Sandy-Bridge-CPU Spezifikation.

Aber der link scheint zu zeigen, dass Sandy-bridge und do 16-flops pro Takt pro core und Haswell 32 flops pro Takt pro Kern
http://www.extremetech.com/computing/136219-intels-haswell-is-an-unprecedented-threat-to-nvidia-amd.

Kann mir das jemand erklären?

Bearbeiten:
Jetzt verstehe ich warum ich verwirrt war. Ich dachte, der Begriff FLOP bezeichnet nur die single floating point (SP). Ich sehe jetzt, dass der test bei Wie kann ich erreichen das theoretische maximum von 4 FLOPs pro Zyklus? sind eigentlich auf double floating point (DP), so dass Sie erreichen 4 DP-FLOPs/cycle bei SSE-und 8-DP-FLOPs/Zyklus für AVX. Es wäre interessant, zu wiederholen diesen test auf SP.

In Reaktion auf deinen edit: Die zahlen werden genau das doppelte der DP-Nummern. Das ist, weil die Latenzen und Durchsätze identisch sind, für die SP-und DP-Versionen von die SIMD-Befehle. (In einigen Fällen, die SP haben auch eine geringere Latenz.)
Ich habe konvertiert den code SP so gut wie ich verstehen, und es kompiliert mit Visual Studio 2012. Allerdings sehe ich keinen Unterschied in der Geschwindigkeit und der Summe meldet einen Fehler, so dass ich wahrscheinlich ändern müssen, einige mehr code. Ich werde zurück zu kommen.
Sie müssen doppelt zahlen, da der Zähler wird vorausgesetzt, DP. (Änderung: 48 * 1000 * iterations * tds * 2 zu 48 * 1000 * iterations * tds * 4) Darüber hinaus müssen Sie ändern die renormierung Maske arbeiten am SP: uint64 iMASK = 0x800fffffffffffffull;
4 durch vier SP Schwimmern pro SSE-register. Nochmals vielen Dank. Ich habe auch die renormierung mask, unsigned int iMASK = 0x80fffffu. Jetzt funktioniert es und ich bekomme zweimal, wie Sie sagten.

InformationsquelleAutor | 2013-03-27

Schreibe einen Kommentar