FLOPS pro Zyklus für sandy-bridge und haswell SSE2/AVX/AVX2

Ich bin verwirrt, wie viele flops pro Takt pro Kern kann getan werden, mit Sandy-Bridge und Haswell.
Wie ich es verstehe, mit SSE-es sollte 4 flops pro Takt pro Kern für SSE und 8 flops pro Takt pro Kern für AVX/AVX2.

Scheint dies bestätigt zu werden hier,
Wie kann ich erreichen das theoretische maximum von 4 FLOPs pro Zyklus?
und hier,
Sandy-Bridge-CPU Spezifikation.

Aber der link scheint zu zeigen, dass Sandy-bridge und do 16-flops pro Takt pro core und Haswell 32 flops pro Takt pro Kern
http://www.extremetech.com/computing/136219-intels-haswell-is-an-unprecedented-threat-to-nvidia-amd.

Kann mir das jemand erklären?

Bearbeiten:
Jetzt verstehe ich warum ich verwirrt war. Ich dachte, der Begriff FLOP bezeichnet nur die single floating point (SP). Ich sehe jetzt, dass der test bei Wie kann ich erreichen das theoretische maximum von 4 FLOPs pro Zyklus? sind eigentlich auf double floating point (DP), so dass Sie erreichen 4 DP-FLOPs/cycle bei SSE-und 8-DP-FLOPs/Zyklus für AVX. Es wäre interessant, zu wiederholen diesen test auf SP.

In Reaktion auf deinen edit: Die zahlen werden genau das doppelte der DP-Nummern. Das ist, weil die Latenzen und Durchsätze identisch sind, für die SP-und DP-Versionen von die SIMD-Befehle. (In einigen Fällen, die SP haben auch eine geringere Latenz.)
Ich habe konvertiert den code SP so gut wie ich verstehen, und es kompiliert mit Visual Studio 2012. Allerdings sehe ich keinen Unterschied in der Geschwindigkeit und der Summe meldet einen Fehler, so dass ich wahrscheinlich ändern müssen, einige mehr code. Ich werde zurück zu kommen.
Sie müssen doppelt zahlen, da der Zähler wird vorausgesetzt, DP. (Änderung: 48 * 1000 * iterations * tds * 2 zu 48 * 1000 * iterations * tds * 4) Darüber hinaus müssen Sie ändern die renormierung Maske arbeiten am SP: uint64 iMASK = 0x800fffffffffffffull;
4 durch vier SP Schwimmern pro SSE-register. Nochmals vielen Dank. Ich habe auch die renormierung mask, unsigned int iMASK = 0x80fffffu. Jetzt funktioniert es und ich bekomme zweimal, wie Sie sagten.

InformationsquelleAutor | 2013-03-27

104

Hier sind FLOPs zählt eine Reihe neuer Prozessor microarchitectures und Erklärung, wie Sie zu erreichen sind:

Intel Core 2 und Nehalem:
- 4 DP-FLOPs/Zyklus: 2-Breite SSE2 neben + 2-breiten SSE2 Multiplikation
- 8 SP-FLOPs/Zyklus: 4-Breite SSE-Zusatz + 4-Breite SSE-Multiplikation
Intel Sandy Bridge/Ivy Bridge:
- 8 DP-FLOPs/Zyklus: 4-Breite AVX-Zusatz + 4-Breite AVX-Multiplikation
- 16 SP-FLOPs/Zyklus: 8-Breite AVX-addition + 8-Breite AVX-Multiplikation
Intel Haswell/Broadwell/Skylake/Kaby Lake:
- 16 DP FLOPs/Zyklus: zwei 4-wide FMA (fused multiply-add) Anweisungen
- 32 SP-FLOPs/Zyklus: zwei 8-wide FMA (fused multiply-add) Anweisungen
AMD K10:
- 4 DP-FLOPs/Zyklus: 2-Breite SSE2 neben + 2-breiten SSE2 Multiplikation
- 8 SP-FLOPs/Zyklus: 4-Breite SSE-Zusatz + 4-Breite SSE-Multiplikation
AMD Bulldozer/Piledriver/Steamroller/Excavator, - pro Modul (zwei Kerne):
- 8 DP-FLOPs/Zyklus: 4-Breite FMA
- 16 SP-FLOPs/Zyklus: 8-Breite FMA
AMD Ryzen
- 8 DP-FLOPs/Zyklus: 4-Breite FMA
- 16 SP-FLOPs/Zyklus: 8-Breite FMA
Intel Atom (Bonnell/45nm, Saltwell/32nm, Silvermont/22nm):
- 1,5 DP-FLOPs/Zyklus: Skalar-SSE2-Zusatz + Skalar-SSE2 Multiplikation jedes anderen Zyklus
- 6 SP FLOPs/Zyklus: 4-Breite SSE-Zusatz + 4-Breite SSE-Multiplikation jedes anderen Zyklus
AMD Bobcat:
- 1,5 DP-FLOPs/Zyklus: Skalar-SSE2-Zusatz + Skalar-SSE2 Multiplikation jedes anderen Zyklus
- 4 SP FLOPs/Zyklus: 4-Breite SSE-neben jedem anderen Zyklus - + 4-Breite SSE-Multiplikation jedes anderen Zyklus
AMD Jaguar:
- 3 DP-FLOPs/Zyklus: 4-Breite AVX-neben jedem anderen Zyklus - + 4-Breite AVX-Multiplikation in vier Zyklen
- 8 SP-FLOPs/Zyklus: 8-Breite AVX-neben jedem anderen Zyklus + 8-Breite AVX-Multiplikation jedes anderen Zyklus
ARM Cortex-A9:
- 1,5 DP-FLOPs/Zyklus: Skalare addition +, Skalare Multiplikation jedes anderen Zyklus
- 4 SP FLOPs/Zyklus: 4-Breite NEON-neben jedem anderen Zyklus - + 4-große NEON-Multiplikation jedes anderen Zyklus
ARM Cortex-A15:
- 2 DP-FLOPs/Zyklus: Skalare FMA oder scalar multiply-add
- 8 SP-FLOPs/Zyklus: 4-Breite NEONv2 FMA oder 4-breiten NEON-multiply-add
Qualcomm Krait:
- 2 DP-FLOPs/Zyklus: Skalare FMA oder scalar multiply-add
- 8 SP-FLOPs/Zyklus: 4-Breite NEONv2 FMA oder 4-breiten NEON-multiply-add
IBM PowerPC A2 (Blue Gene/Q), der pro Kern:
- 8 DP-FLOPs/Zyklus: 4-Breite QPX FMA jedem Zyklus
- SP-Elemente erweitert werden, um DP und Verarbeitung auf dem gleichen Einheiten
IBM PowerPC A2 (Blue Gene/Q), pro thread:
- 4 DP-FLOPs/Zyklus: 4-Breite QPX FMA jedem anderen Zyklus
- SP-Elemente erweitert werden, um DP und Verarbeitung auf dem gleichen Einheiten
Intel Xeon Phi (Knights Corner), pro Kern:
- 16 DP FLOPs/Zyklus: 8-Breite FMA jedem Zyklus
- 32 SP-FLOPs/Zyklus: 16-Breite FMA jedem Zyklus
Intel Xeon Phi (Knights Corner), pro thread:
- 8 DP-FLOPs/Zyklus: 8-Breite FMA jedem anderen Zyklus
- 16 SP-FLOPs/Zyklus: 16-Breite FMA jedem anderen Zyklus
Intel Xeon Phi (Knights Landing), pro Kern:
- 32 DP-FLOPs/Zyklus: zwei 8-wide FMA jedem Zyklus
- 64 SP FLOPs/Zyklus: zwei 16-Breite FMA jedem Zyklus
Der Grund warum es pro thread und pro-core datum für IBM Blue Gene/Q-und Intel Xeon Phi (Knights Corner) ist, dass diese Kerne haben eine höhere instruction issue rate, wenn mit mehr als einem thread pro Kern.

DV-Unterstützung wurde Hinzugefügt, SSE2 sowie
Cortex-M0 und M3 gar nicht haben, FPUs, so dass Sie null-FLOPs/Zyklus. Auch auf M4 FPU ist optional. Cortex-A8-2 SP-FLOPs/Zyklus mit NEON. Double-precision ... naja, VFP nicht per Pipeline auf der A8, so dass es über 1/8 DP-FLOPs/Zyklus.
Sie sind pro-Modul
Es würde hilfreich sein, mit einigen Referenzen oder Erläuterung, wie diese Informationen zu erhalten.
Skylake-X kommt in Konfigurationen mit entweder 1 oder 2 AVX512 FMA-Einheiten... software.intel.com/en-us/forums/intel-isa-extensions/topic/...

InformationsquelleAutor
18

Den Durchsatz für Haswell ist niedriger neben als für die Multiplikation und die FMA. Es gibt zwei Multiplikation/FMA-Einheiten, aber nur eine f.p. hinzufügen Einheit. Wenn Ihr code enthält vor allem Ergänzungen haben, dann müssen Sie ersetzen die Ergänzungen durch die FMA Anweisungen mit einem Multiplikator von 1.0 um den maximalen Durchsatz.

Die Latenz der FMA Anweisungen auf Haswell ist 5 und der Datendurchsatz ist 2 pro Takt. Dies bedeutet, dass Sie müssen halten 10 parallele arbeiten gehen, um den maximalen Durchsatz. Wenn, zum Beispiel, die Sie hinzufügen möchten, eine sehr lange Liste von f.p. zahlen, würden Sie haben, um es zu teilen in zehn Teile und zehn Akku-Register.

Dies ist wohl möglich, aber wer würde eine so eigenartige Optimierung für einen bestimmten Prozessor?

Sie nicht brauchen, um manuell brechen die Schleife ein wenig compiler-unrolling und out-of-order-HW (vorausgesetzt, Sie haben keine Abhängigkeiten) können Sie erreichen, eine erhebliche Durchsatz-Flaschenhals. Hinzu kommt, dass hyperthreading und 2 Operationen pro Takt werden ziemlich notwendig.
vielleicht könnten Sie schreiben code, um dies zu zeigen? Abrollen 10 mal mit FMA gibt mir das beste Ergebnis. Siehe meine Antwort an stackoverflow.com/questions/21090873/...
Die meisten HPC-codes, compute-bound (d.h. flop-gebunden) eine Menge von FMA. In meiner Erfahrung, die Orte, wo man nicht viel hinzufügen, werden in der Bandbreite gebunden, so dass Sie mehr hinzufügen Durchsatz nicht helfen.
Die neueste Intel-generation hat einen ausgeglicheneren Durchsatz. Gleitkomma-addition, Multiplikation und die FMA alle haben einen Durchsatz von 2 Instruktionen pro clock-Zyklus und einer Latenzzeit von 4.

InformationsquelleAutor A Fog

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.