Tag: avx
Advanced Vector Extensions (AVX) ist eine Erweiterung des x86-Befehlssatz-Architektur für Mikroprozessoren von Intel und AMD.
2
Antworten
Ich ausführen muss, um ein drehen der Betrieb mit möglichst wenig Taktzyklen wie möglich. Im ersten Fall nehmen wir an __m128i als source-und dest-Typ: Quelle: || A0 || A1 || A2 || A3 || dest: || A1
2
Antworten
Ich bin Portierung SSE SIMD-code für die Verwendung der 256-bit-AVX-Erweiterungen und kann nicht scheinen zu finden, eine Anweisung, die Mischung wird/shuffle/bewegen Sie die hohe 128-bit-und die low-128 bits. Backing-Geschichte: Was ich wirklich will, ist VHADDPS/_mm256_hadd_ps zu handeln,
3
Antworten
Ich habe ein __m256d Vektor verpackt mit vier 64-bit-floating-point-Werte. Ich muss die horizontale maximale von der vector-Elemente und speichert das Ergebnis in einer double-precision-skalaren Wert; Meine versuche wurden alle mit einer Menge von schlurfenden der vector-Elemente, so
2
Antworten
Ich bin auf der Suche nach SIMD math-Bibliotheken (vorzugsweise open source) für die SSE-und AVX. Ich meine zum Beispiel wenn ich eine AVX-register v mit 8 float-Werte will ich sin(v), um die Sünde aller acht Werte auf
1
Antworten
Ich bin die Erforschung der Möglichkeit, um einen cluster zu erstellen von leistungsstarken Maschinen, ausgerichtet in Richtung HPC (FLOP) Berechnung und deshalb habe ich die Durchsicht der top - Intel Xeon Modelle und war überrascht zu entdecken,
3
Antworten
Intel Advanced Vector Extensions (AVX) bietet keine Skalarprodukt in der 256-bit version (YMM-register) für die double-precision-floating-point-Variablen. Das "Warum?" - Frage wurden nur sehr kurz behandelt, in einem anderen forum (hier) und auf Stack Overflow (hier). Aber die Frage
2
Antworten
Ich habe einen i5-4250U, die hat AVX2 und FMA3. Ich Teste einige Dichte-matrix-Multiplikation-code in GCC 4.8.1 unter Linux, die ich schrieb. Unten ist eine Liste von drei verschiedenen Möglichkeiten, die ich kompilieren. SSE2: gcc matrix.cpp -o matrix_gcc
3
Antworten
Ich bin mit meinem Laptop(coreI5) auf Ubuntu-64bit 12.04 LTS. Ich bin versucht, in zu erhalten AVX für einige random number generation. In Eclipse-CDT-ich habe eine neue C++ "Hallo Welt" - Projekt mit Linux-GCC. Ich immintrin.h und versuchte
2
Antworten
Ich bin verwirrt, wie viele flops pro Takt pro Kern kann getan werden, mit Sandy-Bridge und Haswell. Wie ich es verstehe, mit SSE-es sollte 4 flops pro Takt pro Kern für SSE und 8 flops pro Takt
4
Antworten
Bin ich auf SUSE Linux Enterprise 10/11 Maschinen. Ich starte meine Regressionen auf eine farm aus Rechnern mit Intel-Prozessoren. Einige meiner tests fehlschlagen, weil meine Instrumente gebaut werden, mit einer Bibliothek, die erfordert, AVX/AVX2 Unterricht unterstützen. Ich
3
Antworten
Habe ich eine gepackte Vektor von vier 64-bit-floating-point-Werte. Ich möchte die Summe der Vektor-Elemente. Mit SSE (und mit 32-bit floats) konnte ich nur Folgendes tun: v_sum = _mm_hadd_ps(v_sum, v_sum); v_sum = _mm_hadd_ps(v_sum, v_sum); Leider, obwohl AVX verfügt
1
Antworten
Ich versuche zu optimieren, einige matrix-Berechnungen und ich Frage mich, ob es möglich war, zu erkennen, die zur compile-Zeit, wenn die SSE/SSE2/AVX/AVX2/AVX-512/AVX-128-FMA/KCVI[1] wird aktiviert, indem der compiler ? Ideal für GCC und Clang, aber ich kann zu
2
Antworten
Ich bin verwirrt, wie viele flops pro Takt pro Kern kann getan werden, mit Sandy-Bridge und Haswell. Wie ich es verstehe, mit SSE-es sollte 4 flops pro Takt pro Kern für SSE und 8 flops pro Takt
2
Antworten
Habe ich gelernt, dass einige Intel/AMD CPUs tun können simultanen multiplizieren und addieren mit SSE/AVX: FLOPS pro Zyklus für sandy-bridge und haswell SSE2/AVX/AVX2. Ich gerne wissen, wie man dies am besten im code und ich will auch
3
Antworten
Ich bin neu tensorflow. Ich habe vor kurzem installiert (Windows CPU-version) und bekam folgende Nachricht: Erfolgreich installiert tensorflow-1.4.0 tensorflow-tensorboard-0.4.0rc2 Dann, wenn ich versuchte zu laufen import tensorflow as tf hello = tf.constant('Hello, TensorFlow!') sess = tf.Session() sess.run(hello)
2
Antworten
Mein C++ code verwendet SSE und jetzt will ich es zu verbessern, zu unterstützen AVX, wenn es verfügbar ist. Damit ich erkennen, wenn AVX verfügbar ist, und rufen Sie eine Funktion, die verwendet AVX-Befehle. Ich benutze Win7
4
Antworten
Gibt es eine gute C/C++ - tutorials oder Beispiele für das lernen der Intel SSE-und AVX-Anweisungen? Fand ich wenige auf der Microsoft MSDN-und Intel-sites, aber es wäre toll, es zu verstehen von den Grundlagen.. InformationsquelleAutor der Frage
5
Antworten
Ist der folgende code gültig, zu prüfen, ob eine CPU unterstützt den SSE3-Befehlssatz? Mithilfe der IsProcessorFeaturePresent() - Funktion scheinbar nicht funktioniert, auf Windows XP (siehe http://msdn.microsoft.com/en-us/library/ms724482(v=vs. 85).aspx). bool CheckSSE3() { int CPUInfo[4] = { -1}; //-- Get
4
Antworten
Habe ich mit der Intel SSE-Interna seit geraumer Zeit mit einer guten Leistung gewinnt. Daher habe ich erwartet, dass die AVX-Interna zu weiteren speed-up-meine Programme. Dies war leider nicht der Fall bis jetzt. Wahrscheinlich mache ich einen