Wie undefiniert sind, __builtin_ctz(0) oder __builtin_clz(0)?

Hintergrund

Für eine lange Zeit, gcc zur Verfügung gestellt hat eine Reihe von builtin-bit-twiddling-Funktionen, insbesondere die Anzahl der Leerzeichen am Anfang und Ende 0-bits (auch für long unsigned und long long unsigned, die Suffixe l und ll):

— Built-in-Funktion: int __builtin_clz (unsigned int x)

Gibt die
Nummer mit führenden 0-bits in x, beginnend mit dem most significant bit
position. Wenn x 0 ist, ist das Ergebnis undefiniert.

— Built-in-Funktion: int __builtin_ctz (unsigned int x)

Gibt die
Anzahl der nachgestellten 0-bits in x, beginnend bei dem niederwertigsten bit
position. Wenn x 0 ist, ist das Ergebnis undefiniert.

Auf jeden online (disclaimer: nur 64-bit) compiler, die ich getestet, aber das Ergebnis war, dass beide clz(0) und ctz(0) Gegenzug die Anzahl der bits der zugrunde liegenden builtin-Typ, z.B.

#include <iostream>
#include <limits>

int main()
{
    //prints 32 32 32 on most systems
    std::cout << std::numeric_limits<unsigned>::digits << " " << __builtin_ctz(0) << " " << __builtin_clz(0);    
}

Live Beispiel.

Versucht Abhilfe

Den neuesten Clang SVN trunk in std=c++1y mode hat all diese Funktionen entspannt C++14 constexpr, das macht Sie zu Kandidaten für die Verwendung in einem SFINAE-Ausdruck für eine wrapper-Funktion, die Vorlage um die 3 ctz /clz gelieferten für unsigned, unsigned long, und unsigned long long

template<class T> //wrapper class specialized for u, ul, ull (not shown)
constexpr int ctznz(T x) { return wrapper_class_around_builtin_ctz<T>()(x); }

//overload for platforms where ctznz returns size of underlying type
template<class T>
constexpr auto ctz(T x) 
-> typename std::enable_if<ctznz(0) == std::numeric_limits<T>::digits, int>::type
{ return ctznz(x); }

//overload for platforms where ctznz does something else
template<class T>
constexpr auto ctz(T x) 
-> typename std::enable_if<ctznz(0) != std::numeric_limits<T>::digits, int>::type
{ return x ? ctznz(x) : std::numeric_limits<T>::digits; }

Der Gewinn aus dieser hack ist, dass Plattformen, die das erforderliche Ergebnis geben für ctz(0) weglassen können, eine zusätzliche bedingte test für x==0 (der mag eine Mikro-Optimierung, aber wenn Sie sind bereits bis auf die Ebene der builtin-bit-twiddling-Funktionen, es kann einen großen Unterschied machen)

Fragen

Wie undefiniert ist die Familie von builtin-Funktionen clz(0) und ctz(0)?

können Sie werfen eine std::invalid_argument Ausnahme?
für x64, wird Sie für die aktuelle gcc-Distribution, die Rückgabe der Größe des underyling geben?
sind die ARM/x86-Plattformen anders (ich habe keinen Zugang, um das zu testen)?
ist die oben SFINAE-trick eine gut definierte Möglichkeit zum trennen von solchen Plattformen?

Wenn Sie Ihre Hände bekommen können die Datei longlong.h im gcc/gmp/glibc, suchen das makro COUNT_LEADING_ZEROS_0...

InformationsquelleAutor TemplateRex | 2013-10-22

bit-manipulation c++c++14 constexpr undefined-behavior

11

Leider auch die x86-64-Implementierungen unterscheiden sich von Intel instruction set reference,BSF und BSR mit einem source-operand den Wert (0) lässt das Ziel undefined, und legt die ZF (zero-flag). So ist das Verhalten nicht konsistent zwischen Mikro-Architekturen oder, sagen wir, AMD und Intel. (Ich glaube AMD lässt das Ziel unverändert.)

Den neueren LZCNT und TZCNT Anweisungen sind nicht allgegenwärtig. Beide sind nur vorhanden, da der Haswell-Architektur (Intel).
- Tnx für die Antwort. Aber nicht "undefined" bedeutet, dass es ist Plattform-abhängig ist, und dass mindestens alle ctz(0) nennen deterministisch ist, gibt immer die gleiche Antwort auf dieser Plattform (also nicht zu undefiniertem Verhalten), so dass meine SFINAE hack macht eigentlich Sinn?
- Während nur AMD-Dokumente bsr/bsf mit einer null als Quelle nicht ändern das Ziel, jedem Intel-Prozessor, den ich jemals in der Lage zu testen (oder hören) tut es auch. Intel einfach nicht es zu dokumentieren, dass Art und Weise.
- was bedeutet Intel ist nicht verpflichtet, das Verhalten in Zukunft Architekturen - egal, wie unwahrscheinlich eine solche Veränderung sein kann. Für andere - bitte nehmen Sie nicht die Verknüpfungen mit 'Menschen ohne Papiere' - Anweisung Semantik.
- Dieses Verhalten wurde stabil für buchstäblich mehr, als ich schon am Leben. Es ist nicht zu ändern. Intel öffentliche Dokumentation ist nur unvollständig (oder falsch, oder beides), wie üblich. Mehr wahrscheinlich, es ist eigentlich das definierte Verhalten (wie unten geschrieben in einige interne Dokumente), die AMD kopiert, aber Intel nur nie steckte es in Ihren öffentlichen spec. Wenn Sie wirklich gehen, um es zu ändern, hätten Sie also zurück, wenn Sie Ihre erste OoO-Prozessor, wenn Sie hatte die Gelegenheit, um loszuwerden, der Abhängigkeit.
- Intels Dokumentation wirklich ist voller Fehler, obwohl es Objektiv falsch ist bereits, einfach nur vielleicht nicht in diesem Fall - aber wie sollen wir das wissen? Es kann nicht vertrauenswürdig sein, und es ist sicherlich nicht das Wort Gottes Art von spec.
- Es gibt nichts Schlimmeres als "undefined" in dem Fall. Ob Intel, dass die Dokumente konsistent zu Ihren Produkten oder nicht, die zugrunde liegenden Implementierungen sind immer noch unterschiedlich bei den Herstellern. AFAIK mindestens eine (weder Intel noch AMD) nicht einverstanden ist, Folgen die "internen Dokumente", weil Sie glauben, öffentliche Dokumente werden bevorzugt. BSF/BSR und LZCNT/TZCNT gehen verschiedene Routen dann.
InformationsquelleAutor Brett Hale
13

Der Grund ist der Wert undefiniert ist, dass es ermöglicht, dass der compiler Prozessor-Anweisungen, für die ist das Ergebnis undefiniert, wenn diese Anweisungen sind der Schnellste Weg, eine Antwort bekommen.

Aber es ist wichtig zu verstehen, dass nicht nur sind die Ergebnisse nicht definiert; Sie sind undeterministic. Es ist gültig, da Intel-instruction-Referenz, nach der Anweisung zurückzukehren, die niedrigen 7 bits von der aktuellen Zeit, zum Beispiel.

- Und hier wird es interessant/gefährlich: der compiler writer kann diese situation ausnutzen, um die Herstellung von kleineren code. Betrachten Sie dieses non-template-Spezialisierung-version von code:
```
using std::numeric_limits;
template<class T>
constexpr auto ctz(T x) {
  return ctznz(0) == numeric_limits<T>::digits || x != 0
       ? ctznz(x) : numeric_limits<T>::digits;
}
```
Funktioniert dies auch auf einem Prozessor/compiler, die beschlossen haben, zurück zu kehren #bits für ctznz(0). Aber un-Prozessor/compiler, der für eine Rückkehr entscheiden pseudo-random-Werte, die der compiler entscheiden kann, "ich darf zurückgeben, was ich will für ctznz(0), und der code wird kleiner, wenn ich wieder #bits, also werde ich". Dann wird der code endet Aufruf ctznz die ganze Zeit, obwohl es produziert die falsche Antwort.

Anders ausgedrückt: der compiler Undefinierte Ergebnisse sind nicht garantiert undefiniert in der gleichen Weise, dass das laufende Programm die Undefinierte Ergebnisse.

Gibt es wirklich keinen Weg, um dieses. Wenn Sie verwenden müssen, __builtin_clz, mit einem Quell-Operanden, der auch null sein kann, müssen Sie die überprüfen, die ganze Zeit.

InformationsquelleAutor jorgbrown

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.