Wie kann das wahrscheinlich/unwahrscheinlich-Makros in Linux-kernel arbeiten, und was ist Ihr nutzen?

Ich habe gegraben durch einige Teile des Linux-Kernels, und fand Aufrufe wie diese:

if (unlikely(fd < 0))
{
    /* Do something */
}

oder

if (likely(!err))
{
    /* Do something */
}

Fand ich die definition von Ihnen:

#define likely(x)       __builtin_expect((x),1)
#define unlikely(x)     __builtin_expect((x),0)

Ich weiß, Sie sind für die Optimierung, aber wie funktionieren Sie? Und wie viel Leistung/Größe verringern kann erwartet werden, aus mit Ihnen? Und lohnt sich der Aufwand (und Verlust der Portabilität wahrscheinlich) zumindest in Engpass-code (im userspace, natürlich).

Das ist wirklich nicht spezifisch für den Linux-kernel oder über Makros, aber eine compiler-Optimierung. Sollte dies retagged zu reflektieren?
Das Papier Was jeder Programmierer wissen sollte, über das Gedächtnis (S. 57) enthält eine ausführliche Erläuterung.
Nach der kernelnewbies FAQ (und die neueste 3.11 kernel-source), die makro-Definitionen sind etwas anders jetzt: #define rechnen(x) __builtin_expect(!!(x), 1) #define unlikely(x) __builtin_expect(!!(x), 0) ich denke, dies fügt ein wenig mehr zur Verwirrung!? 🙂 Ich verstehe nicht die Notwendigkeit für doppelte NICHT (<code>!!</code>).
siehe auch BOOST_LIKELY
Verwandte: eine benchmark, die auf die Verwendung von __builtin_expect auf eine andere Frage.
Es gibt keine Portabilität Problem. Sie können trivial Dinge tun, wie #define likely(x) (x) und #define unlikely(x) (x) auf Plattformen, die keine Unterstützung für diese Art des hinting.

InformationsquelleAutor terminus | 2008-09-20

298

Sind Sie Hinweis an den compiler zu emittieren Anweisungen, die bewirken, branch prediction zu Gunsten der "wahrscheinlich" - Seite einer jump-Anweisung. Dies kann ein großer Gewinn, wenn die Vorhersage richtig ist, bedeutet es, dass die jump-Anweisung ist grundsätzlich kostenlos und wird null Zyklen. Auf der anderen Seite, wenn die Vorhersage falsch ist, dann bedeutet es, die Prozessor-pipeline muss geleert werden, und es können Kosten mehrere Zyklen. So lange, wie die Vorhersage richtig ist, die meisten der Zeit, dies wird dazu neigen, die gut für die Leistung.

Wie alle derartigen performance-Optimierungen sollten Sie nur tun, es nach einer umfangreichen profiling, um sicherzustellen, der code ist wirklich in einem Engpass, und wahrscheinlich angesichts der Mikro-Natur, dass es ausgeführt wird in einer engen Schleife. In der Regel die Linux-Entwickler sind ziemlich erfahren, also ich könnte mir vorstellen, Sie würden das getan haben. Es kümmert Sie nicht wirklich zu viel über Beweglichkeit, wie Sie nur Ziel-gcc, und Sie haben eine sehr enge Vorstellung von der assembly, die Sie wollen, zu generieren.
- Diese Makros werden meist verwendet wurden, für die Fehlerprüfung. Denn Fehler lässt weniger wohl dann der normale Betrieb. Ein paar Leute machen, profiling oder Berechnung, um zu entscheiden, am meisten verwendete Blatt...
- Hinsichtlich der fragment "[...]that it is being run in a tight loop" viele CPUs haben eine branch predictor, so mit diesen Makros hilft nur das erste mal-code ausgeführt wird oder wenn die history-Tabelle überschrieben wird durch eine andere Filiale mit dem gleichen index in den Verzweigungen der Tabelle. In einer engen Schleife, und unter der Annahme einer Verzweigung geht ein Weg, die meisten der Zeit, die Zweig-predictor wird wahrscheinlich beginnen, zu erraten, die richtige Filiale sehr schnell. - dein Freund in Pedanterie.
- Was wirklich geschieht, ist der compiler ordnet die Zweige, damit der häufige Fall ist die nicht-Einnahme eines. Das ist sogar schneller, wenn die branch prediction funktioniert. Genommen Verzweigungen sind problematisch für die instruction-fetch-und decode-auch wenn Sie perfekt vorhergesagt. Einige CPUs statisch Vorhersagen, äste, die nicht in Ihrer history-Tabelle, in der Regel mit nicht nehmen-genommen für vorwärts-Filialen. Intel CPUs nicht funktionieren auf diese Weise: Sie versuchen nicht, um zu überprüfen, dass der Vorhersage-Tabelle ist der Eintrag für das Zweig, die Sie gerade verwenden es trotzdem. Ein hot-Zweig und einen kalten Zweig könnte alias der gleiche Eintrag...
- Cordes - ich verstehe die branch-Tabelle aliasing, das ist, warum ich schrieb the history table is overwritten by a different branch with the same index into the branching table. ich war nur darauf aus den engen Schleife Sache. Wenn Sie ausführen, die Schleife über und über, die anfänglichen Kosten ist trivial, und die branch-predictor übernimmt, es sei denn, Sie bekommen, branch prediction Prügel durch springen/Anrufe innerhalb des "engen loop". Sagen, die der compiler für einen Zweig ist ein Mikro-Optimierung in engen Schleifen laufen viele, viele Male. Alle sehr pedantisch, um sicher zu sein 🙂
- Meine wichtigste Punkt war, dass die Verlegung aus dem schnell-Weg-mit meist nicht genommen Zweige ist gut, und ist ein Gewinner auch nach Zweig Prädiktoren erwärmen (z.B. in einer engen Schleife).
- re: Vorhersage: Intel-CPUs für die letzten paar Generationen buchstäblich haben keine static branch prediction. Statt einen neuen Zweig entfernen/überschreiben einer alten Eintrag in der BTB, der es gerade nutzt, es mit dem, was veraltete Daten vorher da war. So einen kalten Zweig aliasing ein hot-Zweig nicht verlieren, alle Vorhersage-Geschichte für den hot-Zweig (nur belastet es ein wenig). Es gibt keine statische Vorhersage, weil der Indikator kann nicht sagen, dass er noch nicht gesehen, ein Zweig vor. Agner Fog ist microarch doc hat einem frühen Kapitel über branch prediction.
- Diese Antwort ist meist obsolet, da die wichtigste Forderung ist, dass es hilft, branch prediction, und wie @PeterCordes Punkte heraus, die in den meisten modernen hardware-es gibt keine implizite oder explizite static branch prediction. In der Tat ist der Hinweis verwendet, der vom compiler optimieren den code, ob das beinhaltet die statische Zweig-Tipps, oder jede andere Art von Optimierung. Für die meisten Architekturen heute ist es die "andere Optimierung" wichtig ist, z.B., heiße Pfade zusammenhängende, bessere Planung der heiße Pfad, minimieren die Größe der langsame Weg, Vektorisieren nur den erwarteten Weg, etc, etc.
- da der cache-prefetch-und word-Größe, es gibt noch einen Vorteil der Ausführung eines Programms Linear. Die nächste Position im Speicher wird bereits abgerufen und in den cache, der branch-target-vielleicht oder vielleicht auch nicht. Mit einem 64-bit-CPU greifen Sie mindestens 64 bits zu einer Zeit. Je nach DRAM interleave, kann es sein 2x 3x oder mehr bits, die bekommen, Griff.
- Absolut, es gibt alle Arten von pipeline-bezogene Gründe, warum lineare code bevorzugt wird, und Sie haben nichts zu tun mit statischen Zweig trifft, eingebettet in den Unterricht. Moderne CPUs in der Regel ignorieren diese, also die ganze Logik in dieser Antwort ist überflüssig. @Bryce
InformationsquelleAutor 1800 INFORMATION

Let ' s dekompilieren um zu sehen, was der GCC 4.8 mit ihm macht

Ohne __builtin_expect

#include "stdio.h"
#include "time.h"

int main() {
    /* Use time to prevent it from being optimized away. */
    int i = !time(NULL);
    if (i)
        printf("%d\n", i);
    puts("a");
    return 0;
}

Kompilieren und dekompilieren mit GCC 4.8.2 x86_64-Linux:

gcc -c -O3 -std=gnu11 main.c
objdump -dr main.o

Ausgabe:

0000000000000000 <main>:
   0:       48 83 ec 08             sub    $0x8,%rsp
   4:       31 ff                   xor    %edi,%edi
   6:       e8 00 00 00 00          callq  b <main+0xb>
                    7: R_X86_64_PC32        time-0x4
   b:       48 85 c0                test   %rax,%rax
   e:       75 14                   jne    24 <main+0x24>
  10:       ba 01 00 00 00          mov    $0x1,%edx
  15:       be 00 00 00 00          mov    $0x0,%esi
                    16: R_X86_64_32 .rodata.str1.1
  1a:       bf 01 00 00 00          mov    $0x1,%edi
  1f:       e8 00 00 00 00          callq  24 <main+0x24>
                    20: R_X86_64_PC32       __printf_chk-0x4
  24:       bf 00 00 00 00          mov    $0x0,%edi
                    25: R_X86_64_32 .rodata.str1.1+0x4
  29:       e8 00 00 00 00          callq  2e <main+0x2e>
                    2a: R_X86_64_PC32       puts-0x4
  2e:       31 c0                   xor    %eax,%eax
  30:       48 83 c4 08             add    $0x8,%rsp
  34:       c3                      retq

Den Unterricht, um in Erinnerung blieb unverändert: die ersten printf und dann puts und die retq zurück.

Mit __builtin_expect

Nun ersetzen if (i) mit:

if (__builtin_expect(i, 0))

und wir erhalten:

0000000000000000 <main>:
   0:       48 83 ec 08             sub    $0x8,%rsp
   4:       31 ff                   xor    %edi,%edi
   6:       e8 00 00 00 00          callq  b <main+0xb>
                    7: R_X86_64_PC32        time-0x4
   b:       48 85 c0                test   %rax,%rax
   e:       74 11                   je     21 <main+0x21>
  10:       bf 00 00 00 00          mov    $0x0,%edi
                    11: R_X86_64_32 .rodata.str1.1+0x4
  15:       e8 00 00 00 00          callq  1a <main+0x1a>
                    16: R_X86_64_PC32       puts-0x4
  1a:       31 c0                   xor    %eax,%eax
  1c:       48 83 c4 08             add    $0x8,%rsp
  20:       c3                      retq
  21:       ba 01 00 00 00          mov    $0x1,%edx
  26:       be 00 00 00 00          mov    $0x0,%esi
                    27: R_X86_64_32 .rodata.str1.1
  2b:       bf 01 00 00 00          mov    $0x1,%edi
  30:       e8 00 00 00 00          callq  35 <main+0x35>
                    31: R_X86_64_PC32       __printf_chk-0x4
  35:       eb d9                   jmp    10 <main+0x10>

Den printf (kompiliert __printf_chk) wurde verschoben, um das Ende der Funktion, nach puts und die Rendite zu verbessern, branch prediction wie erwähnt von anderen Antworten.

Also es ist im Grunde das gleiche wie:

int i = !time(NULL);
if (i)
    goto printf;
puts:
puts("a");
return 0;
printf:
printf("%d\n", i);
goto puts;

Diese Optimierung war nicht mit -O0.

Aber viel Glück, auf das schreiben ein Beispiel, die schneller ausgeführt wird mit __builtin_expect als ohne, CPUs sind wirklich smart diese Tage. Meine naive versuche hier.

InformationsquelleAutor Ciro Santilli 新疆改造中心996ICU六四事件

70

Diese sind Makros, die Hinweise an den compiler über den Weg, eine Filiale gehen kann. Die Makros expandieren zu GCC spezifische Erweiterungen, wenn Sie verfügbar sind.

GCC nutzt diese, um zur Optimierung für die branch prediction. Zum Beispiel, wenn Sie etwas wie das folgende
```
if (unlikely(x)) {
  dosomething();
}

return x;
```
Dann neu strukturieren kann dieser code so etwas wie:
```
if (!x) {
  return x;
}

dosomething();
return x;
```
Der Vorteil dabei ist, dass, wenn der Prozessor nimmt einen Zweig der ersten Zeit, es ist zu einem erheblichen Mehraufwand, da es sich möglicherweise spekulativ laden und ausführen von code weiter. Wenn es bestimmt wird, nehmen Sie den Zweig, dann ist es ungültig, und starten Sie auf dem Zweig target.

Meisten modernen Prozessoren haben jetzt eine Art von branch prediction, aber das nur hilft, wenn Sie habe durch das Zweig vor, und der Zweig ist noch in der branch prediction cache.

Gibt es eine Reihe von anderen Strategien, die die compiler und Prozessor können in diesen Szenarien. Sie finden weitere details auf, wie Zweig Prädiktoren Arbeit bei Wikipedia: http://en.wikipedia.org/wiki/Branch_predictor
- Auch, es hat Auswirkungen auf icache-Bilanz - halten unwahrscheinlich code-Schnipsel aus den heißen Pfad.
- Genauer gesagt, kann es tun Sie es mit gotos ohne Wiederholung der return x: stackoverflow.com/a/31133787/895245
InformationsquelleAutor dvorak
6

Verursachen Sie der compiler wieder den entsprechenden Zweig Hinweise, wo die hardware Sie unterstützt. Diese Regel bedeutet nur, drehte ein paar bits in the instruction opcode, also code-Größe nicht ändern. Die CPU wird beim starten abrufen von Anweisungen aus der vorhergesagten Position und Spülen Sie die Rohrleitung und von vorn beginnen, wenn sich das als falsch herausstellt, wenn die Branche erreicht ist; in dem Fall, wo der Hinweis korrekt ist, wird der Zweig sehr viel schneller - genau wie viel schneller wird, hängt von der hardware und wie viel dies wirkt sich auf die Leistung des Codes wird davon abhängen, welchen Anteil der Zeit, die Tipp richtig ist.

Beispielsweise auf einer PowerPC-CPU ein unhinted Zweig nehmen könnte, 16 Zyklen, ein richtig angedeutet, eine 8 und eine falsch deutete eine 24. In innersten Schleifen gutes hinting kann einen gewaltigen Unterschied machen.

Portabilität ist nicht wirklich ein Problem - vermutlich die definition ist in einer pro-Plattform-header; Sie können einfach definieren, "wahrscheinlich" und "unwahrscheinlich" nichts für Plattformen, die keine Unterstützung für statische Zweig-Tipps.
- Für das Protokoll, x86 braucht zusätzlichen Platz für die Zweig-Tipps. Sie haben eine ein-byte-Präfix an Zweigen, die angeben, den entsprechenden Hinweis. Vereinbart, dass hinting ist eine Gute Sache (TM), obwohl.
- Dang CISC-CPUs und Ihre variable-Länge-Anweisungen 😉
- Dang RISC-CPUs -- Bleiben Sie Weg von meinem 15-byte-Anweisungen 😉
- Zweig hinting wurde eingeführt, P4, wurde aber aufgegeben, zusammen mit P4. Alle anderen x86 CPUs einfach ignorieren diese Präfixe (weil Präfixe werden immer ignoriert, in Kontexten, wo Sie sind sinnlos). Diese Makros nicht dazu, dass gcc tatsächlich emittieren branch-hint-Präfixe auf x86. Sie tun Ihnen helfen, gcc, um das Layout Ihrer Funktion mit weniger genommen Filialen der fast-path.
InformationsquelleAutor moonshadow
5
```
long __builtin_expect(long EXP, long C);
```
Diese Anweisung teilt dem compiler mit, dass der Ausdruck EXP
wahrscheinlich haben Sie den Wert C. Der Rückgabewert EXP.
__builtin_expect verwendet werden soll in einer bedingten
Ausdruck. In fast allen Fällen wird es sich im
Kontext von boolschen Ausdrücken, in dem Fall ist es viel
bequemer definieren zwei Helfer Makros:
```
#define unlikely(expr) __builtin_expect(!!(expr), 0)
#define likely(expr) __builtin_expect(!!(expr), 1)
```
Diese Makros können dann verwendet werden, wie in
```
if (likely(a > 1))
```
Referenz: https://www.akkadia.org/drepper/cpumemory.pdf
- Als gefragt wurde, in einem Kommentar zu einer anderen Antwort - was ist der Grund für die doppelte inversion in Makros (d.h. warum __builtin_expect(!!(expr),0) statt nur __builtin_expect((expr),0)?
- inversion" !! ist äquivalent zu Gießen, was zu einem bool. Einige Leute mögen schreiben es auf diese Weise.
InformationsquelleAutor Ashish Maurya
2

(allgemein Kommentar andere Antworten decken die details)

Gibt es keinen Grund, dass Sie sollten verlieren Portabilität durch die Verwendung von Ihnen.

Haben Sie immer die option zum erstellen eines einfachen null-Effekt "inline" oder ein makro, das Ihnen erlaubt, zu kompilieren auf anderen Plattformen mit anderen Compilern.

Sie nicht nur die Vorteile der Optimierung, wenn Sie auf anderen Plattformen.
- Sie nicht verwenden, wird die Portabilität der Plattformen nicht unterstützen, Sie genau zu definieren, Sie zu erweitern, um leere Zeichenfolgen.
- Ich denke, Sie beiden sind tatsächlich einverstanden mit jeder anderen-es ist nur verwirrend formuliert. (Von den blicken von ihm, Andrew ' s Kommentar sagt: "Sie können diese verwenden, ohne den Verlust der Portabilität" aber sharptooth dachte, dass er sagte: "verwenden Sie Sie nicht, weil Sie nicht tragbar" und widersprochen.)
InformationsquelleAutor Andrew Edgecombe
2

Als pro den Kommentar von Cody, das hat nichts mit Linux zu tun, sondern ist ein Hinweis an den compiler. Was passiert, hängt von der Architektur und compiler-version.

Diese Besonderheit in Linux ist etwas mis-Treiber verwendet. Als osgx Punkte in Semantik von hot-Attribut, jede hot oder cold - Funktion aufgerufen, wobei in einem block können automatisch Hinweis, dass die Bedingung wahrscheinlich ist oder nicht. Zum Beispiel dump_stack() gekennzeichnet ist cold also das ist redundant,
```
 if(unlikely(err)) {
     printk("Driver error found. %d\n", err);
     dump_stack();
 }
```
Zukünftigen Versionen von gcc wahlweise inline-Funktion auf der Grundlage dieser Hinweise. Es wurden auch Vorschläge, dass es nicht boolean, aber eine Partitur, wie in wahrscheinlich, etc. Im Allgemeinen ist es vorzuziehen, verwenden einige alternativen Mechanismus wie cold. Es gibt keinen Grund, es in jedem Ort, aber heiß Pfade. Was für ein compiler, der auf einer Architektur kann dabei völlig unterschiedlich sein auf andere.

InformationsquelleAutor artless noise
2

In vielen linux-Version, finden Sie complier.h in /usr/linux/, Sie können es für Gebrauch einfach. Und eine andere Meinung, unwahrscheinlich() eher nützlich eher als wahrscheinlich (ist), weil
```
if ( likely( ... ) ) {
     doSomething();
}
```
optimiert werden kann als auch in vielen compiler.

Und durch die Art und Weise, wenn Sie wollen, beachten Sie die detail-Verhalten des Codes, die Sie tun können, einfach wie folgt:

gcc -c test.c
objdump -d test.o > obj.s

Öffnen Sie dann obj.s, finden Sie die Antwort.

InformationsquelleAutor Finaldie
1

Sie sind Hinweise an den compiler zum generieren der Hinweis Präfixe auf den Zweigen. Auf x86/x64, nimmt Sie nur ein byte, also kriegst du am meisten ein ein-byte-Erhöhung für jeden Zweig. Wie für Leistung, es hängt ganz von der Anwendung-in den meisten Fällen, die Zweig-predictor auf dem Prozessor ignoriert Sie, diese Tage.

Edit: Vergaß ein Ort, den Sie kann wirklich helfen. Es kann damit der compiler die Reihenfolge der control-flow-graph zur Verringerung der Zahl der Filialen für das "wahrscheinlich" Weg. Dies kann eine deutliche Verbesserung in Schleifen, wo Sie überprüft haben mehrere exit-Fällen.
- gcc erzeugt niemals x86-Zweig-Hinweise - zumindest alle Intel CPUs würde ignorieren Sie trotzdem. Es wird versuchen, Sie zu begrenzen, code-Größe im unwahrscheinlichen Regionen durch die Vermeidung von inlining und loop unrolling, obwohl.
InformationsquelleAutor Cody Brocious
1

Diese sind GCC-Funktionen für den Programmierer zu geben, einen Hinweis an den compiler, was die wahrscheinlichste Verzweigung Bedingung in einer bestimmten Ausdruck. Dies ermöglicht dem compiler die branch-Instruktionen so, dass der häufigste Fall nimmt die geringste Anzahl von Anweisungen ausführen.

Wie der Zweig Anweisungen gebaut werden, sind abhängig von der Prozessor-Architektur.

InformationsquelleAutor dcgibbons

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.