Was sind einige Tipps für die Optimierung des Assembler-code, der vom compiler erzeugt?

Ich bin derzeit in den Prozess des Schreibens ein compiler und ich scheinen zu haben, in einige Probleme laufen, wie es den Ausgabe-code, der ausgeführt wird, in einem anständigen Zeitrahmen.

Einen kurzen überblick über den compiler:

7Basic ist ein compiler, der soll zu kompilieren 7Basic code direkt in Maschinen-code für die Ziel-Architektur /Plattform. Derzeit 7Basic generiert x86 Assembler gegeben, eine source-Datei.

Das problem ist, dass der Assembler-code, der vom compiler generiert wird langsam und ineffizient.

Beispielsweise diese code (die kompiliert unten zu diese Assembler-code) dauert fast 80.47 mal länger auszuführen als der entsprechende C-code.

Teil des Problems ist, dass der compiler erzeugt code wie den folgenden:

push eax
push 5000000
pop ebx
pop eax

Anstelle der logisch:

mov ebx,5000000

..., führt die gleiche Sache.

Meine Frage ist: was sind einige Techniken, um zu vermeiden, diese Art von problem? Der parser grundsätzlich verwendet Rekursion, um eine Analyse der Ausdrücke, so dass der erzeugte code spiegelt dies wider.

Add-O3 zu Ihrem compiler-Befehlszeile 😉
+1 @drhirsch LOL
"...ein cross-Plattform BASIC-compiler erzeugt native Win32 ausführbaren Dateien." Warten Sie, was?
Gut, es soll auch zu generieren ELF-executables auch.
Crenshaw tutorial, sagt ein (sehr!) wenig über peephole-Optimierung in einem one-pass-compiler. Kurz-kurz-version: Puffer für die Ausgabe von N Anweisungen und überprüfen Sie mögliche Optimierungen in den Puffer jedes mal, wenn eine neue Anweisung emittiert wird, zu dem Puffer. Drücken die Ergebnisse aus, wie gebraucht. Welche Optimierungen sind zu tun? Ah...das ist der schwierige Teil, nicht wahr?
Das scheint, wie hilfreiche Ratschläge.
Ist LLVM eine option für dich?

InformationsquelleAutor Nathan Osman | 2010-09-22

16

Einer Technik namens peephole-Optimierung. Dieser nimmt einen iterativen Ansatz, um die Säuberung Assembler-code. Im wesentlichen Scannen Sie über die assembly-code, Blick auf nur zwei oder drei Anweisungen in einer Zeit, und sehen, ob Sie können, reduzieren Sie in etwas einfacher. Zum Beispiel,
```
push eax        ; 1
push 5000000    ; 2
pop ebx         ; 3
pop eax         ; 4
```
Der erste Schritt Aussehen würde, in den Zeilen 2 und 3, und Ersetze Sie mit:
```
push eax        ; 1
mov ebx,5000000 ; 2a
pop eax         ; 4
```
Zweiten, sollten Sie erwägen, 1 und 4, und wenn eax ist nicht berührt, in der Mitte Instruktion, entfernen Sie Sie beide, verlassen, was Sie wollen:
```
mov ebx,5000000 ; 2a
```
- +1: mich zu schlagen...
- Okay, konnte das getan werden, wie der code generiert wird? Das wäre besser.
- In der Regel peephole Optimierung wird als eine separate pass, nachdem Sie Sie erstellt haben, eine intermediate assembly output. Wenn Sie kompilieren für mehrere Architekturen, dann wäre es notwendigerweise ausgeführt werden müssen nachdem, Sie haben kompiliert, um eine IL-form, und dann zu Ihrem Ziel-assembly-Sprache.
- Gut, ich habe eine Klassenhierarchie für die assembly-code-Ausgabe-Modul, so dass jede Architektur, die Ausgabe-Modul leitet von einer Basisklasse. Gibt es nicht auch einige Optimierungen gemeinsam ist allen meiner unterstützte Architekturen (derzeit plant x86 und x86-64)?
- Crenshaw zeigte eine Methode, es zu tun-line. Wahrscheinlich nicht so Global effizienter als eine andere übergeben, aber die Kompromisse ist der name des Spiels.
InformationsquelleAutor Greg Hewgill
6

Möchten Sie vielleicht zu prüfen, generieren von C-code anstatt der Montage und dann lassen Sie einen C-compiler (z.B. gcc) Griff die code-Generierung für Sie. Es gibt keinen Punkt versucht, das Rad neu zu erfinden.
- Schließlich wird der compiler wird zum generieren von Maschinencode, so ist dies keine option.
- Schließlich wird der C-compiler wird zum generieren von Maschinencode, zu.
- Was ich meinte war, dass schließlich der compiler direkt erzeugen den Maschinencode selbst.
- Wenn Ihr compiler wird eine geeignete open-source-Lizenz, dann könnten Sie vielleicht zu integrieren einige der gcc-Backend, wenn Sie nicht wollen, um es als Teil einer tool-chain.
InformationsquelleAutor Paul R
4

Nehme ich einen compiler-Kurs im moment. Ich habe einige große Fortschritte in der Ausgabe effizienten code, aber Sie sollten in der dragon book. Es ist eine rite de passage. Sie sollten einen Blick auf den code, der von Jeremy Bennett Buch Einführung zu Kompilieren Techniken: Ein Erster Kurs Mit ANSI-C, LEX und YACC. Das Buch selbst ist sehr schwer zu finden, aber Sie können downloaden Sie den Quellcode für die compiler frei von

http://www.jeremybennett.com/publications/download.html

Den code-generator-Datei (cg.c) verfügt über einige Funktionen für die Erzeugung von relativ optimierten code. Die Zielsprache ist nicht i386, aber man sollte betrachten, wie er beschreibt, registriert und verfolgt, wo die symbol-Tabelle der Einträge werden gespeichert. Sein output assembly konnte weiter optimiert werden, aber es bietet eine großartige Basis für die Herstellung von code, konnte der Rivale der Ausgabe von gcc -S in einigen Punkten.

Einer Allgemeinen Optimierung wäre zu subtrahieren Sie den stack-pointer zu reservieren Speicherplatz für alle lokalen und temporären Variablen nach Eingabe einer Funktion. Dann einfach die Referenz-offsets statt ständig drängen/knallen.

Zum Beispiel, wenn Ihr intermediate code ist eine Liste vervierfacht, Sie sollten einfach iterator durch es für jede Funktion und verfolgen das maximale offset. Dann die Ausgabe der Zeile zu subtrahieren Sie die Menge an Speicherplatz auf dem stack. Dies beseitigt die Notwendigkeit zu schieben so viele Variablen ein-und ausschalten. Um die zu entfernen, müssen Sie pop, können Sie einfach mov Ihren Wert aus Ihrer offset auf den stack in ein register. Dies wird deutlich verbessern die Leistung.
- Tolle Beratung - die Sprache ist nicht das Konzept, der Rahmen, noch hat es Funktionen / Unterprogramme. Immer noch ein work in progress. Aber wenn Sie es tut, werde ich sein sicher, dass lokale Variablen gehen auf den Stapel.
- Was ist mit den intermediate-code-Darstellung? TAC/Vervierfacht?
- Keine haben 🙂 Der compiler sendet "pseudo-Befehle", um die Ausgabe-Modul generiert die genaue Montageanleitung.
- Sollten Sie überdenken Ihre Strategie-Sie sollte erzeugen eine Art intermediate code, so können Sie einige notwendige Optimierungen vor der Generierung von target-code.
InformationsquelleAutor Kizaru
2

Gibt es eine Reihe von Gründen, die einer bestimmten code-generator kann emittieren die Befehlsfolge, die Sie Liste. Die wahrscheinlichste ist, dass der code-generator, die Sie verwenden ist einfach nicht versuchen, sehr schwer zu emittieren optimalen code.

Dieses Muster der ausgegebene code lässt mich vermuten, dass Sie Ihre code-generator, die nicht wissen, dass die x86 - "mov unmittelbaren" Anweisungen, die Sie einbetten der Konstante Wert in der instruction stream direkt. Der x86-Codierung für opcodes mit der sofortigen Werte kann ein wenig kompliziert (variable-Länge-R/M bytes), aber dies ist bereits erforderlich, wenn Sie verwenden möchten, viele der x86-Anweisungen.

Dieser ausgegebene code auch darauf hin, dass der code-generator nicht wissen, dass EAX wird nicht geändert von der EBX-Anweisungen. Das fühlt sich an wie die codegen ist Vorlage getrieben, anstatt diskreter Logik.

Diese Art von codegen passiert, wenn der compiler die interne zwischendarstellung von Operationen ist nicht detailliert genug sind, um alle Facetten der Ziel-Architektur. Dieses ist besonders zutreffend, wenn der code-generator-Architektur wurde ursprünglich für ein RISC-Befehlssatz, wurde aber von einem neuen Zweck zugeführt zu emittieren x86-Anweisungen. RISC-Architektur neigen dazu, sehr wenige und sehr einfach zu laden, zu speichern und zu betreiben reg/reg-Anweisungen, wobei der x86-Befehlssatz hat sich organisch über Jahrzehnte, um eine Vielzahl von opcodes, die arbeiten direkt auf dem Speicher, inline-Konstanten in den Anweisungen, und eine ganze Durcheinander mit anderen Sachen. Wenn der compiler intermediate representation (expression-Kurve) - Kabel RISC, wird es schwierig sein, um es zu verstehen, die Vielfalt und die Feinheiten der x86.
- Eigentlich schrieb ich den code generater 🙂
- Cool. Dann gibt es Hoffnung, dass diese codegen verbessert werden kann. ;> Schritt 1: herauszufinden, wie zu erkennen Konstanten Wert geladen, der in der intermediate-Repräsentation und emittieren diese als mov reg,imm. Schritt 2: herausfinden, warum Ihr code-generator ist pushing und popping eax in diesem Beispiel, da es nicht relevant ist, um die core-Betrieb bei allen. Riecht nach bug.
- Es ist kein bug. Es soll einfach wegen der Art, wie Ausdrücke ausgewertet werden. Dies ist der Grund, warum ich die Frage gestellt habe.
- Gut, dann müssen Sie die Arbeit auf die Art und Weise Ihrer Ausdrücke ausgewertet, wenn Ihr das hinzufügen Reste Ihrer codegen. ;> Peephole-Optimierungen (wie bereits erwähnt in einer anderen Antwort) kann helfen, das Durcheinander aufzuräumen Links von einem Armen codegen, aber meiner Meinung nach ist es besser, zu emittieren, besseren code zu beginnen.
- Der compiler soll nicht jeder verstehen die Architektur für den erzeugten Maschinen-code. Ansonsten wird es unmöglich sein, fügen Sie eine andere Architektur.
InformationsquelleAutor dthorpe
2

Peephole-Optimierungen helfen, aber ein offensichtliches Problem ist, dass dein compiler nicht tun-register-Allokation!

http://en.wikipedia.org/wiki/Register_allocation

Wenn Sie wollen, ernst zu erhalten, Leistungen, die Sie zu tun haben, zu untersuchen. Es kann getan werden, in einem einzigen Durchgang, wenn Sie es gierig "on the fly".

InformationsquelleAutor Maxime Chevalier

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.