Konvertieren-Hi-Ansi-Zeichen für Ascii-äquivalent (é -> e)

Gibt es eine routine zur Verfügung, die in Delphi 2007 zu konvertieren die Zeichen in der großen Bandbreite der ANSI-Tabelle (>127) zu Ihrer Entsprechung in reinen ASCII - (<=127) entsprechend einem locale (codepage)?

Ich weiß, dass manche chars nicht gut übersetzen, aber die meisten können, insb. in der 192-255 Bereich:

À → EINE
à → eine
Ë → E
ë → e
Ç → C
ç → c
– (en dash) → - (Bindestrich - das kann schwieriger)
— (em dash) → - (Bindestrich)

InformationsquelleAutor François | 2009-12-11

30

WideCharToMultiByte bietet best-fit-Zuordnung für jedes Zeichen, die nicht unterstützt werden, die von den angegebenen Zeichensatz, einschließlich Strippen, die diakritische Zeichen enthalten. Sie können genau das tun, was Sie wollen, indem Sie die Verwendung und Weitergabe 20127 (UNS-ASCII), wie Sie in der codepage.
```
function BestFit(const AInput: AnsiString): AnsiString;
const
  CodePage = 20127; //20127 = us-ascii
var
  WS: WideString;
begin
  WS := WideString(AInput);
  SetLength(Result, WideCharToMultiByte(CodePage, 0, PWideChar(WS),
    Length(WS), nil, 0, nil, nil));
  WideCharToMultiByte(CodePage, 0, PWideChar(WS), Length(WS),
    PAnsiChar(Result), Length(Result), nil, nil);
end;

procedure TForm1.Button1Click(Sender: TObject);
begin
   ShowMessage(BestFit('aÀàËëÇç–—€¢Š'));
end;
```
Berufung, die Sie mit Ihren Beispielen produziert Ergebnisse, die Sie suchen, einschließlich der emdash-zu-minus-Fall, was ich nicht glaube, ist behandelt von Jeroen ' s Vorschlag zu konvertieren, um Normalization form D. Wenn Sie nicht wollen, dass die Vorgehensweise, Michael Kaplan hat eine blog-post die explizit beschreibt, Strippen diakritischen Zeichen (eher als Normalisierung im Allgemeinen), aber es nutzt C# und eine API, die war eingeführt in Vista. Sie können etwas ähnliches mit dem FoldString api (alle WinNT-Version).

Natürlich, wenn Sie nur tun dies für ein Zeichen gesetzt, und Sie wollen vermeiden, den Aufwand einer Konvertierung zu und von einem WideString, Padu ist richtig, dass eine einfache for-Schleife und eine lookup-Tabelle wäre genauso effektiv.
- Dank Craig. Das ist eine allgemeinere Lösung als die Suche. Es hatte sich ein Tippfehler in die Magische Zahl, so korrigierte ich ihn und verwendet eine Konstante statt. Aber egal, es funktioniert auf D2007 sowie D2009.
- Eine Sache, die wir bemerkt, ist, dass 'β' (unicode 1E9E latin capital letter sharp s) ist nicht konvertiert, so tun wir dies im Vorfeld : StringReplace(aStr, 'β', 'SS', [rfReplaceAll])
InformationsquelleAutor Zoë Peterson
7

Nur zu verlängern Craig ' s Antwort für Delphi 2009:

Wenn Sie mit Delphi 2009 und neuer verwenden, können Sie einen besser lesbaren code, mit dem gleichen Ergebnis:
```
function OStripAccents(const aStr: String): String;
type
  USASCIIString = type AnsiString(20127);//20127 = us ascii
begin
  Result := String(USASCIIString(aStr));
end;
```
Leider, dieser code funktioniert nur unter MS Windows. Auf dem Mac die Umlaute werden nicht ersetzt durch best-Zeichen ausgestattet, sondern mit Fragezeichen.

Offensichtlich, Delphi intern verwendet WideCharToMultiByte auf Windows in der Erwägung, dass auf dem Mac "iconv" verwendet wird (siehe LocaleCharsFromUnicode im System.pas).
Die Frage ist, ob das unterschiedliche Verhalten auf verschiedenen OS sollte als Fehler und berichtete CodeCentral.
- iconv hat eine //TRANSLIT option, aber LocaleCharsFromUnicode() macht es nicht.
InformationsquelleAutor oxo
3

Ich glaube, Ihre beste Wette ist, erstellen einer lookup-Tabelle.
- Auch, wenn Sie eine anständige regex-Bibliothek mit delphi, das könnte auch verwendet werden, aber es ist immer noch eine Art lookup-Tabelle.
- Danke Padu. Das ist, was ich dachte. Ich werde trotzdem akzeptieren Craig ' s Antwort, weil es mehr generische.
InformationsquelleAutor Padu Merloti
1

Was du suchst ist die Normalisierung.

Michael Kaplan schrieb schöner blog-Artikel über Normalisierung.

Nicht sofort Ihr problem lösen, aber Punkte, die Sie in die richtige Richtung.

--jeroen
- NFKD + Entfernung von Kombinationszeichen arbeiten eine Menge Zeit. Es gibt jedoch Zeichen, die wie ÆÐØÞßæðøþ, die zersetzen sich nicht und müssen behandelt werden manuell.
InformationsquelleAutor Jeroen Wiert Pluimers

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.