Stimmen aus RawByteString string nicht automatisch aufrufen UTF8Decode?

Ich soll zum speichern von beliebigen binären Daten als BLOB in einer SQlite-Datenbank.

Den Daten Hinzugefügt werden, wie value mit dieser Funktion:

procedure TSQLiteDatabase.AddParamText(name: string; value: string);

Ich jetzt konvertieren wollen WideString in seine UTF-8-Darstellung, so kann es auch in der Datenbank gespeichert. Nach dem Aufruf UTF8Encode und speichern das Ergebnis in der Datenbank habe ich festgestellt, dass die Daten innerhalb der Datenbank ist nicht UTF8 decodiert werden. Vielmehr ist es codiert, wie AnsiString in meinem computer das Gebietsschema.

Lief ich folgenden test, um zu überprüfen, was passiert ist:

type
  {$IFDEF Unicode}
  TBinary = RawByteString;
  {$ELSE}
  TBinary = AnsiString;
  {$ENDIF}

procedure TForm1.Button1Click(Sender: TObject);
var
  original: WideString;
  blob: TBinary;
begin
  original := 'ä';
  blob     := UTF8Encode(original);

  // Delphi 6:   Ã¤ (as expected)
  // Delphi XE4: ä  (unexpected! How did it do an automatic UTF8Decode???)
  ShowMessage(blob);
end;

Nachdem das Zeichen "ä" hat, wurde in UTF8, dass die Daten korrekt in den Speicher ("Ã¤"), jedoch, sobald ich den pass der TBinary Wert an eine Funktion (als string oder AnsiString), Delphi XE4 hat eine "Magische festgelegten" Aufruf von UTF8Decode aus irgendeinem Grund ich weiß es nicht.

Ich habe bereits einen workaround gefunden, dies zu vermeiden:

function RealUTF8Encode(AInput: WideString): TBinary;
var
  tmp: TBinary;
begin
  tmp := UTF8Encode(AInput);
  SetLength(result, Length(tmp));
  CopyMemory(@result[1], @tmp[1], Length(tmp));
end;

procedure TForm1.Button2Click(Sender: TObject);
var
  original: WideString;
  blob: TBinary;
begin
  original := 'ä';
  blob     := RealUTF8Encode(original);

  // Delphi 6:   Ã¤ (as expected)
  // Delphi XE4: Ã¤ (as expected)
  ShowMessage(blob);
end;

Jedoch, diese Problemumgehung mit RealUTF8Encode schmutzig aussieht auf mich und ich würde gerne verstehen, warum ein einfacher Aufruf von UTF8Encode hat nicht funktioniert, und wenn es eine bessere Lösung.

InformationsquelleAutor Daniel Marschall | 2014-06-05

7

In Ansi-Versionen von Delphi (vor D2009), UTF8Encode() gibt einen UTF-8-kodiert AnsiString. In Unicode-Versionen (D2009 und später), gibt es ein UTF-8-kodiert RawByteString mit einer code-Seite von CP_UTF8 (65001) zugeordnet.

In Ansi-Versionen, ShowMessage() nimmt eine AnsiString als Eingabe, und die UTF-8-string ist eine AnsiString, so wird es dargestellt-ist. In Unicode-Versionen ShowMessage() nimmt eine UTF-16-kodiert UnicodeString als Eingabe, so ist die UTF-8-kodiert RawByteString wird in UTF-16 konvertiert die Verwendung der Ihr zugewiesenen CP-UTF8 code Seite.

Wenn Sie tatsächlich schrieb die blob Daten direkt an die Datenbank, die Sie finden würde, dass er möglicherweise oder möglicherweise nicht UTF-8 codiert sein, je nachdem, wie Sie es schreiben. Aber dein Ansatz ist falsch; die Verwendung von RawByteString ist falsch in dieser situation. RawByteString verwendet werden soll als parameter für eine Prozedur nur. Verwenden Sie es nicht als eine lokale variable. Das ist die Quelle Ihres Problems. Aus der Dokumentation:

Zweck der RawByteString ist zu reduzieren die Notwendigkeit für mehrere
überladungen von Prozeduren, die das Lesen von string-Daten. Dies bedeutet, dass
Parameter von Routinen, Prozess-strings ohne Berücksichtigung der
string code-Seite sollte in der Regel vom Typ RawByteString.

RawByteString sollte nur verwendet werden, als parameter-Typ, und nur in
Routinen, die sonst benötigen würden mehrere überladungen für AnsiStrings
mit unterschiedlichen codepages. Solche Routinen geschrieben werden müssen mit Sorgfalt
für die aktuelle codepage der string zur Laufzeit.

Für Unicode-Versionen von Delphi, statt RawByteString würde ich vorschlagen, dass Sie verwenden TBytes zu halten Ihre UTF-8-Daten und Kodieren Sie es mit TEncoding:
```
var
  utf8: TBytes;
  str: string;
...
str := ...;
utf8 := TEncoding.UTF8.GetBytes(str);
```
Du suchst einen Datentyp, der keine implizite text-Codierungen, wenn herum, und TBytes ist der Typ.

Für Ansi-Versionen von Delphi können Sie AnsiString, WideString und UTF8Encode genau so, wie Sie tun.

Persönlich würde ich jedoch empfehlen, mit TBytes konsequent für Ihre UTF-8-Daten. Also, wenn Sie brauchen eine einheitliche code-Basis, unterstützt Ansi und Unicode-Compiler (ugh!) dann sollten Sie einige Helfer:
```
{$IFDEF Unicode}
function GetUTF8Bytes(const Value: string): TBytes;
begin
  Result := TEncoding.UTF8.GetBytes(Value);
end;
{$ELSE}
function GetUTF8Bytes(const Value: WideString): TBytes;
var
  utf8str: UTF8String;
begin
  utf8str := UTF8Encode(Value);
  SetLength(Result, Length(utf8str));
  Move(Pointer(utf8str)^, Pointer(Result)^, Length(utf8str));
end;
{$ENDIF}
```
Die Ansi-version verursacht mehr heap-Zuweisungen als notwendig. Sie könnten auch entscheiden, zu schreiben, ein effizienter Helfer, die Anrufe WideCharToMultiByte() direkt.

In den Unicode-Versionen von Delphi, wenn Sie aus irgendeinem Grund nicht verwenden wollen TBytes für UTF-8-Daten, die Sie verwenden können UTF8String statt. Dies ist eine Besondere AnsiString dass immer die CP_UTF8 code Seite. Sie können dann schreiben:
```
var
  utf8: UTF8String;
  str: string;
....
utf8 := str;
```
und der compiler konvertiert von UTF-16 zu UTF-8 hinter den kulissen für Sie. Ich würde nicht empfehlen dies aber nicht, weil es nicht unterstützt, auf mobilen Plattformen oder in Ansi-Versionen von Delphi (UTF8String existiert seit Delphi 6, aber es war nicht eine echte UTF-8-string bis Delphi 2009). Das ist, unter anderen Gründen, warum ich schlage vor, daß du TBytes. Meine Philosophie ist, zumindest in der Unicode-Zeitalter, daß es die native string geben, und jeder anderen Codierung gespeichert werden soll TBytes.
- Danke sehr für deine sehr hilfreiche Antwort! Ich bin mit WideCharToMultiByte nun, das ist eine performante Lösung. Ich habe auch gelernt, dass die neuen Elemente in StrRec - auch die Zeichentabelle. Dies erklärt, warum mein CopyMemory hack in der original-post hat funktioniert als workaround.
- Btw, eine interessante Tatsache ist, dass die 2 Anrufe von WideCharToMultiByte (einer für die entscheidenden der Ausgabe-Größe und eine für die eigentliche Konvertierung) sind schneller als eine einzelne UTF8Encode mit Manipulation StrRec.codePage im Speicher (anstelle der Berufung SetCodePage was tun würde, eine unnötige UniqueString) - ich weiß, dass dies ein dirty hack, aber ich wollte testen, ob ich noch schneller als die WinAPI. Vielleicht habe ich auch etwas falsch gemacht haben bei dem experiment.
- Sie können es mit einem Aufruf WideCharToMultiByte. Werfen Sie einen Blick auf, wie GetBytes implementiert ist, für UTF8-Kodierung. Verwendet über Zuweisung, gefolgt von down Größe.
- In XE4 Umsetzung TUTF8Encoding.GetMaxByteCount zurück (CharCount + 1) * 3; . Ich bin nicht sicher, ob dies sicher ist, da RFC3629 gibt die maximale Anzahl von bytes pro Zeichen auf 4. Ich denke, Sie haben die 3 gewählt, weil Sie davon ausgehen, dass keine real-world-string muss 4 gezogen durch den ganzen string. Also, es könnte möglich sein, erstellen Sie eine Zeichenfolge, die konvertiert werden kann mithilfe TEncoding.UTF8.GetBytes. Ich sehe den Konflikt: die Multiplikation alles mit 4 würde bedeuten, große Speicherauslastung, wenn der input-string ist sehr groß. Dies ist der Grund, warum mein Erster Versuch war der Einsatz von 2 Anrufe von der API, die ist langsamer.
- Das ist 3 mal die Anzahl der UTF-16-Elemente eher als 3 mal die Anzahl der Unicode-Codepunkte. Punkte außerhalb der BMP nehmen zwei UTF-16-Elemente zu codieren. Die 3 mal, der richtige ist.
- Bei der Reflexion zwei Anrufe und eine Zuordnung kann gut sein, schneller als ein Anruf und zwei Zuweisungen. Das Prob hängt am Eingang. Wenn Sie sich interessieren, Zeit mit realistischen Daten.
- Warum die beiden Zuweisungen? Wenn ich kürzen Sie den string/array mit SetLength um die tatsächliche Länge der Daten nicht verschoben werden.
- Es gibt keine Garantie. Der Speicher-manager konnte sich sehr gut bewegen, die Daten, wenn Sie gewählt haben, dies zu tun. In jedem Fall gibt es overhead.
InformationsquelleAutor David Heffernan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.