So konvertieren Sie einen UTF-8-string in Unicode?

Habe ich Zeichenfolge, die zeigt UTF-8-codierte Zeichen, und ich möchte Sie zu konvertieren zurück zu Unicode.

Für heute, meine Umsetzung ist die folgende:

public static string DecodeFromUtf8(this string utf8String)
{
    //read the string as UTF-8 bytes.
    byte[] encodedBytes = Encoding.UTF8.GetBytes(utf8String);

    //convert them into unicode bytes.
    byte[] unicodeBytes = Encoding.Convert(Encoding.UTF8, Encoding.Unicode, encodedBytes);

    //builds the converted string.
    return Encoding.Unicode.GetString(encodedBytes);
}

Spiele ich mit dem Wort "déjà". Ich habe konvertiert in UTF-8 durch dieses online-tool, und so begann ich zu testen, meine Methode mit der string "dÃ©jÃ".

Leider, mit dieser Umsetzung der saite gleich bleibt.

Wo bin ich falsch?

Das ist nicht utf-8-string. Das ist eine beschädigte Zeichenfolge, die wurde schlecht konvertiert die bytes mit der falschen Codierung.
UTF-8 ist Unicode.
Die Quell-Zeichenfolge ungültig ist UTF-8.
C# - strings 16-bit-Zeichen, also können Sie Sie möglicherweise nicht in UTF-8 codiert. Ich denke, dass das system nicht verstehen, was Sie zu tun versuchen. Wo bekommt man die miscoded strings aus?
Die Funktion muss akzeptieren byte[] in den ersten Platz, nicht string.
und richard: Wenn es hilft, Lesen Sie "UTF-16" ist für "Unicode" in der Frage. C#'s native string-Kodierung ist UTF-16, und es wird als Unicode in die docs.
Oh, wir haben also einen Fall von verwirrenden Terminologie.
Da diese web-Seite ist in utf-8 ich freue mich auf die utf-8 für dÃ©jÃ und es sieht aus wie dÃ©jÃ.
können Sie das konkretisieren, bitte? Wie können Sie sehen, meine UTF-8-string ist beschädigt? (Auch, ich aktualisierte meine Frage, um zu zeigen, wo ich es bekommen).
Sie könnte beginnen mit Was Jeder Programmierer Absolut Positiv Muss Wissen Über Kodierungen Und Zeichensätzen Arbeiten Mit Text um zu verstehen, was Sie zu tun versuchen...
C# - strings 16-bit - code-Einheiten. Unicode-Zeichen sind 21 bits, natürlich.
Wieder verwirrende Terminologie. Die Grundeinheit einer Zeichenkette wird als eine char in C# (oder ein Char im .NET lingo) und Sie sind 16 bit. Aber es gibt keine solche Sache wie eine 21-bit-Unicode-Zeichen. Zumindest der Satz "der 21-bit-Zeichen" nicht erscheint überall auf der Unicode-Website, und keine Umsetzung in der Welt hat die 21 bits. (Übrigens habe ich vorgeschlagen, eine 24-bit-Codierung, die einmal (UTF-24), aber das wurde abgelehnt.)
utf unicode ?????? utf-8 ist eine Möglichkeit zum speichern von unicode-code-points

InformationsquelleAutor remio | 2012-07-02

c#string unicode utf-8

15

Also das Problem ist, dass UTF-8-code Einheit Werte gespeichert wurden, als eine Folge von 16-bit-code-Einheiten in einem C# -string. Sie müssen einfach nur sicherstellen, dass jeder code-Einheit ist innerhalb des Bereichs von einem byte, kopieren Sie diese Werte in Byte umwandeln und dann die neuen UTF-8-byte-Sequenz in UTF-16.
```
public static string DecodeFromUtf8(this string utf8String)
{
    //copy the string as UTF-8 bytes.
    byte[] utf8Bytes = new byte[utf8String.Length];
    for (int i=0;i<utf8String.Length;++i) {
        //Debug.Assert( 0 <= utf8String[i] && utf8String[i] <= 255, "the char must be in byte's range");
        utf8Bytes[i] = (byte)utf8String[i];
    }

    return Encoding.UTF8.GetString(utf8Bytes,0,utf8Bytes.Length);
}

DecodeFromUtf8("d\u00C3\u00A9j\u00C3\u00A0"); //déjà
```
Dies ist einfach, jedoch wäre es am besten, um die Ursache; der Ort, wo jemand kopieren UTF-8-code-Einheiten in 16-bit-code-Einheiten. Der wahrscheinliche Täter ist jemand Konvertierung von bytes in ein C# string mit der falschen Codierung. E. g. Encoding.Default.GetString(utf8Bytes, 0, utf8Bytes.Length).

Alternativ, wenn Sie sicher sind, dass Sie wissen, die falsche Codierung, die verwendet wurde, um zu produzieren die Zeichenfolge, und dass eine falsche Codierung transformation verlustfrei (in der Regel der Fall, wenn die falsche Codierung ist ein single-byte-Codierung), dann kann man einfach die inverse Codierung Schritt, um die ursprüngliche UTF-8-Daten, und dann können Sie die korrekte Konvertierung von UTF-8-bytes:
```
public static string UndoEncodingMistake(string mangledString, Encoding mistake, Encoding correction)
{
    //the inverse of `mistake.GetString(originalBytes);`
    byte[] originalBytes = mistake.GetBytes(mangledString);
    return correction.GetString(originalBytes);
}

UndoEncodingMistake("d\u00C3\u00A9j\u00C3\u00A0", Encoding(1252), Encoding.UTF8);
```
- Dank barnes53 genau das beantwortet meine Frage, wie es produziert die Ergebnisse, die ich erwarte. Sie konnte herausfinden, was ich gemeint habe, aus meiner verwirrende Frage.
InformationsquelleAutor bames53
9

Habe ich Zeichenfolge, die zeigt UTF-8-codierte Zeichen

Gibt es keine solche Sache .NET. Die string-Klasse können nur strings speichern in UTF-16-Codierung. Ein UTF-8 kodierter string kann nur existieren als byte[]. Versuchen, speichern von bytes in eine Zeichenfolge wird nicht kommen, zu einem guten Ende; UTF-8 verwendet, byte-Werte, die nicht über eine gültige Unicode-codepoint. Der Inhalt wird vernichtet werden, wenn der string wird normalisiert. So ist es bereits zu spät, sich zu erholen, den string durch die Zeit, Ihre DecodeFromUtf8() beginnt zu laufen.

Nur mit der Zeichenkodierung UTF-8 mit byte[]. Und verwenden Sie bei UTF8Encoding.GetString() zu konvertieren.
- Sie wies darauf hin, die Verwirrung, die ich vermeiden wollte. Mein string ein unicode-string, auch ist ein .Net-Zeichenfolge, die der debugger zeigt, wie dÃ©jÃ. Also, mein Ziel ist es, ein weiteres (.Net) der string, der angezeigt wird, wie déjà (in den debugger, zum Beispiel).
- Sie sind fehlt den Punkt der Antwort, es gibt keinen Weg, um diese Arbeit zu machen, richtig für alle möglich, die utf-8-codierte Zeichenfolge. Dass Sie es schaffen konnte für dÃ©jÃ, ist lediglich Zufall. Dass Sie bereits Probleme mit es sollte ein Hinweis, es gibt einen extra Raum, nachdem die Letzte Ã. Ein besonderes, ein non-breaking space, code point U+geschützte Leerzeichen 00A0. Was passiert zu sein eine gültige Unicode code point durch Zufall.
- Danke, ich denke ich bekomme es. Du meinst, dass ich einfach nicht verwenden string zur Speicherung der UTF-8-bytes. Jedoch, wie Sie erwähnen, könnte es durch einen Unfall, wäre es eine große Hilfe, wenn ich könnte die Unfälle arbeiten. In anderen Worten, ich weiß noch nicht, wie man diese Umwandlung in den Fällen, die es funktionieren würde.
- Sie können Ihr Glück versuchen, durch Verwendung der Codierung.Standard.GetBytes (), um zu versuchen sich zu erholen Sie das byte[]. Ich würde empfehlen das System.Zufällige Klasse, es hat sich stattdessen eine zuverlässigere Ergebnis.
- +1 für das System.Random 🙂
- Schließlich fand ich etwas, dass (scheinbar?) funktioniert/en. Zuerst bekomme ich einen byte[] von diesem berüchtigten UTF-8-string. In diesem array, bemerkte ich, dass alle ungeraden Indizes enthält 0, so dass ich entfernt Sie alle und aufgerufen unicodeBytes = Encoding.Convert(Encoding.UTF8, Encoding.Unicode, encodedBytes); auf dieses Ergebnis. Am Ende kehrte ich zurück Encoding.Unicode.GetString(unicodeBytes);. Dann, ich nahm Lasten von text-Beispiele in vielen Sprachen (Dank Wikipedia), baute einen großen großen string, konvertiert es in meiner berühmt-berüchtigten UTF-8-format, dann dekodiert es und habe die exakt gleichen ursprünglichen string. Kein Zufall, kein Unfall.
- Wenn der string enthält Nullen in den ungeraden Indizes, dann ist es tatsächlich enthält eine utf-16 codierte bytes, nicht utf-8.
- Anderen +1 für System.Random
InformationsquelleAutor Hans Passant

Wenn Sie eine UTF-8-Zeichenkette, wobei jedes byte richtig ist ('Ö' -> [195, 0] , [150, 0]), Sie können die folgenden:

public static string Utf8ToUtf16(string utf8String)
{
    /***************************************************************
     * Every .NET string will store text with the UTF-16 encoding, *
     * known as Encoding.Unicode. Other encodings may exist as     *
     * Byte-Array or incorrectly stored with the UTF-16 encoding.  *
     *                                                             *
     * UTF-8 = 1 bytes per char                                    *
     *    ["100" for the ansi 'd']                                 *
     *    ["206" and "186" for the russian '?']                    *
     *                                                             *
     * UTF-16 = 2 bytes per char                                   *
     *    ["100, 0" for the ansi 'd']                              *
     *    ["186, 3" for the russian '?']                           *
     *                                                             *
     * UTF-8 inside UTF-16                                         *
     *    ["100, 0" for the ansi 'd']                              *
     *    ["206, 0" and "186, 0" for the russian '?']              *
     *                                                             *
     * First we need to get the UTF-8 Byte-Array and remove all    *
     * 0 byte (binary 0) while doing so.                           *
     *                                                             *
     * Binary 0 means end of string on UTF-8 encoding while on     *
     * UTF-16 one binary 0 does not end the string. Only if there  *
     * are 2 binary 0, than the UTF-16 encoding will end the       *
     * string. Because of .NET we don't have to handle this.       *
     *                                                             *
     * After removing binary 0 and receiving the Byte-Array, we    *
     * can use the UTF-8 encoding to string method now to get a    *
     * UTF-16 string.                                              *
     *                                                             *
     ***************************************************************/

    //Get UTF-8 bytes and remove binary 0 bytes (filler)
    List<byte> utf8Bytes = new List<byte>(utf8String.Length);
    foreach (byte utf8Byte in utf8String)
    {
        //Remove binary 0 bytes (filler)
        if (utf8Byte > 0) {
            utf8Bytes.Add(utf8Byte);
        }
    }

    //Convert UTF-8 bytes to UTF-16 string
    return Encoding.UTF8.GetString(utf8Bytes.ToArray());
}

In meinem Fall die DLL Ergebnis ist ein UTF-8 string zu, aber leider ist die UTF-8-string interpretiert, wenn UTF-16-Codierung ('Ö' -> [195, 0], [19, 32]).
Also der ANSI '–' 150 konvertiert die UTF-16 -'–', was ist 8211. Wenn Sie dieser Fall zu, können Sie den folgenden statt:

public static string Utf8ToUtf16(string utf8String)
{
    //Get UTF-8 bytes by reading each byte with ANSI encoding
    byte[] utf8Bytes = Encoding.Default.GetBytes(utf8String);

    //Convert UTF-8 bytes to UTF-16 bytes
    byte[] utf16Bytes = Encoding.Convert(Encoding.UTF8, Encoding.Unicode, utf8Bytes);

    //Return UTF-16 bytes as UTF-16 string
    return Encoding.Unicode.GetString(utf16Bytes);
}

Oder die Native-Methode:

[DllImport("kernel32.dll")]
private static extern Int32 MultiByteToWideChar(UInt32 CodePage, UInt32 dwFlags, [MarshalAs(UnmanagedType.LPStr)] String lpMultiByteStr, Int32 cbMultiByte, [Out, MarshalAs(UnmanagedType.LPWStr)] StringBuilder lpWideCharStr, Int32 cchWideChar);

public static string Utf8ToUtf16(string utf8String)
{
    Int32 iNewDataLen = MultiByteToWideChar(Convert.ToUInt32(Encoding.UTF8.CodePage), 0, utf8String, -1, null, 0);
    if (iNewDataLen > 1)
    {
        StringBuilder utf16String = new StringBuilder(iNewDataLen);
        MultiByteToWideChar(Convert.ToUInt32(Encoding.UTF8.CodePage), 0, utf8String, -1, utf16String, utf16String.Capacity);

        return utf16String.ToString();
    }
    else
    {
        return String.Empty;
    }
}

Wenn Sie müssen es anders herum sehen Utf16ToUtf8.
Hoffe ich konnte helfen.

Nur um sicher zu sein: Die Zeichenfolge nach der Konvertierung wird noch UTF-16, es enthält nur die UTF-8-Codierung von Daten. Sie kann nicht mit strings mit der Codierung UTF-8, weil .NET immer die UTF-16-Codierung Behandlung von strings.

InformationsquelleAutor MEN

3

Was Sie zu sein scheint string falsch dekodiert aus einer anderen Codierung, wahrscheinlich code-Seite 1252, die UNS Windows-Standard. Hier ist, wie rückgängig, vorausgesetzt, dass keine weiteren Verluste. Ein Verlust, der nicht sofort ersichtlich ist die non-breaking space (U+geschützte Leerzeichen 00A0) am Ende der Zeichenfolge, die nicht angezeigt wird. Natürlich wäre es besser, die Daten zu Lesen-Quelle korrekt in den ersten Platz, aber vielleicht ist die Datenquelle gespeichert wurde, falsch zu beginnen.
```
using System;
using System.Text;

class Program
{
    static void Main(string[] args)
    {
        string junk = "dÃ©jÃ\xa0";  //Bad Unicode string

        //Turn string back to bytes using the original, incorrect encoding.
        byte[] bytes = Encoding.GetEncoding(1252).GetBytes(junk);

        //Use the correct encoding this time to convert back to a string.
        string good = Encoding.UTF8.GetString(bytes);
        Console.WriteLine(good);
    }
}
```
Ergebnis:
```
déjà
```
- sumple und stark! Dank
InformationsquelleAutor Mark Tolonen

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.