Mit Javascript ist atob zu decodieren base64 nicht richtig Dekodieren von utf-8 strings

Ich bin mit der Javascript - window.atob() Funktion zum Dekodieren einer base64-kodierten string (speziell die base64-kodierten Inhalt aus dem GitHub-API). Problem ist, ich bin immer ASCII-codierte Zeichen zurück (wie â¢ statt ™). Wie kann ich die ordnungsgemäße Abwicklung der eingehenden base64-codierten stream, so dass es dekodiert utf-8?

Die MDN-Seite, die Sie verlinkt hat, ein Absatz, beginnend mit dem Satz "Für die Verwendung mit Unicode-oder UTF-8-strings".
Sind Sie auf Knoten? Es gibt bessere Lösungen als atob

InformationsquelleAutor brandonscript | 2015-05-07

175

Gibt es eine tolle Artikel auf Mozilla MDN docs, beschreibt genau dieses Problem:
Den "Unicode-Problem"
Da DOMStrings sind 16-bit-codierte Zeichenfolgen, die in den meisten Browsern aufrufen window.btoa auf eine Unicode-Zeichenfolge bewirkt, dass ein Character Out Of Range exception wenn ein Charakter überschreitet den Wertebereich einer 8-bit-byte (0x00~0xFF). Es gibt zwei mögliche Methoden, um dieses problem zu lösen:
- die erste ist, zu entkommen, der ganze string (UTF-8, siehe alsterrunde) und dann codieren;
- die zweite ist die Umwandlung von UTF-16 DOMString um eine UTF-8-array von Zeichen, und dann codieren.
Ein Hinweis auf die bisherigen Lösungen: der MDN-Artikel, ursprünglich vorgeschlagen unescape und escape zu lösen, die Character Out Of Range Ausnahme problem, aber seitdem wurden Sie als veraltet markiert. Einige andere Antworten hier vorgeschlagen haben, arbeiten, um dieses mit decodeURIComponent und encodeURIComponent, dies hat sich als unzuverlässig und unberechenbar. Das neueste update dieser Antwort benutzt moderne JavaScript-Funktionen, um die Geschwindigkeit zu erhöhen und zu modernisieren-code.

Wenn Sie versuchen, sparen Sie sich die Zeit, Sie könnten auch erwägen Sie die Verwendung einer Bibliothek:
- js-base64 (NPM, ideal für Node.js)
- base64-js
Encoding UTF8 ⇢ base64
```
function b64EncodeUnicode(str) {
    //first we use encodeURIComponent to get percent-encoded UTF-8,
    //then we convert the percent encodings into raw bytes which
    //can be fed into btoa.
    return btoa(encodeURIComponent(str).replace(/%([0-9A-F]{2})/g,
        function toSolidBytes(match, p1) {
            return String.fromCharCode('0x' + p1);
    }));
}

b64EncodeUnicode('✓ à la mode'); //"4pyTIMOgIGxhIG1vZGU="
b64EncodeUnicode('\n'); //"Cg=="
```
Decodieren von base64 ⇢ UTF8
```
function b64DecodeUnicode(str) {
    //Going backwards: from bytestream, to percent-encoding, to original string.
    return decodeURIComponent(atob(str).split('').map(function(c) {
        return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2);
    }).join(''));
}

b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU='); //"✓ à la mode"
b64DecodeUnicode('Cg=='); //"\n"
```
Die pre-2018-Lösung (funktional, und obwohl wahrscheinlich eine bessere Unterstützung für ältere Browser, die nicht up-to-date)

Hier ist die aktuelle Empfehlung, direkt aus MDN, mit einigen zusätzlichen Typoskript Kompatibilität via @MA-Maddin:
```
//Encoding UTF8 ⇢ base64

function b64EncodeUnicode(str) {
    return btoa(encodeURIComponent(str).replace(/%([0-9A-F]{2})/g, function(match, p1) {
        return String.fromCharCode(parseInt(p1, 16))
    }))
}

b64EncodeUnicode('✓ à la mode') //"4pyTIMOgIGxhIG1vZGU="
b64EncodeUnicode('\n') //"Cg=="

//Decoding base64 ⇢ UTF8

function b64DecodeUnicode(str) {
    return decodeURIComponent(Array.prototype.map.call(atob(str), function(c) {
        return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2)
    }).join(''))
}

b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU=') //"✓ à la mode"
b64DecodeUnicode('Cg==') //"\n"
```
Der ursprünglichen Lösung (veraltet)

Diese verwendet escape und unescape (die sind jetzt veraltet, obwohl diese noch funktioniert in allen modernen Browsern):
```
function utf8_to_b64( str ) {
    return window.btoa(unescape(encodeURIComponent( str )));
}

function b64_to_utf8( str ) {
    return decodeURIComponent(escape(window.atob( str )));
}

//Usage:
utf8_to_b64('✓ à la mode'); //"4pyTIMOgIGxhIG1vZGU="
b64_to_utf8('4pyTIMOgIGxhIG1vZGU='); //"✓ à la mode"
```
Und eine Letzte Sache: ich traf zuerst dieses problem beim aufrufen der GitHub API. Um diese arbeiten auf die (Mobile) Safari richtig, ich hatte tatsächlich zu entfernen, Leerzeichen aus dem base64-Quelle vor konnte ich noch entschlüsseln, die Quelle. Ob oder nicht, dies ist immer noch relevant, im Jahr 2017, ich weiß nicht:
```
function b64_to_utf8( str ) {
    str = str.replace(/\s/g, '');    
    return decodeURIComponent(escape(window.atob( str )));
}
```
w3schools.com/jsref/jsref_unescape.asp "Die unescape () - Funktion veraltet in der JavaScript-version 1.5. Verwenden decodeURI() oder decodeURIComponent() statt."
Sie rettete meine Tage, bro
Update: Lösung #1 in MDN "Unicode-Problem" wurde behoben, b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU='); jetzt richtig ausgegeben "✓ à la mode"
Ein anderer Weg, zu entschlüsseln wäre decodeURIComponent(atob('4pyTIMOgIGxhIG1vZGU=').split('').map(x => '%' + x.charCodeAt(0).toString(16)).join('')) Nicht die performanten code, aber es ist was es ist.
Die base64-js link ist tot?

InformationsquelleAutor brandonscript
14

Dinge zu ändern. Die escape/unescape Methoden wurden als veraltet markiert.

Können Sie URI Kodieren Sie die Zeichenfolge, bevor Sie die Base64-codieren. Beachten Sie, dass diese gar nicht produzieren, Base64-codiert in UTF8, sondern in Base64-kodierter URL-kodierte Daten. Beide Seiten müssen sich auf die gleiche Codierung.

Siehe Beispiel hier: http://codepen.io/anon/pen/PZgbPW
```
//encode string
var base64 = window.btoa(encodeURIComponent('€ 你好 æøåÆØÅ'));
//decode string
var str = decodeURIComponent(window.atob(tmp));
//str is now === '€ 你好 æøåÆØÅ'
```
Für OP ' s problem eine Drittanbieter-Bibliothek wie js-base64 sollte das problem lösen.

Ich möchte darauf hinweisen, dass Sie nicht die Herstellung der base64-der input-string, sondern auch seine codierte Komponente. Also, wenn Sie senden Sie es Weg, die andere Partei kann nicht entschlüsseln, es als "base64" und nutzen Sie die original-string
Sie sind richtig, ich habe aktualisiert die text-zu-Punkt, aus. Danke. Die alternative scheint zu sein, die Umsetzung base64 sich selbst, mit einer Drittanbieter-Bibliothek (wie z.B. js-base64) oder empfangen ("Error: Failed to execute 'btoa' auf 'Fenster': Der string kodiert werden, enthält Zeichen außerhalb des Latin1-Bereich."

InformationsquelleAutor Tedd Hansen

Wenn die Behandlung von strings als bytes mehr Ihre Sache ist, können Sie die folgenden Funktionen verwenden

function u_atob(ascii) {
    return Uint8Array.from(atob(ascii), c => c.charCodeAt(0));
}

function u_btoa(buffer) {
    var binary = [];
    var bytes = new Uint8Array(buffer);
    for (var i = 0, il = bytes.byteLength; i < il; i++) {
        binary.push(String.fromCharCode(bytes[i]));
    }
    return btoa(binary.join(''));
}


//example, it works also with astral plane characters such as '?'
var encodedString = new TextEncoder().encode('✓');
var base64String = u_btoa(encodedString);
console.log('✓' === new TextDecoder().decode(u_atob(base64String)))

Danke. Ihre Antwort war entscheidend, hilft mir diese Arbeit, die mir viele Stunden über mehrere Tage. +1. stackoverflow.com/a/51814273/470749

InformationsquelleAutor Riccardo Galli

Hier wird 2018 aktualisiert-Lösung, wie beschrieben, in der Mozilla-Development-Ressourcen

ZU KODIEREN VON UNICODE in B64

function b64EncodeUnicode(str) {
    //first we use encodeURIComponent to get percent-encoded UTF-8,
    //then we convert the percent encodings into raw bytes which
    //can be fed into btoa.
    return btoa(encodeURIComponent(str).replace(/%([0-9A-F]{2})/g,
        function toSolidBytes(match, p1) {
            return String.fromCharCode('0x' + p1);
    }));
}

b64EncodeUnicode('✓ à la mode'); //"4pyTIMOgIGxhIG1vZGU="
b64EncodeUnicode('\n'); //"Cg=="

ZU DEKODIEREN, die VON der B64 AUF UNICODE

function b64DecodeUnicode(str) {
    //Going backwards: from bytestream, to percent-encoding, to original string.
    return decodeURIComponent(atob(str).split('').map(function(c) {
        return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2);
    }).join(''));
}

b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU='); //"✓ à la mode"
b64DecodeUnicode('Cg=='); //"\n"

InformationsquelleAutor Manuel G

0

Kleine Korrektur, unescape und Flucht sind veraltet, so:
```
function utf8_to_b64( str ) {
    return window.btoa(decodeURIComponent(encodeURIComponent(str)));
}

function b64_to_utf8( str ) {
     return decodeURIComponent(encodeURIComponent(window.atob(str)));
}


function b64_to_utf8( str ) {
    str = str.replace(/\s/g, '');    
    return decodeURIComponent(encodeURIComponent(window.atob(str)));
}
```
Sieht aus wie die doc-link ist auch anders, als das hier jetzt, was eine regex-Lösung zu verwalten.
Das wird nicht funktionieren, weil encodeURIComponent ist die inverse von decodeURIComponent, d.h. es wird nur die Umwandlung rückgängig. Siehe stackoverflow.com/a/31412163/1534459 für eine große Erklärung dessen, was geschieht mit escape und unescape.
Ich verstehe nicht, Ihren Kommentar? escape-und unescape veraltet sind, habe ich Sie einfach tauschen diese mit [decode|encode]URIComponent Funktion 🙂 Alles wird gut funktionieren. Lesen Sie die erste Frage
Der Grund, warum encodeURIComponent verwendet wird, ist korrekt zu verarbeiten (die ganze Reihe) von unicode-Zeichenfolgen. So z.B. window.btoa(decodeURIComponent(encodeURIComponent('€'))) gibt Error: String contains an invalid character weil es das gleiche ist wie window.btoa('€') und btoa kann nicht codieren €.
Ja, das ist richtig. Aber Sie können nicht die swap-Flucht mit Alsterrunde und unescape mit DecodeURIComponent, weil die Codierung und die Flucht Methoden nicht das gleiche tun. Gleiche mit decode&unescape. Ich hatte ursprünglich den gleichen Fehler gemacht, btw. Sie sollten beachten, dass wenn Sie eine Zeichenfolge, UriEncode, dann UriDecode es, Sie bekommen den gleichen string zurück, das Sie eingegeben haben. So, dass wäre Unsinn. Wenn Sie unescape eine Zeichenkette kodiert werden, alsterrunde, Sie erhalten nicht die gleiche Zeichenfolge zurück, die Sie eingegeben, also mit escape/unescape es funktioniert, aber nicht mit Ihnen.

InformationsquelleAutor Darkves

Hier einige zukunftssicheren code für Browser, die möglicherweise fehlen escape/unescape(). Beachten Sie, dass IE 9 und älter unterstützen nicht atob/btoa(), so müssten Sie use custom base64-Funktionen für Sie.

//Polyfill for escape/unescape
if( !window.unescape ){
    window.unescape = function( s ){
        return s.replace( /%([0-9A-F]{2})/g, function( m, p ) {
            return String.fromCharCode( '0x' + p );
        } );
    };
}
if( !window.escape ){
    window.escape = function( s ){
        var chr, hex, i = 0, l = s.length, out = '';
        for( ; i < l; i ++ ){
            chr = s.charAt( i );
            if( chr.search( /[A-Za-z0-9\@\*\_\+\-\.\/]/ ) > -1 ){
                out += chr; continue; }
            hex = s.charCodeAt( i ).toString( 16 );
            out += '%' + ( hex.length % 2 != 0 ? '0' : '' ) + hex;
        }
        return out;
    };
}

//Base64 encoding of UTF-8 strings
var utf8ToB64 = function( s ){
    return btoa( unescape( encodeURIComponent( s ) ) );
};
var b64ToUtf8 = function( s ){
    return decodeURIComponent( escape( atob( s ) ) );
};

Ein umfassenderes Beispiel für UTF-8-Kodierung und-Dekodierung kann hier gefunden werden: http://jsfiddle.net/47zwb41o/

InformationsquelleAutor Beejor

einschließlich der oben genannten Lösung ist, wenn noch immer mit Problem versuchen, wie unten, Considerign der Fall, wo die Flucht wird nicht unterstützt für TS.

blob = new Blob(["\ufeff", csv_content]); //this will make symbols to appears in excel

für csv_content können Sie versuchen, wie unten.

function b64DecodeUnicode(str: any) {        
        return decodeURIComponent(atob(str).split('').map((c: any) => {
            return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2);
        }).join(''));
    }

InformationsquelleAutor Diwakar

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Encoding UTF8 ⇢ base64

Decodieren von base64 ⇢ UTF8

Die pre-2018-Lösung (funktional, und obwohl wahrscheinlich eine bessere Unterstützung für ältere Browser, die nicht up-to-date)

Der ursprünglichen Lösung (veraltet)