unicode Binär?

In Javascript, wie kann ich konvertieren von BMP unicode-Zeichen in binäre (und zurück)?

Ich kann nicht scheinen zu finden, built-in string-Methode binaryCharCodeAt() kommt soetwas existieren?

Wenn nicht, meine Vermutung, wie es manuell zu tun wäre, um erstellen Sie ein array, zum Beispiel [00001111], [00001110], [00001100] und so weiter...

Dann bekommen binäre, könnte ich myArray[String.charCodeAt(j)]

Dann von Binär in unicode, ich konnte Suche dem array für ein Binär-string, der Rückkehr seine position in dem array, und legen Sie, dass in String.fromCharCode()

In diesem Fall, diese binäre codes sind willkürlich zugewiesen, und nicht die richtigen sind für jeden Charakter. Aber das ist ok.. (obwohl korrekt wäre bevorzugt) brauche ich nur jedem binären.

Das problem, das ich sehe ist, zu suchen, ein array mit 65000+ Objekte, Hunderte oder Tausende Male, könnte am Ende kostet eine Menge Rechenzeit.

So ist, gibt es eine bereits bestehende Methode oder der Bibliothek, oder können Sie mir einen besseren Weg, um dies manuell zu tun?

was meinst du mit BMP-unicode-Zeichen?
en.wikipedia.org/wiki/Plane_(Unicode)#Basic_Multilingual_Plane
Und was ist falsch mit String.fromCharCode( "a".charCodeAt(0) ).

InformationsquelleAutor monkey blot | 2012-04-25

1

Tun, beachten Sie, dass es nicht ganz korrekt zu sagen, "Binär-und zurück", weil die unicode-Zeichen nicht brauchen, um eine einzigartige binäre Darstellung (es hängt von der Kodierung z.B. UTF-8). Aber ich glaube, die meisten von UTF -... - Codierungen sind rückwärts-kompatibel mit jedem anderen in Bezug auf binäre Codierungen.

Aber da du sagtest, dass du egal mit welchem encoding Sie verwenden, können Sie genau das tun, was Kolink sagte (seine Antwort war falsch downvoted, aber war auch nicht vollständig):

edit: Als Esailija Punkte aus, die OP war nur daran interessiert, die basic multilingual plane Zeichen, die nur einen codepoint. Der code unten ist auch zuviel, obwohl noch Arbeit auf beiden BMP-und nicht-BMP-codepoints.

"some string".charCodeAt gibt Sie der Fluch des codepoints von einigen Kodierung. In meinem Fall ist es UTF-16:
```
"?".charCodeAt(0)==55356
"?".charCodeAt(1)==56513
```
In UTF-16 dies ist 0xF0 0x9F 0x83 0x81 (f09f8381), oder "\uD83C\uDCC1":
```
"\uD83C\uDCC1"=="?"
```
Können Sie nicht einfach davon ausgehen, dass charCodeAt geben Sie die Nummer, die Sie wollen, ohne eine gewisse Menge an Arbeit. Unicode ist ein variable-width-encoding. Daher können Sie das folgende tun, um eine selbst-konsistente Ergebnis.
```
var UTF_BITS = 16;

function padLeftTo(string, padChar, numChars) {
    return (new Array(numChars-string.length+1)).join(padChar) + string;
}

function unicodeToBinary(char) {
    return char.split('').map(function(codepoint) {
        return padLeftTo(codepoint.charCodeAt(0).toString(2), 0, UTF_BITS);
    }).join('').split('').map(function(char){return parseInt(char)});
    //        ^^^^( ignore this part if you just want a string )^^^^
}

function binaryToUnicode(binaryList) {
    var codepointsAsNumbers = [];
    while( binaryList.length>0 ){
        var codepointBits = binaryList.slice(0,UTF_BITS);
        binaryList = binaryList.slice(UTF_BITS);
        codepointsAsNumbers.push( parseInt(codepointBits.join(''),2) );
    }
    return String.fromCharCode.apply(this,codepointsAsNumbers);
}
```
Demo:
```
> unicodeToBinary("?")
[1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1]

> binaryToUnicode(unicodeToBinary("?"))
"?"
```
Tun, beachten Sie, dass seit Sie nicht sagen, was Ihre Nutzung war der Fall, binäre möglicherweise nicht wirklich, was Sie wollen. Zum Beispiel, wenn Sie Inhalte mit eindeutigen Bezeichner, den Sie verwenden konnten, die Saiten selbst, oder als hex-string oder sogar integer-Darstellungen. Es ist viel wahrscheinlicher, Sie wollen eine einfachere Darstellung.

vollständige nebenbei bemerkt: Wenn Sie planen, ein Objekt zu verwenden, wie eine lookup-Tabelle, können Sie einfach die original-original-string "?" als Schlüssel, z.B. table={}; table["?"]='something'; table["?"]. Aber da gibt es 95156-Zeichen in den unicode-3.2-standard, ich würde nicht vorschlagen, tun so etwas in Erinnerung. Sie sagte auch etwas, was mich glaube, Sie waren nicht vertraut mit der Durchführung eines lookup-Tabelle: wenn Sie nicht bewusst waren, dauert es O(1) Zeit zu tun table[...].
- Die BMP-Zeichen sind immer bekommen, in einem einzigen .charCodeAt. Javascript verwendet UTF-16 (oder UCS2) durch Spezifikation. Sie können dies überprüfen, indem Sie ausführen var l = 0x10000; while( l-- ) { console.log( String.fromCharCode(l).charCodeAt(0) === l ); }
- ach, ich Dummerchen, danke. Ich vergaß, er wurde gefragt, über die BMP. Ich werde eine Nachricht hinterlassen.
- nebenbei habe ich noch keine Ahnung, was die op gefragt, aber dies scheint die beste Antwort bisher, also +1 😀
InformationsquelleAutor ninjagecko
-1

Verwenden charCodeAt erhalten die Dezimalzahl, dann rufen Sie toString(2) auf Sie zu konvertieren Sie es in binäre.
- Das ist nicht Binär, es ist ein string. Ein byte dargestellt .toString(2) form nimmt 16 Byte Speicher und Bedürfnisse string-manipulation zu umgehen... man konnte nicht mehr unwirksam, auch wenn er es versuchte.
- das ist eine unsachgemäße Grund, downvote, und string-manipulation scheint durchaus sinnvoll in diesem Zusammenhang.
- Die OP ' s Angst über die Einnahme eine Bearbeitung so viel Zeit müsste eigentlich gelten nur, wenn Sie die Verwendung von string-manipulation und Darstellung (Zum Beispiel Vertretung 0xFF als string "11111111"). Wenn er nicht erwähnt hat dies in seinem post würden Sie vermutlich Recht.
- Ich glaube, was der Autor zu erwähnen, beruht auf dem hypothetischen Beispiel der Tabelle-lookup-Ansatz. Ich bezweifle, dass er war tatsächlich benötigen, um Konstrukt wie einem array oder einer lookup-Tabelle als Teil seiner Anwendungslogik.
InformationsquelleAutor Niet the Dark Absol

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.