Warum muss ich " b " kodiert einen string mit Base64?

Folgenden python-Beispiel, ich konvertieren einen string mit Base64:

>>> import base64
>>> encoded = base64.b64encode(b'data to be encoded')
>>> encoded
b'ZGF0YSB0byBiZSBlbmNvZGVk'

Aber, wenn ich verlassen sich die führenden b:

>>> encoded = base64.b64encode('data to be encoded')

Bekomme ich die folgende Fehlermeldung:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python32\lib\base64.py", line 56, in b64encode
   raise TypeError("expected bytes, not %s" % s.__class__.__name__)
   TypeError: expected bytes, not str

Warum ist das so?

Eigentlich alle Fragen, die Rückkehr "TypeError: expected bytes, nicht str" haben die gleiche Antwort.

InformationsquelleAutor dublintech | 2012-01-18

224

base64-Kodierung nimmt 8-bit-Binär-byte-Daten und kodiert Sie verwendet nur die Zeichen A-Z, a-z, 0-9, +, /* so kann es übertragen werden, über Kanäle, die nicht erhalten alle 8-bit-Daten, wie E-Mail.

Daher, will Sie eine Zeichenfolge von 8-bit-bytes. Sie erstellen diese in Python 3 mit der b'' syntax.

Wenn Sie entfernen die b wird, wird es ein string. Eine Zeichenkette ist eine Folge von Unicode-Zeichen. base64 hat keine Ahnung, was zu tun mit Unicode-Daten, es ist nicht 8-bit. Es ist nicht wirklich alle bits, in der Tat. 🙂

In Ihrem zweiten Beispiel:
```
>>> encoded = base64.b64encode('data to be encoded')
```
Alle Charaktere passen perfekt in den ASCII-Zeichensatz, und die base64-Codierung ist daher eigentlich ein bisschen sinnlos. Sie können es zu konvertieren in ascii statt, mit
```
>>> encoded = 'data to be encoded'.encode('ascii')
```
Oder einfacher:
```
>>> encoded = b'data to be encoded'
```
Wäre die gleiche Sache in diesem Fall.

* Bei den meisten base64-Aromen können auch eine = am Ende als Polsterung. In einigen base64-Varianten verwenden möglicherweise andere Zeichen als + und /. Finden Sie die Varianten übersichtstabelle bei Wikipedia eine übersicht.

InformationsquelleAutor Lennart Regebro
139

Kurze Antwort

Müssen Sie drücken Sie eine bytes-like Objekt (bytes, bytearray, etc), um die base64.b64encode() Methode. Hier sind zwei Möglichkeiten:
```
>>> data = base64.b64encode(b'data to be encoded')
>>> print(data)
b'ZGF0YSB0byBiZSBlbmNvZGVk'
```
Oder mit einer Variablen:
```
>>> string = 'data to be encoded'
>>> data = base64.b64encode(string.encode())
>>> print(data)
b'ZGF0YSB0byBiZSBlbmNvZGVk'
```
Warum?

In Python 3, str Objekte sind nicht C-style Charakter-arrays (Sie sind also nicht byte-arrays), sondern es sind Daten-Strukturen, die nicht irgendwelche inhärenten Codierung. Kodieren Sie die Zeichenfolge (oder interpretieren) in einer Vielzahl von Möglichkeiten. Der häufigste (und Standard in Python 3) ist utf-8, vor allem, da es rückwärts kompatibel mit ASCII (obwohl, da sind die meisten weit verbreiteten Codierungen). Das ist das, was passiert, wenn Sie eine string aus und rufen Sie den .encode() Methode: Python ist die Interpretation der string in utf-8 (Standard-Codierung) und das array von bytes, entspricht.

Base-64 Encoding in Python 3

Ursprünglich der Frage-Titel gefragt Base-64-Codierung. Lesen Sie weiter für Base-64-stuff.

base64 Codierung dauert 6-bit-Binär-Blöcken und codiert Sie mit den Zeichen A-Z, a-z, 0-9, '+', '/', und '=' (einige Codierungen verwenden unterschiedlicher Zeichen anstelle von '+' und '/'). Dies ist ein Zeichensatz, der, basierend auf dem mathematischen Konstrukt der radix-64-oder base-64-Zahl-system, aber Sie sind sehr unterschiedlich. Base-64-in der Mathematik ist eine Zahl, die system wie dem Binär-oder dezimal -, und Sie machen diese änderung des radix auf die gesamte Zahl, oder (wenn das radix, das Sie konvertieren von eine Potenz von 2, die weniger als 64) in Blöcken von rechts nach Links.

In base64 Codierung, die übersetzung erfolgt von Links nach rechts; die ersten 64 Zeichen sind, warum es heißt base64 Codierung. Der 65 - ' = ' - symbol wird verwendet für die Polsterung, da die Kodierung zieht 6-bit-Blöcken, aber die Daten, die es in der Regel bedeutete, zu Kodieren, sind 8-bit-bytes, so gibt es manchmal nur zwei oder 4 bits in der letzten chunk.

Beispiel:
```
>>> data = b'test'
>>> for byte in data:
...     print(format(byte, '08b'), end=" ")
...
01110100 01100101 01110011 01110100
>>>
```
Wenn Sie interpretieren, dass die binären Daten als eine einzelne ganze Zahl, dann ist dies, wie würden Sie es konvertieren zu Basis 10 und Basis-64 (Tabelle für base-64 -):
```
base-2:  01 110100 011001 010111 001101 110100 (base-64 grouping shown)
base-10:                            1952805748
base-64:  B      0      Z      X      N      0
```
base64 Codierung, allerdings wird der re-Gruppe diese Daten wie folgt:
```
base-2:  011101  000110  010101 110011 011101 00(0000) <- pad w/zeros to make a clean 6-bit chunk
base-10:     29       6      21     51     29      0
base-64:      d       G       V      z      d      A
```
So, 'B0ZXN0" ist die base-64-version von unserem binäre, mathematisch gesprochen. Allerdings base64 Codierung zu tun hat, die Codierung in die entgegengesetzte Richtung (also die raw-Daten konvertiert 'dGVzdA') und hat auch in der Regel zu sagen, andere Anwendungen wie viel Platz ist Links off am Ende. Dies geschieht durch die Polsterung am Ende mit ' = ' - Zeichen. So, die base64 Codierung dieser Daten ist 'dGVzdA==', mit zwei '=' Zeichen zu bedeuten, die zwei Paare von bits benötigen, um entfernt werden, wenn diese Daten wird dekodiert, um ihn an den original-Daten.

Let ' s test zu sehen, wenn ich unehrlich:
```
>>> encoded = base64.b64encode(data)
>>> print(encoded)
b'dGVzdA=='
```
Warum base64 Codierung?

Sagen wir, ich habe, um Daten zu senden, um jemanden per E-Mail, wie diese Daten:
```
>>> data = b'\x04\x6d\x73\x67\x08\x08\x08\x20\x20\x20'
>>> print(data.decode())

>>> print(data)
b'\x04msg\x08\x08\x08   '
>>>
```
Gibt es zwei Probleme, die ich gepflanzt:
1. Wenn ich versuchte, Sie zu senden, die E-Mail im Unix -, die E-Mail schicken würden, sobald die \x04 Zeichen gelesen wurde, denn das ist ASCII für END-OF-TRANSMISSION (Strg-D), so werden die übrigen Daten werden aus der übertragung.
2. Auch wenn Python schlau genug ist, zu entfliehen diesem allen meiner böse-control-Zeichen, wenn ich drucken Sie die Daten direkt, wenn dieser string entschlüsselt ASCII, können Sie sehen, dass " msg " gibt es nicht. Das ist, weil ich drei BACKSPACE Zeichen und drei SPACE Zeichen zu löschen, die 'msg'. So, auch wenn ich nicht die EOF Charakter es dem Endbenutzer nicht in der Lage zu übersetzen, von der der text auf dem Bildschirm, um die real, raw-Daten.
Dies ist nur eine demo, Ihnen zu zeigen, wie schwer es sein kann, senden Sie einfach die raw Daten. Die Codierung der Daten in das base64-format erhalten Sie genau die gleichen Daten, aber in einem format, das sorgt sicher für den Versand über elektronische Medien wie E-Mail.
- base64.b64encode(s.encode()).decode() ist nicht sehr pythonic, wenn alle Sie wollen, ist ein string-zu-string-Konvertierung. base64.encode(s) genug sein sollte, mindestens in Python ist3. Vielen Dank für eine sehr gute Erklärung über strings und bytes in python
- Ja, es ist seltsam, aber auf der anderen Seite ist sehr deutlich, was passiert, solange der Ingenieur ist sich bewusst, der Unterschied zwischen arrays von bytes und strings, da gibt es nicht eine einzige Zuordnung (Kodierung) zwischen Ihnen, wie andere Sprachen übernehmen.
- Übrigens base64.encode(s) würde nicht funktionieren in Python ist3; Sie sagen, dass so etwas verfügbar sein sollte? Ich denke, der Grund, es könnte verwirrend sein, ist, dass, abhängig von der Codierung und der Inhalt der Zeichenfolge s vielleicht nicht 1 eindeutige Darstellung als array von bytes.
- Schmitt: es war nur ein Beispiel, wie einfach es sein sollte. die häufigsten usecases sollte so sein.
InformationsquelleAutor Greg Schmit
31

Wenn die kodierten Daten enthält, die "exotischen" Zeichen, ich denken, Sie haben zu Kodieren, in "UTF-8"
```
encoded = base64.b64encode (bytes('data to be encoded', "utf-8"))
```
InformationsquelleAutor Alecz

Wenn der string Unicode ist der einfachste Weg ist:

import base64                                                        

a = base64.b64encode(bytes(u'complex string: ñáéíóúÑ', "utf-8"))

# a: b'Y29tcGxleCBzdHJpbmc6IMOxw6HDqcOtw7PDusOR'

b = base64.b64decode(a).decode("utf-8", "ignore")                    

print(b)
# b :complex string: ñáéíóúÑ

InformationsquelleAutor alfredocambera

12

Gibt es alles was Sie brauchen:
```
expected bytes, not str
```
Den führenden b macht Ihren string binären.

Welche Python version nutzt du? 2.x oder 3.x?

Edit: Sehen http://docs.python.org/release/3.0.1/whatsnew/3.0.html#text-vs-data-instead-of-unicode-vs-8-bit für die blutigen details von strings in Python 3.x
- Danke, ich bin mit, 3.x. Warum funktioniert die Python umwandeln will ausdrücklich auf binäre. Das gleiche in Ruby wäre... erfordert > "base64" und dann > Base64.encode64('Daten kodiert werden,')
- Weil die (unicode -) text unterscheidet sich von raw-Daten. Wenn Sie wollten zum codieren eines text-string in Base64 kodiert ist, müssen Sie zuerst bestimmen den Charakter encoding (wie UTF-8) und dann haben Sie bytes, sondern Zeichen, dass man codieren kann in einem text-ascii-safe-form.
- Dies beantwortet nicht die Frage. Er weiß, es funktioniert mit einem bytes-Objekt, aber nicht ein string-Objekt. Die Frage ist warum.
- Standard-Python ist3 string encoding ist UTF, weiß nicht, warum es muss explizit festgelegt werden.
InformationsquelleAutor
0

Dass b bedeutet einfach, Sie sind unter input als Byte oder Byte-array und nicht als string.

InformationsquelleAutor Atul6.Singh

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Kurze Antwort

Warum?

Base-64 Encoding in Python 3

Warum base64 Codierung?

Warum `base64` Codierung?