Wie behandeln utf-8-text mit Python 3?

Muss ich analysieren verschiedene text-Quellen und dann drucken /speichern es irgendwo.

Jedes mal, wenn ein nicht-ASCII-Zeichen vorgefunden wird, ich kann nicht richtig drucken, wie es wird in bytes konvertiert, und ich habe keine Ahnung, wie die korrekten Zeichen anzeigen.

(Ich bin ganz neu bei Python, ich komme aus der PHP, wo hatte ich keine utf-8-Probleme)

Folgende ist ein code-Beispiel:

#!/usr/bin/python
# -*- coding: utf-8 -*-

import codecs
import feedparser

url = "http://feeds.bbci.co.uk/japanese/rss.xml"
feeds = feedparser.parse(url)
title = feeds['feed'].get('title').encode('utf-8')

print(title)

file = codecs.open("test.txt", "w", "utf-8")
file.write(str(title))
file.close()

Ich würde gerne print-und in Datei schreiben Sie den RSS-Titel (BBC-Japanisch - ホーム), sondern stattdessen das Ergebnis ist dieses:

b'BBC Japanisch - \xe3\x83\x9b\xe3\x83\xbc\xe3\x83\xa0'

Sowohl auf Bildschirm und Datei. Gibt es eine richtige Weg, dies zu tun ?

InformationsquelleAutor Omiod | 2016-07-13

5

In Python ist3 bytes und str sind zwei verschiedene Arten - und str ist für jede Art von Strings (auch unicode), wenn Sie encode() etwas, konvertieren Sie es aus, es ist str Darstellung, um die es bytes Darstellung für eine bestimmte Codierung.

In Ihrem Fall, um die decodierten Zeichenfolgen, die Sie gerade benötigen, um die zu entfernen encode('utf-8') Teil:
```
#!/usr/bin/python
# -*- coding: utf-8 -*-

import codecs
import feedparser

url = "http://feeds.bbci.co.uk/japanese/rss.xml"
feeds = feedparser.parse(url)
title = feeds['feed'].get('title')

print(title)

file = codecs.open("test.txt", "w", encoding="utf-8")
file.write(title)
file.close()
```
- Danke Dean, aber in diesem Fall wird der print hat dieser Ausnahme, die ich gesehen hatte, aber nicht beheben konnte: UnicodeEncodeError: 'charmap' codec can T encode characters in position 15-17: Charakter-Karten auf <undefined>
- Welche python version benutzt du genau? Dies funktioniert für mich, auf die neueste version von python...
- Python-3.5.1 (v3.5.1:37a07cee5969, Jan 6 2015, 01:54:25) auf Windows
- Die Standard-Konsolen auf windows, sind nicht sehr freundlich zu den drucken von unicode-Zeichen. Ist der text in die Datei geschrieben, richtig?
- Du hast Recht, die Datei ist richtig geschrieben. Scheint einfacher als erwartet! Jetzt muss ich fix die Windows-Konsole Problem.
InformationsquelleAutor Dean Fenster

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.