Konvertieren io.BytesIO io.StringIO zum Parsen der HTML-Seite
Ich versuche zu Parsen einer HTML-Seite, die ich abgerufen durch pyCurl aber die pyCurl WRITEFUNCTION ist Rückkehr die Seite als BYTES und nicht als string, so bin ich nicht Analysieren, es mit BeautifulSoup.
Gibt es eine Möglichkeit, zu konvertieren io.BytesIO io.StringIO?
Oder gibt es eine andere Möglichkeit zum Parsen der HTML-Seite?
Ich bin mit Python 3.3.2.
funktioniert der naive Ansatz, von der anstrengenden
BytesIO
und dann den Bau einer StringIO
aus dem output nicht zufrieden sind Ihre Einschränkungen?InformationsquelleAutor Shipra | 2014-07-04
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ein naiver Ansatz:
ah ja, ich nahm Ihre
BytesIO
war am Anfang des Streams.getvalue
Ich glaube, dass sollte funktionieren, egal wo Sie sind 🙂Normalerweise müssten Sie anrufen
bytes_io.seek(0)
bevor die read () - Aufruf. @AnthonySottile erwähnt,getvalue
herum.InformationsquelleAutor Anthony Sottile
den code in der akzeptierten Antwort tatsächlich liest aus dem stream komplett für die Decodierung. Unten ist der richtige Weg, der Umwandlung von einem stream zu einem anderen, wo die Daten gelesen werden können, werden chunk für chunk.
InformationsquelleAutor kakarukeys