Parsen von nicht-standard-XML - (CDATA-tag)
Wenn ich will) bis zum Parsen von XML-Dokument mit Python Bibliothek BeautifulSoup,
Ich stellte mich vor einige Probleme. Das XML-Dokument, das ich will, zu analysieren:
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>
Wie Sie oben sehen können, der tag ist ein wenig seltsam. Meiner Meinung nach, dass( tag) ist keine stand-XML-form, richtig? Wie kann ich analysieren diese schreckliche form?
InformationsquelleAutor user513004 | 2011-10-16
Du musst angemeldet sein, um einen Kommentar abzugeben.
Brauchen Sie nicht BeautifulStoneSoup oder lxml. Python ist im Lieferumfang enthalten Batterien, die den job zu erledigen just fine, und es scheint nicht zu sein, alles, was nicht konform zu XML.
InformationsquelleAutor John Machin
Könnten Sie BeautifulSoup um XML zu Parsen:
Unter der Haube, BeautifulSoup verwendet lxml für das Parsen von XML.
Obwohl es hier nicht erforderlich, Sie könnte verwenden möchten lxml direkt, da es Ihnen kurz und bündig Möglichkeiten zur Navigation durch XML-Daten mithilfe von XPath:
UserWarning: Die BeautifulStoneSoup-Klasse ist veraltet. Anstelle der Verwendung von es, pass features="xml" in der BeautifulSoup-Konstruktor.
Aktualisiert meine Antwort zu verwenden BeautifulSoup4.
InformationsquelleAutor unutbu