Parsen von nicht-standard-XML - (CDATA-tag)

Wenn ich will) bis zum Parsen von XML-Dokument mit Python Bibliothek BeautifulSoup,
Ich stellte mich vor einige Probleme. Das XML-Dokument, das ich will, zu analysieren:

<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>

Wie Sie oben sehen können, der tag ist ein wenig seltsam. Meiner Meinung nach, dass( tag) ist keine stand-XML-form, richtig? Wie kann ich analysieren diese schreckliche form?

InformationsquelleAutor user513004 | 2011-10-16

Brauchen Sie nicht BeautifulStoneSoup oder lxml. Python ist im Lieferumfang enthalten Batterien, die den job zu erledigen just fine, und es scheint nicht zu sein, alles, was nicht konform zu XML.

>>> content='''\
... <item>
... <title><![CDATA[Title Sample]]></title>
... <link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
... <time_start>2011-10-10 09:00:00</time_start>
... <time_end>2011-10-17 09:00:00</time_end>
... <price_original>35000</price_original>
... <price_now>20000</price_now>
... </item>'''
>>> import xml.etree.cElementTree as et
>>> foo = et.XML(content)
>>> for e in foo:
...     print e.tag, e.text, repr(e.tail)
...
title Title Sample '\n'
link None 'http://banhada.kr/?cateCode=09&viewCode=S0941580\n'
time_start 2011-10-10 09:00:00 '\n'
time_end 2011-10-17 09:00:00 '\n'
price_original 35000 '\n'
price_now 20000 '\n'
>>>

dieser arbeitete für mich auf XML, BeautifulSoup nicht bewältigen konnte!

InformationsquelleAutor John Machin

Könnten Sie BeautifulSoup um XML zu Parsen:

import bs4 as bs
content='''\
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>'''    

soup = bs.BeautifulSoup(content, 'xml')

title = soup.title
print(title.string)
# Title Sample

link = soup.link.nextSibling
print(link)
# http://banhada.kr/?cateCode=09&viewCode=S0941580

Unter der Haube, BeautifulSoup verwendet lxml für das Parsen von XML.
Obwohl es hier nicht erforderlich, Sie könnte verwenden möchten lxml direkt, da es Ihnen kurz und bündig Möglichkeiten zur Navigation durch XML-Daten mithilfe von XPath:

import lxml.etree as ET

content='''\
<item>
<title><![CDATA[Title Sample]]></title>
<link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]>
<time_start>2011-10-10 09:00:00</time_start>
<time_end>2011-10-17 09:00:00</time_end>
<price_original>35000</price_original>
<price_now>20000</price_now>
</item>'''    

doc = ET.fromstring(content)

title = doc.find('title')
print(title.text)
# Title Sample

link = doc.find('link')
print(link.tail)
# http://banhada.kr/?cateCode=09&viewCode=S0941580

Wow. Vielen Dank für Ihre kandness
UserWarning: Die BeautifulStoneSoup-Klasse ist veraltet. Anstelle der Verwendung von es, pass features="xml" in der BeautifulSoup-Konstruktor.
Aktualisiert meine Antwort zu verwenden BeautifulSoup4.

InformationsquelleAutor unutbu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.