Extrahieren von text aus XML mit python

Ich habe diese Beispiel-xml-Datei

<page>
  <title>Chapter 1</title>
  <content>Welcome to Chapter 1</content>
</page>
<page>
 <title>Chapter 2</title>
 <content>Welcome to Chapter 2</content>
</page>

Ich gerne extrahieren Sie den Inhalt des Titel-tags und content-tags.

Welche Methode ist gut um die Daten zu extrahieren, mit pattern-matching oder mit xml-Modul. Oder gibt es eine bessere Möglichkeit um die Daten zu extrahieren.

InformationsquelleAutor Sudeep | 2011-10-07

python xml

Gibt es bereits einen integrierten XML-Bibliothek, insbesondere ElementTree. Zum Beispiel:

>>> from xml.etree import cElementTree as ET
>>> xmlstr = """
... <root>
... <page>
...   <title>Chapter 1</title>
...   <content>Welcome to Chapter 1</content>
... </page>
... <page>
...  <title>Chapter 2</title>
...  <content>Welcome to Chapter 2</content>
... </page>
... </root>
... """
>>> root = ET.fromstring(xmlstr)
>>> for page in list(root):
...     title = page.find('title').text
...     content = page.find('content').text
...     print('title: %s; content: %s' % (title, content))
...
title: Chapter 1; content: Welcome to Chapter 1
title: Chapter 2; content: Welcome to Chapter 2

Wenn Sie denken, der Weihnachtsmann hat sich die Frage beantwortet zu Ihrer Zufriedenheit sein, bitte "akzeptieren", seine Antwort.
Ich mag diese Schnittstelle können Sie einen index in untergeordneten tags root[0][1][0]..., sowie einen iterator von beliebigen Knoten, gehe alle Kind-Knoten! list( root[0][1].itertext() )Super praktisch!

InformationsquelleAutor Santa

Ich persönlich bevorzuge Analyse mit xml.dom.minidom etwa so:

In [18]: import xml.dom.minidom

In [19]: x = """\
<root><page>
  <title>Chapter 1</title>
  <content>Welcome to Chapter 1</content>
</page>
<page>
 <title>Chapter 2</title>
 <content>Welcome to Chapter 2</content>
</page></root>"""

In [28]: doc = xml.dom.minidom.parseString(x)
In [29]: doc.getElementsByTagName("page")
Out[30]: [<DOM Element: page at 0x94d5acc>, <DOM Element: page at 0x94d5c8c>]

In [32]: [p.firstChild.wholeText for p in doc.getElementsByTagName("title") if p.firstChild.nodeType == p.TEXT_NODE]
Out[33]: [u'Chapter 1', u'Chapter 2']

In [34]: [p.firstChild.wholeText for p in doc.getElementsByTagName("content") if p.firstChild.nodeType == p.TEXT_NODE]
Out[35]: [u'Welcome to Chapter 1', u'Welcome to Chapter 2']

In [36]: for node in doc.childNodes:
             if node.hasChildNodes:
                 for cn in node.childNodes:
                     if cn.hasChildNodes:
                         for cn2 in cn.childNodes:
                             if cn2.nodeType == cn2.TEXT_NODE:
                                 print cn2.wholeText
Out[37]: Chapter 1
         Welcome to Chapter 1
         Chapter 2
         Welcome to Chapter 2

Wurzel ist nicht definiert?
root und doc sind die gleiche Sache in diesem Fall. Ich aktualisierte den code.

InformationsquelleAutor chown

Können Sie auch versuchen, diesen code zu extrahieren, Texte:

from bs4 import BeautifulSoup
import csv

data ="""<page>
  <title>Chapter 1</title>
  <content>Welcome to Chapter 1</content>
</page>
<page>
 <title>Chapter 2</title>
 <content>Welcome to Chapter 2</content>
</page>"""

soup = BeautifulSoup(data, "html.parser")

########### Title #############
required0 = soup.find_all("title")
title = []
for i in required0:
    title.append(i.get_text())

########### Content #############
required0 = soup.find_all("content")
content = []
for i in required0:
    content.append(i.get_text())

doc1 = list(zip(title, content))
for i in doc1:
    print(i)

Ausgabe:

('Chapter 1', 'Welcome to Chapter 1')
('Chapter 2', 'Welcome to Chapter 2')

InformationsquelleAutor Ashok Kumar Jayaraman

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.