Python: Extrahieren von Informationen aus xml-Wörterbuch

Muss ich extrahieren von Informationen aus einer xml-Datei zu isolieren, es von der xml-tags vor und nach dem speichern die Informationen in einem Wörterbuch, dann eine Schleife über das dictionary zum drucken einer Liste. Ich bin ein absoluter Anfänger, also ich möchte zu halten es so einfach wie möglich und ich entschuldige mich, wenn, wie ich beschrieben habe, was ich gerne machen würde, macht nicht viel Sinn.

hier ist was ich habe, so weit.

for line in open("/people.xml"):
if "name" in line:
    print (line)
if "age" in line:
    print(line)

Aktuellen Ausgabe:

     <name>John</name>

  <age>14</age>

    <name>Kevin</name>

  <age>10</age>

    <name>Billy</name>

  <age>12</age>

Gewünschte Ausgabe

Name          Age
John          14
Kevin         10
Billy         12

Bearbeiten - Also mit dem code unten bekomme ich die Ausgabe:

{'Billy': '12', 'John': '14', 'Kevin': '10'}

Weiß jemand, wie man von diesem zu einem Diagramm mit Headern wie meine gewünschte Ausgabe?

Sie sollten mit xml.dom. Diese machen Ihr Leben viel einfacher.
Ich brauchen, um mit python, ich bin speziell mit LEERLAUF auf einem mac.

InformationsquelleAutor user1975140 | 2013-01-14

versuchen xmldict (Konvertieren von xml in python dictionaries, und Umgekehrt.):

>>> xmldict.xml_to_dict('''
... <root>
...   <persons>
...     <person>
...       <name first="foo" last="bar" />
...     </person>
...     <person>
...       <name first="baz" last="bar" />
...     </person>
...   </persons>
... </root>
... ''')
{'root': {'persons': {'person': [{'name': {'last': 'bar', 'first': 'foo'}}, {'name': {'last': 'bar', 'first': 'baz'}}]}}}


# Converting dictionary to xml 
>>> xmldict.dict_to_xml({'root': {'persons': {'person': [{'name': {'last': 'bar', 'first': 'foo'}}, {'name': {'last': 'bar', 'first': 'baz'}}]}}})
'<root><persons><person><name><last>bar</last><first>foo</first></name></person><person><name><last>bar</last><first>baz</first></name></person></persons></root>'

oder versuchen xmlmapper (Liste von python-dictionary mit Eltern-Kind-Beziehung):

  >>> myxml='''<?xml version='1.0' encoding='us-ascii'?>
          <slideshow title="Sample Slide Show" date="2012-12-31" author="Yours Truly" >
          <slide type="all">
              <title>Overview</title>
              <item>Why
                  <em>WonderWidgets</em>
                     are great
                  </item>
                  <item/>
                  <item>Who
                  <em>buys</em>
                  WonderWidgets1
              </item>
          </slide>
          </slideshow>'''
  >>> x=xml_to_dict(myxml)
  >>> for s in x:
          print s
  >>>
  {'text': '', 'tail': None, 'tag': 'slideshow', 'xmlinfo': {'ownid': 1, 'parentid': 0}, 'xmlattb': {'date': '2012-12-31', 'author': 'Yours Truly', 'title': 'Sample Slide Show'}}
  {'text': '', 'tail': '', 'tag': 'slide', 'xmlinfo': {'ownid': 2, 'parentid': 1}, 'xmlattb': {'type': 'all'}}
  {'text': 'Overview', 'tail': '', 'tag': 'title', 'xmlinfo': {'ownid': 3, 'parentid': 2}, 'xmlattb': {}}
  {'text': 'Why', 'tail': '', 'tag': 'item', 'xmlinfo': {'ownid': 4, 'parentid': 2}, 'xmlattb': {}}
  {'text': 'WonderWidgets', 'tail': 'are great', 'tag': 'em', 'xmlinfo': {'ownid': 5, 'parentid': 4}, 'xmlattb': {}}
  {'text': None, 'tail': '', 'tag': 'item', 'xmlinfo': {'ownid': 6, 'parentid': 2}, 'xmlattb': {}}
  {'text': 'Who', 'tail': '', 'tag': 'item', 'xmlinfo': {'ownid': 7, 'parentid': 2}, 'xmlattb': {}}
  {'text': 'buys', 'tail': 'WonderWidgets1', 'tag': 'em', 'xmlinfo': {'ownid': 8, 'parentid': 7}, 'xmlattb': {}}

obige code generator geben. Beim iterieren über Sie; Sie bekommen Informationen dict Tasten; wie tag, text, xmlattb,tail und zusätzliche Informationen in xmlinfo. Hier root element parentid Informationen wie 0.

die xmldict habe Fehler, >>> xml_to_dict("'<i type="alle"><t>Liebe</B></i>"') produziert, {'i': {'t': 'Liebe'}}. Das Attribut type="alle" Weg war.

InformationsquelleAutor namit

1

Verwenden Sie ein XML-parser für diese. Zum Beispiel,
```
import xml.etree.ElementTree as ET
doc = ET.parse('people.xml')
names = [name.text for name in doc.findall('.//name')]
ages = [age.text for age in doc.findall('.//age')]
people = dict(zip(names,ages))
print(people)
# {'Billy': '12', 'John': '14', 'Kevin': '10'}
```
- Dies hat nicht funktioniert, bekam ich eine Fehlermeldung, endend mit ParseError: junk after document element: line 44, Spalte 0
- Poste bitte die ersten 45 Zeilen von Ihr people.xml Datei.
- Ok, es war ein Fehler in Zeile 45, die ich behoben, jetzt kann ich die Ausgabe {'Billy': '12', 'John': '14', 'Kevin': '10'}, aber ich muss es in den Spalten, wie in dem format an der Spitze, mit Header. Ich denke, dass meine Verwendung der Wort-Liste wurde möglicherweise verwirrend, aber wie bekomme ich diese Daten in Spalten?
InformationsquelleAutor unutbu
0

Es scheint mir, dass dies ist eine übung um zu lernen, wie zu Parsen dieses XML-manuell statt Sie einfach ziehen Sie eine Bibliothek aus der Tasche, um es für Sie tun. Wenn ich falsch bin, schlage ich vor, beobachten die udacity-video von Steve Huffman, die hier gefunden werden kann: http://www.udacity.com/view#Course/cs253/CourseRev/apr2012/Unit/362001/Nugget/365002. Er erläutert, wie die minidom-Modul zum analysieren lightweight xml-Dateien wie diese.

Nun, der erste Punkt, den ich machen will in meiner Antwort, ist, dass Sie nicht wollen, erstellen Sie ein python-dictionary drucken alle diese Werte. Ein python-dictionary ist einfach eine Reihe von Tasten, die entsprechen Werte. Es ist keine Bestellung von Ihnen, und so traversal in der Reihenfolge, wie Sie erschienen in der Datei ist ein Schmerz in den Hintern. Sie versuchen, zu drucken Sie alle Namen, die zusammen mit dem entsprechenden Alter, also eine Datenstruktur wie eine Liste von Tupeln wäre wahrscheinlich besser geeignet sein, um sammeln Ihre Daten.

Scheint es, wie die Struktur der xml-Datei ist, dass jeder name-tag ist es gelungen, durch eine Alter-tag, das dem entspricht. Es scheint auch nur einen einzigen Namen pro Zeile. Das macht die Sache ziemlich einfach. Ich werde nicht schreiben, die meisten effiziente und Universelle Lösung für dieses problem, aber stattdessen werde ich versuchen, den code so einfach zu verstehen wie ich kann.

Lassen Sie uns also zuerst eine Liste erstellen, um die Daten zu speichern:

Dann wollen wir uns mal eine Liste erstellen, um die Daten zu speichern:
a_list = []

Nun öffnen Sie die Datei und initialisieren Sie ein paar Variablen zu halten, jeder name und Alter:
```
from __future__ import with_statement

with open("/people.xml") as f:
    name, age = None, None #initialize a name and an age variable to be used during traversals.
    for line in f:
        name = extract_name(line,name) # This function will be defined later.
        age = extract_age(line) # So will this one.
        if age: #We know that if age is defined, we can add a person to our list and reset our variables
            a_list.append( (name,age) ) # and now we can re-initialize our variables.
            name,age = None , None # otherwise simply read the next line until age is defined.
```
Nun für jede Zeile in der Datei, die wir wollten, um zu bestimmen, ob es einen Benutzer enthält. Wenn es funktionierte, wollten wir extrahieren den Namen. Wir erstellen eine Funktion, um dies zu tun:
```
def extract_name(a_line,name): #we pass in the line as well as the name value that that we defined before beginning our traversal.
    if name: # if the name is predefined, we simply want to keep the name at its current value. (we can clear it upon encountering the corresponding age.)
        return name
    if not "<name>" in a_line: #if no "<name>" in a_line, return. otherwise, extract new name.
        return
    name_pos = a_line.find("<name>")+6
    end_pos = a_line.find("</name>")
    return a_line[name_pos:end_pos]
```
Nun, wir müssen eine Funktion zum Parsen der Zeile für das Alter des Benutzers. Wir können dies tun, in einer ähnlichen Weise zur vorherigen Funktion, aber wir wissen, dass, sobald wir haben ein Alter, wird es Hinzugefügt in der Liste sofort. Als solche, die wir nie brauchen, beschäftigen uns mit zunehmendem Alter den vorherigen Wert. Die Funktion kann daher wie folgt Aussehen:
```
def extract_age(a_line):
    if not "<age>" in a_line: #if no "<age>" in a_line:
        return
    age_pos = a_line.find("<age>")+5 # else extract age from line and return it.
    end_pos = a_line.find("</age>")
    return a_line[age_pos:end_pos]
```
Schließlich möchten Sie zum drucken der Liste. Sie könnte es tun, wie folgt:
```
for item in a_list:
    print '\t'.join(item)
```
Hoffe, dass dies geholfen. Ich habe nicht getestet, mein code, so könnte es noch etwas buggy. Die Konzepte sind da, aber. 🙂
- alles gut, bis return line[name_pos:end_pos], wo es heißt 'return' außerhalb der Funktion, wenn ich eingerückt bekomme ich "unexpected indent', bei der Abgabe einen Doppelpunkt am Ende der vorherigen Zeile, bekomme ich 'invalid syntax'. Ich fürchte, dass ist alles, was ich wissen, um zu versuchen, für diese.
- Hoppla, ein kleiner Fehler. in jedem der Funktion Definitionen, werden Sie wollen, ersetzen Sie jede Instanz von "line" mit "a_line". Machen Sie die änderungen, um meinen code nun. Auch, stellen Sie sicher, dass Sie konsequent entweder die Verwendung von vier Leerzeichen oder ein einzelnes tab zum Einrücken von code. Manchmal python Compiler nicht sehen Sie als gleichwertig.
- auch, aufgefallen, dass ich bestanden hatte zwei Elemente, die eher als ein Tupel in den join-parameter. Dieser Fehler sollte auch behoben werden.
- Dumm nachzubilden, Dinge, die bereits existieren und wurden gründlich ausgetestet. Vielleicht interessant als eine Akademische übung, sondern fast immer die falsche Sache zu tun, in der realen Welt der Arbeit getan.
InformationsquelleAutor Master_Yoda

Hier ist ein weiterer Weg, mit lxml Bibliothek:

from lxml import objectify


def xml_to_dict(xml_str):
    """ Convert xml to dict, using lxml v3.4.2 xml processing library, see http://lxml.de/"""
    def xml_to_dict_recursion(xml_object):
        dict_object = xml_object.__dict__
        if not dict_object:  # if empty dict returned
            return xml_object
        for key, value in dict_object.items():
            dict_object[key] = xml_to_dict_recursion(value)
        return dict_object
    return xml_to_dict_recursion(objectify.fromstring(xml_str))

xml_string = """<?xml version="1.0" encoding="UTF-8"?><Response><NewOrderResp>
<IndustryType>Test</IndustryType><SomeData><SomeNestedData1>1234</SomeNestedData1>
<SomeNestedData2>3455</SomeNestedData2></SomeData></NewOrderResp></Response>"""

print xml_to_dict(xml_string)

Zur Erhaltung des übergeordneten Knotens, diese stattdessen zu verwenden:

def xml_to_dict(xml_str):
    """ Convert xml to dict, using lxml v3.4.2 xml processing library, see http://lxml.de/"""
    def xml_to_dict_recursion(xml_object):
        dict_object = xml_object.__dict__
        if not dict_object:  # if empty dict returned
            return xml_object
        for key, value in dict_object.items():
            dict_object[key] = xml_to_dict_recursion(value)
        return dict_object
    xml_obj = objectify.fromstring(xml_str)
    return {xml_obj.tag: xml_to_dict_recursion(xml_obj)}

Und wenn Sie wollen, liefern nur einen Teilbaum und konvertieren Sie es in dict, können Sie Element.finden() :

xml_obj.find('.//')  # lxml.objectify.ObjectifiedElement instance

Sehen lxml-Dokumentation.

InformationsquelleAutor radtek

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.