Python-ElementTree-Modul: How to ignorieren Sie den namespace des XML-Dateien zu suchen von übereinstimmenden element bei Verwendung der Methode "find", "findall"

Möchte ich die Methode "findall" zu suchen, einige Elemente der Quell-xml-Datei in der ElementTree-Modul.

Jedoch das Quell-xml-Datei (test.xml) hat namespace. Ich truncate-Teil der xml-Datei als Beispiel:

<?xml version="1.0" encoding="iso-8859-1"?>
<XML_HEADER xmlns="http://www.test.com">
    <TYPE>Updates</TYPE>
    <DATE>9/26/2012 10:30:34 AM</DATE>
    <COPYRIGHT_NOTICE>All Rights Reserved.</COPYRIGHT_NOTICE>
    <LICENSE>newlicense.htm</LICENSE>
    <DEAL_LEVEL>
        <PAID_OFF>N</PAID_OFF>
        </DEAL_LEVEL>
</XML_HEADER>

Das Beispiel python code ist unten:

from xml.etree import ElementTree as ET
tree = ET.parse(r"test.xml")
el1 = tree.findall("DEAL_LEVEL/PAID_OFF") # Return None
el2 = tree.findall("{http://www.test.com}DEAL_LEVEL/{http://www.test.com}PAID_OFF") # Return <Element '{http://www.test.com}DEAL_LEVEL/PAID_OFF' at 0xb78b90>

Obwohl es funktioniert, weil es einen Namensraum "{http://www.test.com}", es ist sehr unbequem für einen namespace hinzuzufügen vor jedem tag.

Wie kann ich ignorieren Sie den Namensraum bei der Verwendung der Methode "find", "findall" und so weiter?

Ist tree.findall("xmlns:DEAL_LEVEL/xmlns:PAID_OFF", namespaces={'xmlns': 'http://www.test.com'}) bequem genug?
Dank sehr viel. Ich versuche Ihre Methode und es funktioniert. Es ist bequemer als meins aber es ist immer noch ein wenig umständlich. Wissen Sie, ob es gibt keine andere richtige Methode in der ElementTree-Modul um dieses Problem zu lösen, oder es gibt keine solche Methode überhaupt?

InformationsquelleAutor KevinLeng | 2012-11-16

47

Statt einer änderung des XML-Dokuments selbst, ist es am besten, zu analysieren und dann ändern Sie die tags in das Ergebnis. Auf diese Weise können Sie den Umgang mit mehreren namespaces und namespace-Aliase:
```
from StringIO import StringIO
import xml.etree.ElementTree as ET

# instead of ET.fromstring(xml)
it = ET.iterparse(StringIO(xml))
for _, el in it:
    if '}' in el.tag:
        el.tag = el.tag.split('}', 1)[1]  # strip all namespaces
root = it.root
```
Dies ist auf der Grundlage der Diskussion hier:
http://bugs.python.org/issue18304
- Diese. Diese diese diese. Mehrere Namen Räume waren, den Tod von mir.
- OK, das ist schön, und mehr erweiterte, aber noch ist es nicht et.findall('{*}sometag'). Und es ist auch mangeln die element-Baum selbst, nicht nur "die Suche ausführen, ignorieren von namespaces nur dieses eine mal, ohne re-Parsen das Dokument, etc, unter Beibehaltung der namespace-Informationen". Naja, für den Fall, dass Sie observably müssen Durchlaufen den Baum, und sehen Sie selbst, wenn die nodes Ihre Wünsche nach dem entfernen des Namespaces.
- Dies funktioniert durch das Strippen der string aber wenn ich speichern Sie die XML-Datei mit write(...) der Namensraum verschwindet aus dem betteln der XML xmlns="bla" verschwindet. Bitte um Rat
InformationsquelleAutor nonagon
44

Wenn Sie entfernen das xmlns-Attribut aus der xml-vor der Analyse ist es dann nicht ein namespace vorangestellt, um jeden tag in den Baum.
```
import re

xmlstring = re.sub(' xmlns="[^"]+"', '', xmlstring, count=1)
```
- +100, jemanden mint dieser Entwickler ein cryptocoin
- Just FYI, dies funktioniert nur auf python 2.x python 3.x-Wurf: TypeError: can ' T verwenden Sie ein string-Muster auf einem bytes-Objekt wie
- Dies funktioniert in vielen Fällen für mich, aber dann lief ich in mehreren namespaces und namespace-Aliasen. Siehe meine Antwort für einen anderen Ansatz behandelt diese Fälle.
- -1 die Bearbeitung von xml über einen regulären Ausdruck vor der Analyse einfach falsch. obwohl es könnte funktionieren, in einigen Fällen, dies sollte nicht die top-Antwort gestimmt und sollte nicht verwendet werden, die in einer professionellen Anwendung.
- href="http://stackoverflow.com/a/1732454/3680301">ER GEHT.
InformationsquelleAutor user2212280
19

Den Antworten, die bisher explizit setzen den namespace-Wert in das Skript. Für eine allgemeinere Lösung, würde ich lieber extrahieren Sie den namespace aus der xml:
```
import re
def get_namespace(element):
  m = re.match('\{.*\}', element.tag)
  return m.group(0) if m else ''
```
Und verwenden Sie es in der find-Methode:
```
namespace = get_namespace(tree.getroot())
print tree.find('./{0}parent/{0}version'.format(namespace)).text
```
- Zu viel, zu vermuten, dass es nur eine namespace
InformationsquelleAutor wimous

Hier ist eine Erweiterung, nonagon Antwort, die auch Streifen-namespaces off attributes:

from StringIO import StringIO
import xml.etree.ElementTree as ET

# instead of ET.fromstring(xml)
it = ET.iterparse(StringIO(xml))
for _, el in it:
    if '}' in el.tag:
        el.tag = el.tag.split('}', 1)[1]  # strip all namespaces
    for at in el.attrib.keys(): # strip namespaces of attributes too
        if '}' in at:
            newat = at.split('}', 1)[1]
            el.attrib[newat] = el.attrib[at]
            del el.attrib[at]
root = it.root

InformationsquelleAutor barny

6

Verbesserung auf die Antwort von ericspod:

Anstelle der änderung des parse-Modus weltweit können wir wickeln diese in ein Objekt, die Unterstützung der mit-Konstrukt.
```
from xml.parsers import expat

class DisableXmlNamespaces:
    def __enter__(self):
            self.oldcreate = expat.ParserCreate
            expat.ParserCreate = lambda encoding, sep: self.oldcreate(encoding, None)
    def __exit__(self, type, value, traceback):
            expat.ParserCreate = self.oldcreate
```
Diese können dann wie folgt verwendet werden
```
import xml.etree.ElementTree as ET
with DisableXmlNamespaces():
     tree = ET.parse("test.xml")
```
Die Schönheit dieses Weges ist, dass es sich nicht ändern kein Verhalten für die Ausgabe von code außerhalb der with-block. Ich landete diese nach Fehler erhalten Sie in andere Bibliotheken nach der Verwendung der version von ericspod was auch geschah zu verwenden expat.
- Das ist süß UND gesund! Meinen Tag gerettet! +1
InformationsquelleAutor lijat
3

Können Sie die elegante string formatieren konstruieren sowie:
```
ns='http://www.test.com'
el2 = tree.findall("{%s}DEAL_LEVEL/{%s}PAID_OFF" %(ns,ns))
```
oder, wenn du sicher bist, dass PAID_OFF erscheint nur in einer Ebene im Baum:
```
el2 = tree.findall(".//{%s}PAID_OFF" % ns)
```
InformationsquelleAutor tzp
1

Wenn Sie ElementTree und nicht cElementTree können Sie erzwingen, dass der Expat zu ignorieren namespace Verarbeitung durch den Austausch ParserCreate():
```
from xml.parsers import expat
oldcreate = expat.ParserCreate
expat.ParserCreate = lambda encoding, sep: oldcreate(encoding, None)
```
ElementTree versucht, Expat durch den Aufruf ParserCreate() bietet aber keine option, um keine namespace-separator-string, der obige code bewirkt, dass es zu ignorieren, aber seien Sie gewarnt, dies könnte brechen andere Dinge.
- Dies ist ein besserer Weg, als andere aktuelle Antworten, wie es hängt nicht von string-Verarbeitung
- In python 3.7.2 (und möglicherweise entweder früher) AFAICT ist es nicht mehr möglich, zu vermeiden, mit cElementTree, so kann diese Problemumgehung nicht möglich 🙁
- cElemTree ist veraltet, aber es ist Bespitzelung der Arten erfolgt mit C-Beschleuniger. Der C-code nicht aufrufen expat-also ja, diese Lösung ist gebrochen.
- es ist immer noch möglich, ElementTree.fromstring(s, parser=None) ich versuche zu pass-parser zu.
InformationsquelleAutor ericspod

Könnte ich zu spät sein für das, aber ich glaube nicht, dass re.sub ist eine gute Lösung.

Jedoch das umschreiben xml.parsers.expat funktioniert nicht für Python 3.x-Versionen,

Der Hauptschuldige ist der xml/etree/ElementTree.py siehe unten im Quellcode

# Import the C accelerators
try:
    # Element is going to be shadowed by the C implementation. We need to keep
    # the Python version of it accessible for some "creative" by external code
    # (see tests)
    _Element_Py = Element

    # Element, SubElement, ParseError, TreeBuilder, XMLParser
    from _elementtree import *
except ImportError:
    pass

Ist irgendwie traurig.

Die Lösung ist, um loszuwerden, der es zuerst.

import _elementtree
try:
    del _elementtree.XMLParser
except AttributeError:
    # in case deleted twice
    pass
else:
    from xml.parsers import expat  # NOQA: F811
    oldcreate = expat.ParserCreate
    expat.ParserCreate = lambda encoding, sep: oldcreate(encoding, None)

Getestet auf Python 3.6.

Versuchen try - Anweisung ist nützlich, falls Sie irgendwo in Ihrem code, den Sie laden oder importieren Sie ein Modul zweimal bekommen Sie einige seltsame Fehler, wie