Tag: lxml

lxml ist eine voll funktionsfähige, hohe Leistung Python-Bibliothek für die Verarbeitung von XML und HTML.

installieren Sie python + mechanize + lxml auf windows

Anzahl der Antworten 6 Antworten
Was ist der einfachste Weg zum installieren von python 2 plus lxml plus mechanisieren auf windows? Ich bin auf der Suche nach einer Lösung, die einfach zu Folgen und macht es auch einfach zu installieren andere Bibliotheken

Mit lxml, was bewirkt, dass ein “lxml.etree.XMLSyntaxError: das Dokument ist leer" - Fehler?

Anzahl der Antworten 2 Antworten
Ich bin mit mechanize/cookiejar/lxml, eine Seite zu Lesen und es funktioniert für einige, aber andere nicht. Die Fehler, die ich bin immer in Ihnen ist das in den Titel. Ich kann nicht posten den Seiten hier, weil

- Zeichencodierung von python ersetzen Sie "u2019' mit '

Anzahl der Antworten 1 Antworten
Ich habe versucht zahlreiche Wege zu Kodieren, das zu dem Ergebnis "BACK RUSHIN'" mit der wichtigste Charakter als das richtige Apostroph '. Ich würde wie ein Weg, um zu diesem Zweck mit einigen der eingebauten Funktionen von

BeautifulSoup - lxml und html5lib Parser Schaben Unterschiede

Anzahl der Antworten 2 Antworten
Ich bin mit BeautifulSoup 4 mit Python 2.7. Ich möchte zum extrahieren bestimmter Elemente aus einer website (Mengen, siehe das Beispiel unten). Für einige Grund, die lxml parser erlaubt mir nicht, zu extrahieren alle gewünschten Elemente von

AWS Lambda nicht den Import LXML

Anzahl der Antworten 4 Antworten
Ich bin versucht, das LXML-Modul innerhalb von AWS Lambda und hat kein Glück. Ich heruntergeladen LXML mit dem folgenden Befehl: pip install lxml -t folder Herunterladen, um es auf meine lambda-Funktion-Bereitstellung-Paket. Ich Zip den Inhalt meiner lambda-Funktion

Extrahieren von text aus einer Tabelle mit python und lxml

Anzahl der Antworten 3 Antworten
Vor kurzem sah ich, dass ein anderer user hatte eine Frage gestellt über das extrahieren von Informationen aus einer web-Tabelle Extrahieren von Informationen aus einer Webseite mit python. Die Antwort von ekhumoro funktioniert Super auf der Seite,

Holen Zeichenfolge abgestimmt html-tag mit Hilfe von xpath

Anzahl der Antworten 2 Antworten
Den html-code, der ist blind und Es enthält die Zeichenfolge "PREIS" in html. Dass teilweise string muss abgestimmt werden mit html-text.Wenn der text passt(teilweise übereinstimmung) mit Hilfe von xpath.Sollte es wieder die bestimmten html-Tags Weg. Hinweis: ich

python-lxml und iterparse Methode

Anzahl der Antworten 2 Antworten
Sagen, dass ich diese Beispiel-XML. <result> <field k='field1'> <value h='1'><text>text_value1</text></value> </field> <field k='field2'> <value><text>text_value2</text></value> </field> <field k='field3'> <value><text>some_text</text></value> </field> </result> Mithilfe von python-lxml, wie bekomme ich den Wert der einzelnen Felder für jedes Ergebnis gesetzt? Also im

lxml (oder lxml.html): print Baum-Struktur

Anzahl der Antworten 1 Antworten
Möchte ich drucken Sie die Baumstruktur ein etree (gebildet aus einem html-Dokument) in eine differenzierbare Art und Weise (bedeutet, dass zwei etrees ausdrucken sollten Sie anders). Was ich damit meine Struktur ist die "Form" des Baumes, die

Python, wie Streifen weiß-Leerzeichen aus dem xml-text Knoten

Anzahl der Antworten 5 Antworten
Ich habe eine xml-Datei wie folgt <Person> <name> My Name </name> <Address>My Address</Address> </Person> Den tag hat extra neue Leitungen, gibt es einen schnellen Pythonic Weg, um trim und generieren Sie eine neue xml. Fand ich dies,

Kann nicht installieren von lxml unter windows fatal error C1083: Cannot open include file: 'libxml/xmlversion.h'

Anzahl der Antworten 2 Antworten
Python noob, bitte Geduld mit mir. Ich verwendete python-installer v3.5.1 von www.python.org. Meine Absicht war Scrapy laufen einige Skripte. pip installieren, scrapy, scheiterten, da habe easy_install scrapy und andere. Ich verfolgte den Fehler auf eine fehlerhafte Installation

lxml-Fehler "IOError: Fehler beim Lesen der Datei" beim Parsen von facebook mobile in einem python-scraper-script

Anzahl der Antworten 1 Antworten
Verwende ich eine modifizierte Skript aus Einloggen in facebook mit python post : #!/usr/bin/python2 -u # -*- coding: utf8 -*- facebook_email = "[email protected]" facebook_passwd = "YOUR_PASSWORD" import cookielib, urllib2, urllib, time, sys from lxml import etree jar

Verschieben Sie ein ganzes element mit lxml.etree

Anzahl der Antworten 2 Antworten
Innerhalb von lxml, ist es möglich, da ein element zu verschieben, wird die ganze Sache an anderer Stelle in der xml-Dokument, ohne zu Lesen, es sind Kinder und es neu erstellen? Mein bestes Beispiel wäre das ändern

Parsen von xml mit python lxml Baum.xpath

Anzahl der Antworten 2 Antworten
Ich versuche zu analysieren, eine riesige Datei. Das Beispiel unten ist. Ich versuche <Name>, aber ich kann nicht Es funktioniert nur ohne diese Zeichenfolge <LevelLayout xmlns="http://schemas.datacontract.org/2004/07/ArcherTech.Common.Domain" xmlns:i="http://www.w3.org/2001/XMLSchema-instance">   xml2 = '''<?xml version="1.0" encoding="UTF-8"?> <PackageLevelLayout> <LevelLayouts> <LevelLayout levelGuid="4a54f032-325e-4988-8621-2cb7b49d8432">

Wie bekomme folgende Geschwister von einem etree._Element

Anzahl der Antworten 1 Antworten
Ich bin der Iteration über Elemente, die ich in eine xml-Datei, etwa so: for elem in fileasxml.xpath("//elementname[some condition]"): do something Nun statt do something möchte ich schreiben, das element, die ich gefunden habe und die ersten folgenden

lxml python 3.5

Anzahl der Antworten 2 Antworten
Ich versuche zu installieren, lxml auf windows. Ich bin mit python 3.5. Ich benutzte den win-installer nicht funktioniert. Es gibt mir eine Fehlermeldung Python 3.2 nicht gefunden. Ich benutze pip oder easy_install es versucht zu installieren und

Holen Sie inneren text von lxml

Anzahl der Antworten 1 Antworten
lxml.html-Code.fromstring besteht auf die Nachbereitung, alles in einem tag (p Standard). Von diesem tag Baum, <p>this is <b>the</b> good stuff<p> Möchte ich extrahieren Sie die Zeichenfolge: this is <b>the</b> good stuff Wie mache ich das? InformationsquelleAutor Jesvin

Ändern der Standard-Einrückung von etree.tostring in lxml

Anzahl der Antworten 1 Antworten
Ich habe ein XML-Dokument, das ich bin pretty-printing mit lxml.etree.tostring print etree.tostring(doc, pretty_print=True) Den Standard-level der Einrückung ist in 2 Bereiche und ich möchte dies ändern, um 4 Leerzeichen. Es gibt kein argument für diese in der

Dekodieren von base64-string in python 3 (mit lxml oder auch nicht)

Anzahl der Antworten 2 Antworten
Ich weiß, das sieht einfach peinlich, und ich denke, das problem ist, dass ich einfach nicht haben ein klares Verständnis von all diesem bytes-str-unicode - (und Codierung-Decodierung, offen gesagt) Sachen noch. Ich habe versucht, meine arbeiten zum

Wie man das parent-element von element?

Anzahl der Antworten 1 Antworten
Beispiel: test = label.find('image').attrib['url'] Wie man das parent-element von Bild ? InformationsquelleAutor Bdfy | 2011-10-17

Schöne Suppe und Tabelle Schaben - lxml vs html-parser

Anzahl der Antworten 1 Antworten
Ich versuche zu extrahieren den HTML-code eine Tabelle aus einer Webseite mit BeautifulSoup. <table class="facts_label" id="facts_table">...</table> Ich würde gerne wissen, warum der code Balg arbeitet mit der "html.parser" und prints zurück none wenn ich "html.parser" für "lxml".

Pretty print, in lxml ist zu Versagen, wenn ich tags hinzufügen, um einen geparsten Baum

Anzahl der Antworten 2 Antworten
Ich habe eine xml-Datei, dass ich mit etree von lxml, mit zu arbeiten, aber wenn ich tags hinzufügen, um es, pretty-printing scheint nicht zu funktionieren. >>> from lxml import etree >>> root = etree.parse('file.xml').getroot() >>> print etree.tostring(root,

Lxml-element der Gleichheit mit namespaces

Anzahl der Antworten 5 Antworten
Ich bin versucht, Lxml Parsen Sie den Inhalt ein .docx-Dokument. Ich verstehe, dass lxml ersetzt namespace-Präfixe mit den tatsächlichen namespace, jedoch dies macht es eine echte Schmerzen zu prüfen, welche Art von element-Tags ein, mit denen ich

Parsen von HTML-Tabelle mit LXML Python

Anzahl der Antworten 2 Antworten
Muss ich parse html-Tabelle mit der folgenden Struktur: <table class="table1" width="620" cellspacing="0" cellpadding="0" border="0"> <tbody> <tr width="620"> <th width="620">Smth1</th> ... </tr> <tr bgcolor="ffffff" width="620"> <td width="620">Smth2</td> ... </tr> <tr bgcolor="E4E4E4" width="620"> <td width="620">Smth3</td> ... </tr> <tr bgcolor="ffffff"

Kein Modul mit dem Namen 'lxml' Windows 8.1

Anzahl der Antworten 2 Antworten
Jeder code-online bezieht sich auf sudo apt-get #whatever# aber windows nicht über diese Funktion. Ich hörte von etwas namens Powershell, aber ich öffnete es und haben keine Ahnung, was es ist. Ich will einfach nur, um eine

lxml: tag einfügen an einer bestimmten position

Anzahl der Antworten 1 Antworten
Ich habe eine xml-Datei, ähnlich wie dieses: <tag attrib1='I'> <subtag1 subattrib1='1'> <subtext>text1</subtext> </subtag1> <subtag3 subattrib3='3'> <subtext>text3</subtext> </subtag3> </tag> Möchte ich fügen Sie ein neues Unterelement, so wird das Resultat wäre so etwas wie dies <tag attrib1='I'> <subtag1

XML-Deklaration standalone="yes" lxml

Anzahl der Antworten 5 Antworten
Ich habe ein xml, das ich am analysieren, so dass einige änderungen und speichern aus und in eine neue Datei. Es hat die Erklärung <?xml version="1.0" encoding="utf-8" standalone="yes"?> die ich behalten möchte. Wenn ich speichern meine neue

So ersetzen Sie den text innerhalb eines XML-Elements?

Anzahl der Antworten 1 Antworten
Angesichts der folgenden xml-Code: <!-- file.xml --> <video> <original_spoken_locale>en-US</original_spoken_locale> <another_tag>somevalue</another_tag> </video> Was wäre der beste Weg, Sie zu ersetzen den Wert innerhalb der <original_spoken_locale> tag? Wenn ich weiß, der Wert, die ich verwenden könnte, so etwas wie:

Erhalten Xpath dynamisch, mit ElementTree getpath()

Anzahl der Antworten 3 Antworten
Schreiben brauche ich eine dynamische Funktion, die feststellt, Elemente auf einer Teilstruktur eine ATOM-xml-durch den Aufbau dynamisch der XPath für das element. Zu tun, die ich geschrieben habe, so etwas wie dieses: tree = etree.parse(xmlFileUrl) e =

Entfernen Sie alle Stil, Skripts und html-tags aus einer html-Seite

Anzahl der Antworten 5 Antworten
Hier ist was ich habe, so weit: from bs4 import BeautifulSoup def cleanme(html): soup = BeautifulSoup(html) # create a new bs4 object from the html data loaded for script in soup(["script"]): script.extract() text = soup.get_text() return text

Das herausfiltern von bestimmten bytes in python

Anzahl der Antworten 4 Antworten
Ich bekomme diesen Fehler in meinem python-Programm: ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters Diese Frage, zufälliger text aus /dev/random einen Fehler auslösen, in lxml: Alle strings müssen

LXML: Cannot import etree

Anzahl der Antworten 2 Antworten
Ging ich zu dieser Seite heruntergeladen und die tar-Datei : http://pypi.python.org/pypi/lxml/2.3.4#downloads Kopiere ich dann die lxml-Ordner auf meine Python26/Lib-Ordner. Nun, wenn ich den interpreter und geben Sie from lxml import etree bekomme ich die Fehlermeldung: cannot import

Öffnen Sie diese XML-Datei zu erstellen dataframe in Python?

Anzahl der Antworten 3 Antworten
Hat jemand einen Vorschlag für den besten Weg, um öffnen Sie die xml-Daten auf der Webseite unten, um es in einem dataframe (ich arbeite lieber mit pandas), das in python? Die Datei ist auf der "Daten -

speichern einer 'lxml.etree._ElementTree' - Objekt

Anzahl der Antworten 3 Antworten
Ich habe in den letzten paar Tagen Griff zu bekommen mit den Grundlagen von lxml; insbesondere mit lxml.html zum analysieren von websites und erstellen Sie eine ElementTree der Inhalte. Im Idealfall möchte ich speichern Sie das zurückgegebene

Extrahieren href URL mit Python-Requests

Anzahl der Antworten 4 Antworten
Möchte ich extrahieren Sie die URL aus einem xpath-mit den Anfragen Paket in python. Ich kann den text aber nichts, ich versuchen, gibt die URL ein. Kann mir jemand helfen? ipdb> webpage.xpath(xpath_url + '/text()') ['Text of the

Import Fehler in python-lxml

Anzahl der Antworten 4 Antworten
Schrieb ich ein Skript einige Male vor, dass enthalten from lxml import etree Aber leider hat es nicht mehr funktioniert. Im Zweifel überprüfte ich die installation mit : sudo apt-get install python-lxml sudo pip install lxml sudo

XPath: wählen Sie die Tags mit leerem Wert

Anzahl der Antworten 3 Antworten
Wie ich finden kann, in XPath 1.0, die alle Zeilen mit leeren col name="POW"? <row> <col name="WOJ">02</col> <col name="POW"/> <col name="GMI"/> <col name="RODZ"/> <col name="NAZWA">DOLNOŚLĄSKIE</col> <col name="NAZDOD">województwo</col> <col name="STAN_NA">2011-01-01</col> </row> Ich habe versucht, viele Lösungen. Paar mal

Finden python-lxml-version

Anzahl der Antworten 6 Antworten
Wie finde ich die installierte python-lxml-version in einem Linux-system? >>> import lxml >>> lxml.__version__ Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'module' object has no attribute '__version__' >>> from pprint import pprint

wie verwende ich leere Namensräume, die in einem lxml xpath-Abfrage?

Anzahl der Antworten 2 Antworten
Ich habe ein xml-Dokument im folgenden format: <feed xmlns="http://www.w3.org/2005/Atom" xmlns:openSearch="http://a9.com/-/spec/opensearchrss/1.0/" xmlns:gsa="http://schemas.google.com/gsa/2007"> ... <entry> <id>https://ip.ad.dr.ess:8000/feeds/diagnostics/smb://ip.ad.dr.ess/path/to/file</id> <updated>2011-11-07T21:32:39.795Z</updated> <app:edited xmlns:app="http://purl.org/atom/app#">2011-11-07T21:32:39.795Z</app:edited> <link rel="self" type="application/atom+xml" href="https://ip.ad.dr.ess:8000/feeds/diagnostics"/> <link rel="edit" type="application/atom+xml" href="https://ip.ad.dr.ess:8000/feeds/diagnostics"/> <gsa:content name="entryID">smb://ip.ad.dr.ess/path/to/directory</gsa:content> <gsa:content name="numCrawledURLs">7</gsa:content> <gsa:content name="numExcludedURLs">0</gsa:content> <gsa:content name="type">DirectoryContentData</gsa:content> <gsa:content name="numRetrievalErrors">0</gsa:content> </entry> <entry>

Suche nach html-element mit der Klasse mit lxml

Anzahl der Antworten 3 Antworten
Ich habe überall gesucht und was ich am meisten gefunden wurde, Dok.xpath('//element[@class="classname"]'), aber das funktioniert nicht, egal was ich versuche. code, den ich verwende import lxml.html def check(): data = urlopen('url').read(); return str(data); doc = lxml.html.document_fromstring(check()) el

Effiziente Möglichkeit zum Durchlaufen von xml-Elementen

Anzahl der Antworten 4 Antworten
Habe ich eine xml wie diese: <a> <b>hello</b> <b>world</b> </a> <x> <y></y> </x> <a> <b>first</b> <b>second</b> <b>third</b> </a> Muss ich Durchlaufen alle <a> und <b> tags, aber ich weiß nicht, wie viele von Ihnen sind im Dokument.

In lxml, wie kann ich eine Markierung entfernen, aber Sie behalten alle Inhalte?

Anzahl der Antworten 2 Antworten
Das problem ist Folgendes: ich habe ein XML-fragment so: <fragment>text1 <a>inner1 </a>text2 <b>inner2</b> <c>t</c>ext3</fragment> Für das Ergebnis möchte ich alle entfernen <a>- und <c>-Tags, behalten aber Ihre (text)-Inhalt, und childnodes sind, wie Sie sind. Auch die <b>-Element

Das analysieren von xml mit lxml - Extrakt element Wert

Anzahl der Antworten 3 Antworten
Nehmen wir an, wir haben die XML-Datei mit der Struktur wie folgt. <?xml version="1.0" ?> <searchRetrieveResponse xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/zing/srw/http://www.loc.gov/standards/sru/sru1-1archive/xml-files/srw-types.xsd" xmlns="http://www.loc.gov/zing/srw/"> <records xmlns:ns1="http://www.loc.gov/zing/srw/"> <record> <recordData> <record xmlns=""> <datafield tag="000"> <subfield code="a">123</subfield> <subfield code="b">456</subfield> </datafield> <datafield tag="001"> <subfield code="a">789</subfield> <subfield

python-lxml installieren auf mac os 10.10.1

Anzahl der Antworten 2 Antworten
Kaufte ich ein neues macbook und ich bin so neu in mac os. Aber ich lese viel im internet über das installieren von Schrott Habe ich alles, aber ich habe ein problem mit der Installation von lxml

Multithreading für eine schnellere Download

Anzahl der Antworten 3 Antworten
Wie kann ich download mehrere links gleichzeitig? Mein Skript funktioniert aber nur downloads, ein zu einer Zeit, und es ist extrem langsam. Ich kann nicht herausfinden, wie zu integrieren multithreading in meinem Skript. Python-Skript: from BeautifulSoup import

bekomme Fehler beim import lxml.etree python

Anzahl der Antworten 3 Antworten
habe ich installiert eine lxml auf meinem mac, wenn ich in python wie diese localhost:lxml-3.0.1-apple$ python Python 2.7.3 (v2.7.3:70274d53c1dd, Apr 9 2012, 20:52:43) [GCC 4.2.1 (Apple Inc. bauen 5666) (Punkt 3)] on darwin Geben Sie "help", "copyright",

Python-lxml/schöne Suppe zu finden, alle links auf einer web-Seite

Anzahl der Antworten 4 Antworten
Ich Schreibe ein Skript zum Lesen einer web-Seite und bauen Sie eine Datenbank mit links, Spiele, die bestimmte Kriterien erfüllen. Jetzt bin ich stecken mit lxml und Verständnis, wie greifen Sie alle <a href>'s aus der html...

Erhalt 'ImportError: cannot import name etree' bei der Verwendung von lxml Python auf dem Mac

Anzahl der Antworten 2 Antworten
Ich Schwierigkeiten beim richtig der Installation von lxml Python auf dem Mac. Ich habe die Anweisungen befolgt hier, die nach der installation angibt, dass die installation erfolgreich ist (es gibt jedoch einige Warnhinweise. Das vollständige log der

Wie Pretty Print HTML in eine Datei, mit Einrückung

Anzahl der Antworten 9 Antworten
Ich bin mit lxml.html zu erzeugen einige HTML. Ich möchte pretty-print (mit Einrückung) meine endgültige Ergebnis in eine html-Datei. Wie mache ich das? Dies ist, was ich haben versucht, und habe bis jetzt (ich bin relativ neu

Analyse UTF-8/unicode-Zeichenfolgen mit lxml HTML

Anzahl der Antworten 1 Antworten
Habe ich versucht zu analysieren, mit etree.HTML() ein text als UTF-8 kodiert, ohne Erfolg. → python Python 2.7.1 (r271:86832, Jun 16 2011, 16:59:05) [GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwin Type