Tag: lxml
lxml ist eine voll funktionsfähige, hohe Leistung Python-Bibliothek für die Verarbeitung von XML und HTML.
6
Antworten
Was ist der einfachste Weg zum installieren von python 2 plus lxml plus mechanisieren auf windows? Ich bin auf der Suche nach einer Lösung, die einfach zu Folgen und macht es auch einfach zu installieren andere Bibliotheken
2
Antworten
Ich bin mit mechanize/cookiejar/lxml, eine Seite zu Lesen und es funktioniert für einige, aber andere nicht. Die Fehler, die ich bin immer in Ihnen ist das in den Titel. Ich kann nicht posten den Seiten hier, weil
1
Antworten
Ich habe versucht zahlreiche Wege zu Kodieren, das zu dem Ergebnis "BACK RUSHIN'" mit der wichtigste Charakter als das richtige Apostroph '. Ich würde wie ein Weg, um zu diesem Zweck mit einigen der eingebauten Funktionen von
2
Antworten
Ich bin mit BeautifulSoup 4 mit Python 2.7. Ich möchte zum extrahieren bestimmter Elemente aus einer website (Mengen, siehe das Beispiel unten). Für einige Grund, die lxml parser erlaubt mir nicht, zu extrahieren alle gewünschten Elemente von
4
Antworten
Ich bin versucht, das LXML-Modul innerhalb von AWS Lambda und hat kein Glück. Ich heruntergeladen LXML mit dem folgenden Befehl: pip install lxml -t folder Herunterladen, um es auf meine lambda-Funktion-Bereitstellung-Paket. Ich Zip den Inhalt meiner lambda-Funktion
3
Antworten
Vor kurzem sah ich, dass ein anderer user hatte eine Frage gestellt über das extrahieren von Informationen aus einer web-Tabelle Extrahieren von Informationen aus einer Webseite mit python. Die Antwort von ekhumoro funktioniert Super auf der Seite,
2
Antworten
Den html-code, der ist blind und Es enthält die Zeichenfolge "PREIS" in html. Dass teilweise string muss abgestimmt werden mit html-text.Wenn der text passt(teilweise übereinstimmung) mit Hilfe von xpath.Sollte es wieder die bestimmten html-Tags Weg. Hinweis: ich
2
Antworten
Sagen, dass ich diese Beispiel-XML. <result> <field k='field1'> <value h='1'><text>text_value1</text></value> </field> <field k='field2'> <value><text>text_value2</text></value> </field> <field k='field3'> <value><text>some_text</text></value> </field> </result> Mithilfe von python-lxml, wie bekomme ich den Wert der einzelnen Felder für jedes Ergebnis gesetzt? Also im
1
Antworten
Möchte ich drucken Sie die Baumstruktur ein etree (gebildet aus einem html-Dokument) in eine differenzierbare Art und Weise (bedeutet, dass zwei etrees ausdrucken sollten Sie anders). Was ich damit meine Struktur ist die "Form" des Baumes, die
5
Antworten
Ich habe eine xml-Datei wie folgt <Person> <name> My Name </name> <Address>My Address</Address> </Person> Den tag hat extra neue Leitungen, gibt es einen schnellen Pythonic Weg, um trim und generieren Sie eine neue xml. Fand ich dies,
2
Antworten
Python noob, bitte Geduld mit mir. Ich verwendete python-installer v3.5.1 von www.python.org. Meine Absicht war Scrapy laufen einige Skripte. pip installieren, scrapy, scheiterten, da habe easy_install scrapy und andere. Ich verfolgte den Fehler auf eine fehlerhafte Installation
1
Antworten
Verwende ich eine modifizierte Skript aus Einloggen in facebook mit python post : #!/usr/bin/python2 -u # -*- coding: utf8 -*- facebook_email = "
[email protected]" facebook_passwd = "YOUR_PASSWORD" import cookielib, urllib2, urllib, time, sys from lxml import etree jar
2
Antworten
Innerhalb von lxml, ist es möglich, da ein element zu verschieben, wird die ganze Sache an anderer Stelle in der xml-Dokument, ohne zu Lesen, es sind Kinder und es neu erstellen? Mein bestes Beispiel wäre das ändern
2
Antworten
Ich versuche zu analysieren, eine riesige Datei. Das Beispiel unten ist. Ich versuche <Name>, aber ich kann nicht Es funktioniert nur ohne diese Zeichenfolge <LevelLayout xmlns="http://schemas.datacontract.org/2004/07/ArcherTech.Common.Domain" xmlns:i="http://www.w3.org/2001/XMLSchema-instance"> xml2 = '''<?xml version="1.0" encoding="UTF-8"?> <PackageLevelLayout> <LevelLayouts> <LevelLayout levelGuid="4a54f032-325e-4988-8621-2cb7b49d8432">
1
Antworten
Ich bin der Iteration über Elemente, die ich in eine xml-Datei, etwa so: for elem in fileasxml.xpath("//elementname[some condition]"): do something Nun statt do something möchte ich schreiben, das element, die ich gefunden habe und die ersten folgenden
2
Antworten
Ich versuche zu installieren, lxml auf windows. Ich bin mit python 3.5. Ich benutzte den win-installer nicht funktioniert. Es gibt mir eine Fehlermeldung Python 3.2 nicht gefunden. Ich benutze pip oder easy_install es versucht zu installieren und
1
Antworten
lxml.html-Code.fromstring besteht auf die Nachbereitung, alles in einem tag (p Standard). Von diesem tag Baum, <p>this is <b>the</b> good stuff<p> Möchte ich extrahieren Sie die Zeichenfolge: this is <b>the</b> good stuff Wie mache ich das? InformationsquelleAutor Jesvin
1
Antworten
Ich habe ein XML-Dokument, das ich bin pretty-printing mit lxml.etree.tostring print etree.tostring(doc, pretty_print=True) Den Standard-level der Einrückung ist in 2 Bereiche und ich möchte dies ändern, um 4 Leerzeichen. Es gibt kein argument für diese in der
2
Antworten
Ich weiß, das sieht einfach peinlich, und ich denke, das problem ist, dass ich einfach nicht haben ein klares Verständnis von all diesem bytes-str-unicode - (und Codierung-Decodierung, offen gesagt) Sachen noch. Ich habe versucht, meine arbeiten zum
1
Antworten
Beispiel: test = label.find('image').attrib['url'] Wie man das parent-element von Bild ? InformationsquelleAutor Bdfy | 2011-10-17
1
Antworten
Ich versuche zu extrahieren den HTML-code eine Tabelle aus einer Webseite mit BeautifulSoup. <table class="facts_label" id="facts_table">...</table> Ich würde gerne wissen, warum der code Balg arbeitet mit der "html.parser" und prints zurück none wenn ich "html.parser" für "lxml".
2
Antworten
Ich habe eine xml-Datei, dass ich mit etree von lxml, mit zu arbeiten, aber wenn ich tags hinzufügen, um es, pretty-printing scheint nicht zu funktionieren. >>> from lxml import etree >>> root = etree.parse('file.xml').getroot() >>> print etree.tostring(root,
5
Antworten
Ich bin versucht, Lxml Parsen Sie den Inhalt ein .docx-Dokument. Ich verstehe, dass lxml ersetzt namespace-Präfixe mit den tatsächlichen namespace, jedoch dies macht es eine echte Schmerzen zu prüfen, welche Art von element-Tags ein, mit denen ich
2
Antworten
Muss ich parse html-Tabelle mit der folgenden Struktur: <table class="table1" width="620" cellspacing="0" cellpadding="0" border="0"> <tbody> <tr width="620"> <th width="620">Smth1</th> ... </tr> <tr bgcolor="ffffff" width="620"> <td width="620">Smth2</td> ... </tr> <tr bgcolor="E4E4E4" width="620"> <td width="620">Smth3</td> ... </tr> <tr bgcolor="ffffff"
2
Antworten
Jeder code-online bezieht sich auf sudo apt-get #whatever# aber windows nicht über diese Funktion. Ich hörte von etwas namens Powershell, aber ich öffnete es und haben keine Ahnung, was es ist. Ich will einfach nur, um eine
1
Antworten
Ich habe eine xml-Datei, ähnlich wie dieses: <tag attrib1='I'> <subtag1 subattrib1='1'> <subtext>text1</subtext> </subtag1> <subtag3 subattrib3='3'> <subtext>text3</subtext> </subtag3> </tag> Möchte ich fügen Sie ein neues Unterelement, so wird das Resultat wäre so etwas wie dies <tag attrib1='I'> <subtag1
5
Antworten
Ich habe ein xml, das ich am analysieren, so dass einige änderungen und speichern aus und in eine neue Datei. Es hat die Erklärung <?xml version="1.0" encoding="utf-8" standalone="yes"?> die ich behalten möchte. Wenn ich speichern meine neue
1
Antworten
Angesichts der folgenden xml-Code: <!-- file.xml --> <video> <original_spoken_locale>en-US</original_spoken_locale> <another_tag>somevalue</another_tag> </video> Was wäre der beste Weg, Sie zu ersetzen den Wert innerhalb der <original_spoken_locale> tag? Wenn ich weiß, der Wert, die ich verwenden könnte, so etwas wie:
3
Antworten
Schreiben brauche ich eine dynamische Funktion, die feststellt, Elemente auf einer Teilstruktur eine ATOM-xml-durch den Aufbau dynamisch der XPath für das element. Zu tun, die ich geschrieben habe, so etwas wie dieses: tree = etree.parse(xmlFileUrl) e =
5
Antworten
Hier ist was ich habe, so weit: from bs4 import BeautifulSoup def cleanme(html): soup = BeautifulSoup(html) # create a new bs4 object from the html data loaded for script in soup(["script"]): script.extract() text = soup.get_text() return text
4
Antworten
Ich bekomme diesen Fehler in meinem python-Programm: ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters Diese Frage, zufälliger text aus /dev/random einen Fehler auslösen, in lxml: Alle strings müssen
2
Antworten
Ging ich zu dieser Seite heruntergeladen und die tar-Datei : http://pypi.python.org/pypi/lxml/2.3.4#downloads Kopiere ich dann die lxml-Ordner auf meine Python26/Lib-Ordner. Nun, wenn ich den interpreter und geben Sie from lxml import etree bekomme ich die Fehlermeldung: cannot import
3
Antworten
Hat jemand einen Vorschlag für den besten Weg, um öffnen Sie die xml-Daten auf der Webseite unten, um es in einem dataframe (ich arbeite lieber mit pandas), das in python? Die Datei ist auf der "Daten -
3
Antworten
Ich habe in den letzten paar Tagen Griff zu bekommen mit den Grundlagen von lxml; insbesondere mit lxml.html zum analysieren von websites und erstellen Sie eine ElementTree der Inhalte. Im Idealfall möchte ich speichern Sie das zurückgegebene
4
Antworten
Möchte ich extrahieren Sie die URL aus einem xpath-mit den Anfragen Paket in python. Ich kann den text aber nichts, ich versuchen, gibt die URL ein. Kann mir jemand helfen? ipdb> webpage.xpath(xpath_url + '/text()') ['Text of the
4
Antworten
Schrieb ich ein Skript einige Male vor, dass enthalten from lxml import etree Aber leider hat es nicht mehr funktioniert. Im Zweifel überprüfte ich die installation mit : sudo apt-get install python-lxml sudo pip install lxml sudo
3
Antworten
Wie ich finden kann, in XPath 1.0, die alle Zeilen mit leeren col name="POW"? <row> <col name="WOJ">02</col> <col name="POW"/> <col name="GMI"/> <col name="RODZ"/> <col name="NAZWA">DOLNOŚLĄSKIE</col> <col name="NAZDOD">województwo</col> <col name="STAN_NA">2011-01-01</col> </row> Ich habe versucht, viele Lösungen. Paar mal
6
Antworten
Wie finde ich die installierte python-lxml-version in einem Linux-system? >>> import lxml >>> lxml.__version__ Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'module' object has no attribute '__version__' >>> from pprint import pprint
2
Antworten
Ich habe ein xml-Dokument im folgenden format: <feed xmlns="http://www.w3.org/2005/Atom" xmlns:openSearch="http://a9.com/-/spec/opensearchrss/1.0/" xmlns:gsa="http://schemas.google.com/gsa/2007"> ... <entry> <id>https://ip.ad.dr.ess:8000/feeds/diagnostics/smb://ip.ad.dr.ess/path/to/file</id> <updated>2011-11-07T21:32:39.795Z</updated> <app:edited xmlns:app="http://purl.org/atom/app#">2011-11-07T21:32:39.795Z</app:edited> <link rel="self" type="application/atom+xml" href="https://ip.ad.dr.ess:8000/feeds/diagnostics"/> <link rel="edit" type="application/atom+xml" href="https://ip.ad.dr.ess:8000/feeds/diagnostics"/> <gsa:content name="entryID">smb://ip.ad.dr.ess/path/to/directory</gsa:content> <gsa:content name="numCrawledURLs">7</gsa:content> <gsa:content name="numExcludedURLs">0</gsa:content> <gsa:content name="type">DirectoryContentData</gsa:content> <gsa:content name="numRetrievalErrors">0</gsa:content> </entry> <entry>
3
Antworten
Ich habe überall gesucht und was ich am meisten gefunden wurde, Dok.xpath('//element[@class="classname"]'), aber das funktioniert nicht, egal was ich versuche. code, den ich verwende import lxml.html def check(): data = urlopen('url').read(); return str(data); doc = lxml.html.document_fromstring(check()) el
4
Antworten
Habe ich eine xml wie diese: <a> <b>hello</b> <b>world</b> </a> <x> <y></y> </x> <a> <b>first</b> <b>second</b> <b>third</b> </a> Muss ich Durchlaufen alle <a> und <b> tags, aber ich weiß nicht, wie viele von Ihnen sind im Dokument.
2
Antworten
Das problem ist Folgendes: ich habe ein XML-fragment so: <fragment>text1 <a>inner1 </a>text2 <b>inner2</b> <c>t</c>ext3</fragment> Für das Ergebnis möchte ich alle entfernen <a>- und <c>-Tags, behalten aber Ihre (text)-Inhalt, und childnodes sind, wie Sie sind. Auch die <b>-Element
3
Antworten
Nehmen wir an, wir haben die XML-Datei mit der Struktur wie folgt. <?xml version="1.0" ?> <searchRetrieveResponse xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/zing/srw/http://www.loc.gov/standards/sru/sru1-1archive/xml-files/srw-types.xsd" xmlns="http://www.loc.gov/zing/srw/"> <records xmlns:ns1="http://www.loc.gov/zing/srw/"> <record> <recordData> <record xmlns=""> <datafield tag="000"> <subfield code="a">123</subfield> <subfield code="b">456</subfield> </datafield> <datafield tag="001"> <subfield code="a">789</subfield> <subfield
2
Antworten
Kaufte ich ein neues macbook und ich bin so neu in mac os. Aber ich lese viel im internet über das installieren von Schrott Habe ich alles, aber ich habe ein problem mit der Installation von lxml
3
Antworten
Wie kann ich download mehrere links gleichzeitig? Mein Skript funktioniert aber nur downloads, ein zu einer Zeit, und es ist extrem langsam. Ich kann nicht herausfinden, wie zu integrieren multithreading in meinem Skript. Python-Skript: from BeautifulSoup import
3
Antworten
habe ich installiert eine lxml auf meinem mac, wenn ich in python wie diese localhost:lxml-3.0.1-apple$ python Python 2.7.3 (v2.7.3:70274d53c1dd, Apr 9 2012, 20:52:43) [GCC 4.2.1 (Apple Inc. bauen 5666) (Punkt 3)] on darwin Geben Sie "help", "copyright",
4
Antworten
Ich Schreibe ein Skript zum Lesen einer web-Seite und bauen Sie eine Datenbank mit links, Spiele, die bestimmte Kriterien erfüllen. Jetzt bin ich stecken mit lxml und Verständnis, wie greifen Sie alle <a href>'s aus der html...
2
Antworten
Ich Schwierigkeiten beim richtig der Installation von lxml Python auf dem Mac. Ich habe die Anweisungen befolgt hier, die nach der installation angibt, dass die installation erfolgreich ist (es gibt jedoch einige Warnhinweise. Das vollständige log der
9
Antworten
Ich bin mit lxml.html zu erzeugen einige HTML. Ich möchte pretty-print (mit Einrückung) meine endgültige Ergebnis in eine html-Datei. Wie mache ich das? Dies ist, was ich haben versucht, und habe bis jetzt (ich bin relativ neu
1
Antworten
Habe ich versucht zu analysieren, mit etree.HTML() ein text als UTF-8 kodiert, ohne Erfolg. → python Python 2.7.1 (r271:86832, Jun 16 2011, 16:59:05) [GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwin Type