Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Mechanisieren und BeautifulSoup für PHP?

Anzahl der Antworten 2 Antworten
Ich Frage mich, ob es etwas ähnliches wie Mechanisieren oder BeautifulSoup für PHP? InformationsquelleAutor der Frage Alix Axel | 2009-08-12

UnicodeEncodeError: 'Ascii' Codec kann Zeichen nicht codieren u '\ u2026'

Anzahl der Antworten 3 Antworten
Lerne ich über urlib2 und schönen Suppe und auf erste tests bin immer Fehler wie: UnicodeEncodeError: 'ascii' codec can't encode character u'\u2026' in position 10: ordinal not in range(128) Scheint es viele Beiträge über diese Art von

Können wir Xpath mit BeautifulSoup verwenden?

Anzahl der Antworten 6 Antworten
Ich bin mit BeautifulSoup zu kratzen, eine url und ich hatte folgenden code import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'})

Abrufen von Links von der Webseite mit Python und BeautifulSoup

Anzahl der Antworten 14 Antworten
Wie kann ich abrufen, die links einer Webseite und kopieren Sie die url-Adresse des links mit Python? InformationsquelleAutor der Frage NepUS | 2009-07-03

Gibt es in BeautifulSoup / python InnerText?

Anzahl der Antworten 3 Antworten
Mit dem code unten soup = BeautifulSoup(page.read(), fromEncoding="utf-8") result = soup.find('div', {'class' :'flagPageTitle'}) Bekomme ich die folgende html: <div id="ctl00_ContentPlaceHolder1_Item65404" class="flagPageTitle" style=" "> <span></span><p>Some text here</p> </div> Wie bekomme ich Some text here ohne tags? Ist es

beasesoup, html5lib: Modulobjekt hat kein Attribut _base

Anzahl der Antworten 5 Antworten
Wenn ich meine aktualisierten Pakete, die ich habe diese neuen Fehler: class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): AttributeError: 'module' object has no attribute '_base' Habe ich versucht zu aktualisieren beautifulsoupmit nicht mehr führen. Wie kann ich das beheben? InformationsquelleAutor der Frage Ehvince | 2016-07-19

Wie scrappe ich eine Website, die eine Anmeldung mit Python und BeautifulSoup erfordert?

Anzahl der Antworten 2 Antworten
Wenn ich will, zu kratzen, eine website erfordert die Anmeldung mit Passwort ersten, wie kann ich Schaben mit python mit beautifulsoup4 Bibliothek? Unten ist das, was ich für websites, die keine Anmeldung erforderlich ist. from bs4 import

Dekodieren von HTML-Entities mit Python

Anzahl der Antworten 4 Antworten
Ich versuche zu entschlüsseln HTML-Einträge von hier NYTimes.com und ich kann nicht herausfinden, was ich falsch mache. Nehmen Sie zum Beispiel: "U.S. Adviser&#8217;s Blunt Memo on Iraq: Time &#8216;to Go Home&#8217;" Habe ich versucht, BeautifulSoup, decode('iso-8859-1'), und

Wie man schöne Suppe 4 mit Python 2.7 an Fenstern installiert

Anzahl der Antworten 4 Antworten
Ich habe windows vista mit Python 2.7. Ich möchte installieren BeautifulSoup 4, aber anscheinend kann ich nicht installieren Schöne Suppe einfach durch kopieren der Datei in das site-packages-Verzeichnis. Ich habe die Installation von pip und dann führen

Schöne Suppe finden Kinder für bestimmte Div

Anzahl der Antworten 1 Antworten
Ich versuche zu analysieren, eine Webseite, die so aussieht wie diese mit Python->Schöne Suppe: Ich versuche, zu extrahieren Sie den Inhalt der markierten td div. Derzeit bekomme ich alle divs durch alltd = soup.findAll('td') for td in

BeautifulSoup findAll () mehrere Klassen gegeben?

Anzahl der Antworten 3 Antworten
Ich würde gerne kratzen eine Liste der Elemente aus einer website und die Erhaltung der Reihenfolge, dass Sie angezeigt werden. Diese Elemente sind in einer Tabelle angeordnet, aber Sie können eine von zwei verschiedenen Klassen (in zufälliger

Wie findet man einen Tag mit einem bestimmten Text mit Beautiful Soup?

Anzahl der Antworten 2 Antworten
Ich habe Folgendes html (die Zeilenumbrüche markiert mit \n): ... <tr> <td class="pos">\n "Some text:"\n <br>\n <strong>some value</strong>\n </td> </tr> <tr> <td class="pos">\n "Fixed text:"\n <br>\n <strong>text I am looking for</strong>\n </td> </tr> <tr> <td class="pos">\n "Some

Wie bekomme ich HTML von einem schönen Suppenobjekt?

Anzahl der Antworten 1 Antworten
Habe ich Folgendes bs4-Objekt listing: >>> listing <div class="listingHeader"> <h2> .... >>> type(listing) <class 'bs4.element.Tag'> Möchte ich extrahieren Sie den raw-html als string zurück. Ich habe versucht: >>> a = listing.contents >>> type(a) <type 'list'> Damit dies

Python BeautifulSoup: Wildcard-Attribut / ID-Suche

Anzahl der Antworten 1 Antworten
Habe ich dieses: dates = soup.findAll("div", {"id" : "date"}) Aber ich brauche die id um eine wildcard-Suche, da die id werden kann date_1, date_2 etc. InformationsquelleAutor der Frage user984003 | 2013-01-10

BeautifulSoup getText zwischen & lt; p & gt; und nicht nachfolgende Absätze abholen

Anzahl der Antworten 1 Antworten
Erstens, ich bin ein völliger Neuling, wenn es um Python. Allerdings habe ich geschrieben, ein Stück code zu schauen, einen RSS-feed, den link zu öffnen und extrahieren Sie den text aus dem Artikel. Dies ist, was ich

BeautifulSoup verwenden, um HTML nach Zeichenfolgen zu durchsuchen

Anzahl der Antworten 3 Antworten
Ich bin mit BeautifulSoup zu suchen Benutzer eingegebene strings auf eine bestimmte Seite. Zum Beispiel, ich möchte, um zu sehen, wenn der string 'Python' befindet sich auf der Seite: http://python.org Wenn ich verwendet: find_string = soup.body.findAll(text='Python') find_string

BeatifulSoup4 get_text hat immer noch JavaScript

Anzahl der Antworten 2 Antworten
Ich versuche alles zu entfernen html/javascript mit bs4, jedoch, es nicht loszuwerden, javascript. Ich sehe Sie immer noch dort mit dem text. Wie kann ich dies umgehen? Versuchte ich mit nltk welche gut funktioniert aber clean_html und

bs4.FeatureNotFound: Es wurde kein Baumgenerator mit den von Ihnen angeforderten Funktionen gefunden: lxml. Müssen Sie eine Parser-Bibliothek installieren?

Anzahl der Antworten 10 Antworten
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Den oben genannten Ausgängen