Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Mechanisieren und BeautifulSoup für PHP?

2 Antworten

Ich Frage mich, ob es etwas ähnliches wie Mechanisieren oder BeautifulSoup für PHP? InformationsquelleAutor der Frage Alix Axel | 2009-08-12

UnicodeEncodeError: 'Ascii' Codec kann Zeichen nicht codieren u '\ u2026'

3 Antworten

Lerne ich über urlib2 und schönen Suppe und auf erste tests bin immer Fehler wie: UnicodeEncodeError: 'ascii' codec can't encode character u'\u2026' in position 10: ordinal not in range(128) Scheint es viele Beiträge über diese Art von

beautifulsoup encoding python-2.7 unicode

Können wir Xpath mit BeautifulSoup verwenden?

6 Antworten

Ich bin mit BeautifulSoup zu kratzen, eine url und ich hatte folgenden code import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'})

beautifulsoup python urllib xpath

Abrufen von Links von der Webseite mit Python und BeautifulSoup

14 Antworten

Wie kann ich abrufen, die links einer Webseite und kopieren Sie die url-Adresse des links mit Python? InformationsquelleAutor der Frage NepUS | 2009-07-03

beautifulsoup hyperlink python

Gibt es in BeautifulSoup / python InnerText?

3 Antworten

Mit dem code unten soup = BeautifulSoup(page.read(), fromEncoding="utf-8") result = soup.find('div', {'class' :'flagPageTitle'}) Bekomme ich die folgende html: <div id="ctl00_ContentPlaceHolder1_Item65404" class="flagPageTitle" style=" "> <span></span><p>Some text here</p> </div> Wie bekomme ich Some text here ohne tags? Ist es

beautifulsoup python

beasesoup, html5lib: Modulobjekt hat kein Attribut _base

5 Antworten

Wenn ich meine aktualisierten Pakete, die ich habe diese neuen Fehler: class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): AttributeError: 'module' object has no attribute '_base' Habe ich versucht zu aktualisieren beautifulsoupmit nicht mehr führen. Wie kann ich das beheben? InformationsquelleAutor der Frage Ehvince | 2016-07-19

beautifulsoup html5lib

Wie scrappe ich eine Website, die eine Anmeldung mit Python und BeautifulSoup erfordert?

2 Antworten

Wenn ich will, zu kratzen, eine website erfordert die Anmeldung mit Passwort ersten, wie kann ich Schaben mit python mit beautifulsoup4 Bibliothek? Unten ist das, was ich für websites, die keine Anmeldung erforderlich ist. from bs4 import

beautifulsoup python web-scraping

Dekodieren von HTML-Entities mit Python

4 Antworten

Ich versuche zu entschlüsseln HTML-Einträge von hier NYTimes.com und ich kann nicht herausfinden, was ich falsch mache. Nehmen Sie zum Beispiel: "U.S. Adviser’s Blunt Memo on Iraq: Time ‘to Go Home’" Habe ich versucht, BeautifulSoup, decode('iso-8859-1'), und

beautifulsoup character-encoding content-type python unicode

Wie man schöne Suppe 4 mit Python 2.7 an Fenstern installiert

4 Antworten

Ich habe windows vista mit Python 2.7. Ich möchte installieren BeautifulSoup 4, aber anscheinend kann ich nicht installieren Schöne Suppe einfach durch kopieren der Datei in das site-packages-Verzeichnis. Ich habe die Installation von pip und dann führen

beautifulsoup html parsing python

Schöne Suppe finden Kinder für bestimmte Div

1 Antworten

Ich versuche zu analysieren, eine Webseite, die so aussieht wie diese mit Python->Schöne Suppe: Ich versuche, zu extrahieren Sie den Inhalt der markierten td div. Derzeit bekomme ich alle divs durch alltd = soup.findAll('td') for td in

beautifulsoup parsing python

BeautifulSoup findAll () mehrere Klassen gegeben?

3 Antworten

Ich würde gerne kratzen eine Liste der Elemente aus einer website und die Erhaltung der Reihenfolge, dass Sie angezeigt werden. Diese Elemente sind in einer Tabelle angeordnet, aber Sie können eine von zwei verschiedenen Klassen (in zufälliger

beautifulsoup html html-parsing python

Wie findet man einen Tag mit einem bestimmten Text mit Beautiful Soup?

2 Antworten

Ich habe Folgendes html (die Zeilenumbrüche markiert mit \n): ... <tr> <td class="pos">\n "Some text:"\n <br>\n <strong>some value</strong>\n </td> </tr> <tr> <td class="pos">\n "Fixed text:"\n <br>\n <strong>text I am looking for</strong>\n </td> </tr> <tr> <td class="pos">\n "Some

beautifulsoup python

Wie bekomme ich HTML von einem schönen Suppenobjekt?

1 Antworten

Habe ich Folgendes bs4-Objekt listing: >>> listing <div class="listingHeader"> <h2> .... >>> type(listing) <class 'bs4.element.Tag'> Möchte ich extrahieren Sie den raw-html als string zurück. Ich habe versucht: >>> a = listing.contents >>> type(a) <type 'list'> Damit dies

beautifulsoup html html-parsing python

Python BeautifulSoup: Wildcard-Attribut / ID-Suche

1 Antworten

Habe ich dieses: dates = soup.findAll("div", {"id" : "date"}) Aber ich brauche die id um eine wildcard-Suche, da die id werden kann date_1, date_2 etc. InformationsquelleAutor der Frage user984003 | 2013-01-10

beautifulsoup python

BeautifulSoup getText zwischen & lt; p & gt; und nicht nachfolgende Absätze abholen

1 Antworten

Erstens, ich bin ein völliger Neuling, wenn es um Python. Allerdings habe ich geschrieben, ein Stück code zu schauen, einen RSS-feed, den link zu öffnen und extrahieren Sie den text aus dem Artikel. Dies ist, was ich

beautifulsoup python-2.7

BeautifulSoup verwenden, um HTML nach Zeichenfolgen zu durchsuchen

3 Antworten

Ich bin mit BeautifulSoup zu suchen Benutzer eingegebene strings auf eine bestimmte Seite. Zum Beispiel, ich möchte, um zu sehen, wenn der string 'Python' befindet sich auf der Seite: http://python.org Wenn ich verwendet: find_string = soup.body.findAll(text='Python') find_string

beautifulsoup python

BeatifulSoup4 get_text hat immer noch JavaScript

2 Antworten

Ich versuche alles zu entfernen html/javascript mit bs4, jedoch, es nicht loszuwerden, javascript. Ich sehe Sie immer noch dort mit dem text. Wie kann ich dies umgehen? Versuchte ich mit nltk welche gut funktioniert aber clean_html und

beautifulsoup nltk python

bs4.FeatureNotFound: Es wurde kein Baumgenerator mit den von Ihnen angeforderten Funktionen gefunden: lxml. Müssen Sie eine Parser-Bibliothek installieren?

10 Antworten

... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Den oben genannten Ausgängen

beautifulsoup lxml python python-2.7