Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Python-beautifulsoup: extrahieren von text aus Zelle in der Tabelle

2 Antworten

Ich versuche, zu extrahieren Sie die Tabelle aus wikipedia mit dem folgenden code: import urllib2 from bs4 import BeautifulSoup file = open('belarus_wiki.txt', 'w') url = "http://en.wikipedia.org/wiki/Visa_requirements_for_Belarusian_citizens" page = urllib2.urlopen(url) soup = BeautifulSoup(page) country = "" visa =

beautifulsoup python

python-beautifulsoup iframe-html-Dokument extrahieren

1 Antworten

Ich versuche zu lernen, ein wenig von der schönen Suppe, und einige html-Daten aus iFrames - aber ich habe nicht sehr erfolgreich gewesen, so weit. So, durch analysieren der iFrame selbst nicht zu sein scheinen ein problem

Entfernen Sie alle inline-styles mit BeautifulSoup

5 Antworten

Ich bin dabei einige HTML-Reinigung mit BeautifulSoup. Noob, die sowohl Python & BeautifulSoup. Ich habe die tags entfernt werden, richtig, wie folgt, basierend auf einer Antwort, die ich an anderer Stelle gefunden auf Stackoverflow: [s.extract() for s

beautifulsoup css inline python

schöne Suppe immer tag.id

1 Antworten

Ich versuche, um eine Liste der div-ids von einer Seite. Wenn ich drucken Sie die Attribute, bekomme ich die ids aufgelistet. for tag in soup.find_all(class_="bookmark blurb group") : print(tag.attrs) Ergebnisse in: {'id': 'bookmark_8199633', 'role': 'article', 'class': ['bookmark',

beautifulsoup html html-parsing python

Extrahieren string-aus-tag mit BeautifulSoup

3 Antworten

Ich versuche, zu extrahieren Sie aus der unten stehenden Tabelle. Ich Schnitt es nach der zweiten , 6 weitere Folgen. Alles in allem acht strings extrahiert werden und ich muss von unten Beispiel Wert 61.5, Wert 56.43

beautifulsoup python

Auszug Inhalt <Script mit BeautifulSoup

1 Antworten

1/versuche ich zu extrahieren ein Teil des Skripts mit schöne Suppe, aber es druckt Nichts. Was ist falsch ? URL = "http://www.reuters.com/video/2014/08/30/woman-who-drank-restaurants-tainted-tea?videoId=341712453" oururl= urllib2.urlopen(URL).read() soup = BeautifulSoup(oururl) for script in soup("script"): script.extract() list_of_scripts = soup.findAll("script") print list_of_scripts

beautifulsoup python python-2.7

BeautifulSoup Python - immer die n-TEN tag eines geben

3 Antworten

Habe ich einige html-code, enthält viele <table>s in es. Ich versuche, die Informationen in der zweiten Tabelle. Gibt es eine Möglichkeit, dies zu tun, ohne mit soup.findAll('table') ? Wenn ich tun, verwenden Sie soup.findAll('table') bekomme ich einen

beautifulsoup python

Python - BeautifulSoup - wie um zu überprüfen, ob ResultSet enthält ein element

1 Antworten

Ich bin dabei einige web-scraping, aber ich habe etwas, das ich nicht herausfinden können. Grundsätzlich, ich brauche, um zu überprüfen, ob die 0 ' te element meiner Ergebnismenge element Termin enthält, 'Inhalt', wie in [<meta content="1992-09-11" itemprop="datePublished"/>]

beautifulsoup python

Fehler beim importieren von BeautifulSoup - Konflikt mit Python-version

3 Antworten

Ich BeautifulSoup installiert mit dem Befehl: sudo easy_install BeautifulSoup4 Bekam ich die Nachricht: Searching for BeautifulSoup4 Best match: beautifulsoup4 4.1.3 Processing beautifulsoup4-4.1.3-py2.6.egg beautifulsoup4 4.1.3 is already the active version in easy-install.pth Using /Library/Python/2.6/site-packages/beautifulsoup4-4.1.3-py2.6.egg Processing dependencies for BeautifulSoup4

beautifulsoup easy-install pip python

BeautifulSoup, Parsen und schreiben der Daten in eine text-Datei

1 Antworten

from bs4 import BeautifulSoup soup = BeautifulSoup(open("youtube.htm")) for link in soup.find_all('img'): print link.get('src') file = open("parseddata.txt", "wb") file.write(link.get('src')+"\n") file.flush() Hallo, Ich will herum zu Experimentieren mit BeautifulSoup und analysiert einige youtube-Seiten. Sie erhalten ca. 25 Linien von

beautifulsoup file io python

Selen:, Durchlaufen Gruppen von Elementen

1 Antworten

Habe ich das mit BeautifulSoup aber es ist ein bisschen umständlich, und ich versuche herauszufinden, wenn ich kann, tun Sie es direkt mit Selen. Sagen wir, ich habe den folgenden HTML-Code, der wiederholt mehrere Male im Quelltext

beautifulsoup html html-parsing python selenium

Wie finden Kinder von Knoten mit BeautifulSoup

6 Antworten

Möchte ich, um alle <a> tags, welche Kinder <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Ich weiß, wie zu finden-element mit besonderer Klasse wie folgt aus: soup.find("li", { "class" : "test" })

beautifulsoup html python

Suchen und klicken Sie auf ein Element von 'onclick' Teilwert

3 Antworten

Ist es möglich, Sie auf ein element durch Selen durch eine partielle Wert eines onclick element? Gibt es mehrere input-Elemente auf einer Seite, und ich brauche nur zu wählen Sie eines mit einer bestimmten Zeichenfolge. Beispiele wären:

beautifulsoup javascript python selenium selenium-webdriver

Wie man alle links von der website mit Schönen Suppe (python) Rekursiv

2 Antworten

Ich möchte in der Lage sein, um rekursiv bekommen alle links von einer Webseite, dann Folgen Sie den links und erhalten Sie alle links, die von diesen websites. Die Tiefe sollte etwa 5-10, so dass es wieder

beautifulsoup python

Auswahl eines zweiten Kindes in schöne Suppe mit Suppe.wählen Sie?

3 Antworten

Habe ich: <h2 id='names'>Names</h2> <p>John</p> <p>Peter</p> nun, was ist der einfachste Weg, um den Peter hier, wenn ich die h2 Tags bereits? Nun habe ich versucht: soup.select("#names > p:nth-child(1)") aber ich bekomme hier das N-te Kind NotImplementedError:

beautifulsoup python web-scraping

wie verwenden von Anfragen.post() mit proxy-Authentifizierung in python?

1 Antworten

from bs4 import BeautifulSoup import requests from requests.auth import HTTPProxyAuth url = "http://www.transtats.bts.gov/Data_Elements.aspx?Data=2" proxies = {"http":"xxx.xxx.x.xxx: port"} auth = HTTPProxyAuth("username", "password") r = requests.get(url, proxies=proxies, auth=auth) soup = BeautifulSoup(r.text,"html.parser") viewstate_element = soup.find(id = "__VIEWSTATE").attrs viewstate = viewstate_element["value"]

beautifulsoup http-get http-post proxy python

schöne Suppe, die nur den Wert in den tag

3 Antworten

Den folgenden Befehl ein: volume = soup.findAll("span", {"id": "volume"})[0] gibt: <span class="gr_text1" id="volume">16,103.3</span> Problem, wenn ich einen Druck(das Volumen). Wie bekomme ich nur die Nummer? Das klappte :-). Wenn Sie es post, als Antwort, ich werde markieren

beautifulsoup python

Konvertieren von HTML in CSV

2 Antworten

Möchte ich zum konvertieren einer HTML-Tabelle als gewonnen aus dem Skript unten in eine CSV-Datei, aber habe Typ-Fehler wie folgt: TypeError: sequence Element 0: erwartet string, Tag gefunden from bs4 import BeautifulSoup import urllib2 url = 'http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3_en.php?block_no=47401&view=1'

beautifulsoup csv python

Suchen und Ersetzen in HTML mit BeautifulSoup

3 Antworten

Möchte ich BeautfulSoup suchen und ersetzen <\a> mit <\a><br>. Ich weiß, wie Sie auf öffnen mit urllib2 und dann analysieren und zu extrahieren Sie alle <a> - tags. Was ich will zu tun ist, suchen Sie und

beautifulsoup python

"unit-tests fehlgeschlagen" für beautifulsoup

1 Antworten

ich versuche zu installieren beautifulsoup für python33 aber nicht ordnungsgemäß installieren es gibt Fehler wie: C:\Python33>pip install beautifulsoup Downloading/unpacking beautifulsoup Downloading BeautifulSoup-3.2.1.tar.gz Running setup.py egg_info for package beautifulsoup Traceback (most recent call last): File "<string>", line 16,

beautifulsoup python python-3.x

Python-beautifulsoup Iteration über der Tabelle

2 Antworten

Ich versuche, mich zu kratzen Tabelle Daten in eine CSV-Datei. Leider, den ich getroffen habe, eine Straße zu blockieren und den folgenden code einfach wiederholt die TD aus dem ersten TR für alle nachfolgenden TRs. import urllib.request

beautifulsoup python

Wie finden Sie das Kommentar-tag  mit BeautifulSoup?

2 Antworten

Habe ich versucht die Suppe.find('!--') aber es scheint nicht zu funktionieren. Vielen Dank im Voraus. Edit: Danke für den Tipp, wie man finden alle Kommentare. Ich habe ein follow-up-Frage. Wie kann ich speziell Suche für ein Kommentar?

beautifulsoup html python tags

beautifulsoup findAll find_all

2 Antworten

Möchte ich parse eine html-Datei mit Python und dem Modul I ist beautifulsoup. Nachdem ich es benutzt habe, geschah etwas merkwürdiges.Es wird gesagt, dass die Funktion "find_all" ist gleiche wie "findAll", aber ich habe versucht die beiden

beautifulsoup html-parsing python xml-parsing

So finden Sie Elemente, die durch die Klasse

11 Antworten

Ich habe Probleme mit dem Parsen von HTML-Elementen mit der Klasse "class" - Attribut mit Beautifulsoup. Der code sieht so aus soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div

beautifulsoup html python web-scraping

Python-BeautifulSoup-Schleife

1 Antworten

Dank diesem board habe ich es geschafft, um den Namen und den Preis des Artikels möchte ich mit diesem code: import urllib2 from BeautifulSoup import BeautifulSoup import re html = urllib2.urlopen('http://www.toolventure.co.uk/hand-tools/saws/').read() soup = BeautifulSoup(html) item = re.sub('\s+',

beautifulsoup python

ImportError: No module named html.Personen

1 Antworten

Ich bin neu in python. Ich bin mit python-2.7.5. Ich will schreiben, ein web-crawler. Für die, die ich installiert habe BeautifulSoup 4.3.2. Ich habe es installiert mit diesem Befehl(ich habe nicht benutzt, pip) python setup.py install Ich

beautifulsoup html-entities importerror python-2.7 web-crawler

Warnung: Einige Zeichen konnten nicht entschlüsselt werden, und wurden ersetzt durch die ERSATZ-ZEICHEN

1 Antworten

Ich bin erstellen Sie ein Skript zum download einige mp3-podcasts, die von einer Website aus und schreiben Sie Sie auf einen bestimmten Standort. Ich bin fast fertig, und die Dateien werden heruntergeladen und erstellt. Allerdings bin ich

beautifulsoup encoding python unicode web-scraping

ImportError: No module named bs4, weil in die falsche python-Ordner

1 Antworten

Ich bin neu in Python. Ich versuche nur, zu extrahieren eines string aus einer HTML-Datei. Ich kann nicht damit es funktioniert. Alle reden über das Schöne Suppe, aber es funktioniert nicht für mich... Dies ist mein Fehler:

beautifulsoup python

Einfaches Beispiel BeautifulSoup Python

1 Antworten

Arbeitete ich ein einfaches Beispiel mit BeautifulSoup, aber ich war immer komisch resutls. Hier ist mein code: soup = BeautifulSoup(page) print soup.prettify() stuff = soup.findAll('td', attrs={'class' : 'prodSpecAtribtue'}) print stuff Wenn ich Druck bekomme ich: Nicht

beautifulsoup python

Python 3.4 Installation des bs4 - Läuft Python2 nicht Python ist3

5 Antworten

Heute ist ein schrecklicher Tag für mich. Ich bin so frustriert, weil ich habe die letzten 4 Stunden versucht zu installieren beautifulsoup4. Ich habe gesucht, jedes tutorial kann ich meine Hände bekommen. Es ist auf meinem computer

beautifulsoup module python

UnicodeEncodeError: 'cp949' codec can T encode character '\u20a9' in position 90: illegal multibyte sequence

1 Antworten

Ich bin python-Anfänger. Ich versuche zu krabbeln google play store und export in eine csv-Datei. Aber ich bekam eine Fehlermeldung. UnicodeEncodeError: 'cp949' codec can't encode character '\u20a9' in position 90: illegal multibyte sequence Hier ist mein source-code.

beautifulsoup csv python python-3.x python-unicode

Mit BeautifulSoup zum extrahieren der Titel von dem link

2 Antworten

Ich versuche, extrahieren der Titel von einem link mit BeautifulSoup. Der code, mit dem ich arbeite ist wie folgt: url = "http://www.example.com" source_code = requests.get(url) plain_text = source_code.text soup = BeautifulSoup(plain_text, "lxml") for link in soup.findAll('a', {'class':

beautifulsoup python python-2.7 python-requests web-scraping

Python-Beautifulsoup img-tag Parsen

4 Antworten

Ich bin mit beautifulsoup Parsen alle img-tags, die in 'www.youtube.com' Den code import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2.urlopen('http://www.youtube.com/') soup = BeautifulSoup(page) tags=soup.findAll('img') Bin aber nicht immer alle img-tags.Der erste img-tags sind unwirksam, auch. Img-tags,

beautifulsoup image python

So finden Sie alle text in <p> - Elemente in einer HTML-Seite mit BeautifulSoup

2 Antworten

Ich muss alle sichtbar-tags innerhalb von Absatz-Elemente in einer HTML-Datei mit BeautifulSoup Python. Zum Beispiel <p>Many hundreds of named mango <a href="/wiki/Cultivar" title="Cultivar">cultivars</a> exist.</p> sollte zurückgeben: Many hundreds of cultivars exist. P. S. Einige Dateien, die Unicode-Zeichen

beautifulsoup html-parsing python unicode

Wie die Rückkehr der Klartext aus dem Schönen Suppe anstelle von unicode

2 Antworten

Ich bin mit BeautifulSoup4 zu kratzen, diese web-Seite, aber ich bin immer die komischen unicode-text, BeautifulSoup gibt. Hier ist mein code: site = "http://en.wikipedia.org/wiki/"+a+"_"+str(b) hdr = {'User-Agent': 'Mozilla/5.0'} req = urllib2.Request(site,headers=hdr) req.add_header('Accept-enconding', 'gzip') #Header to check for

beautifulsoup encoding python

einfache web-crawler

1 Antworten

schrieb ich unten Programm in python für sehr einfache web-crawler, aber wenn ich es mir zurück 'NoneType' object ist nicht aufrufbar' , könnten Sie mir bitte helfen? import BeautifulSoup import urllib2 def union(p,q): for e in q:

beautifulsoup python-2.7

ANSI, ASCII, Unicode und Kodierung Verwirrung mit Python

3 Antworten

War ich gerne mit BeautifulSoup und ich bin auch mit einem text-Datei als Eingabe-Parameter von meinem Python-Skript. Stieß ich dann auf das berühmte "UnicodeEncodeError" Fehler. Ich gelesen habe Fragen, die hier bei SO aber ich bin immer

beautifulsoup python unicode

Lesen Sie den Inhalt des <script> mit BeautifulSoup

2 Antworten

Habe ich versucht zu Lesen, die Quelle einer website mit den folgenden: import urllib2 from BeautifulSoup import BeautifulSoup url = 'http://www.myurl.com/' headers = {'User-Agent' : 'Mozilla/5.0'} request = urllib2.Request(url,None,headers) soup = BeautifulSoup(urllib2.urlopen(request).read()) Ich weiter einzugrenzen, als scriptResults

beautifulsoup python regex

ersetzen von html-tags mit BeautifulSoup

4 Antworten

Ich bin derzeit Neuformatierung einige HTML-Seiten mit BeautifulSoup, und ich lief in bisschen ein problem. Mein problem ist, dass die original-HTML-hat Dinge wie diese: <li><p>stff</p></li> und <li><div><p>Stuff</p></div></li> sowie <li><div><p><strong>stff</strong></p></div><li> Mit BeautifulSoup ich hoffe, zur Beseitigung der div

beautifulsoup python

Extrahieren Sie die Nummer von einer website mit beautifulsoup Python

7 Antworten

Ich bin versucht, das urllib zu greifen, eine html-Seite, dann verwenden Sie beautifulsoup zum extrahieren von Daten aus. Ich möchte die Anzahl von comments_42.html und drucken Sie die Summe von Ihnen, dann Anzeige der Anzahl von Daten.

beautifulsoup python regex

Python + BeautifulSoup: Wie man 'href' - Attribut des 'a' - element?

3 Antworten

Habe ich Folgendes: html = '''<div class=“file-one”> <a href=“/file-one/additional” class=“file-link"> <h3 class=“file-name”>File One</h3> </a> <div class=“location”> Down </div> </div>''' Erhalten und möchte nur den text von href die /file-one/additional. Also ich hab: from bs4 import BeautifulSoup soup

beautifulsoup html python web-scraping

Schöne Suppe: Zugriff auf <li> Elemente aus <ul> ohne id

2 Antworten

Ich versuche, mich zu kratzen, die Leute, die Geburtstag haben, von diesem Wikipedia-Seite Hier ist der bisherige code: hdr = {'User-Agent': 'Mozilla/5.0'} site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1" req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req) soup = BeautifulSoup(page) print soup Diesem

beautifulsoup html-parsing python web-scraping

Ich kann nicht importiert schönen Suppe auf python

2 Antworten

Installierte ich eine Schöne Suppe Bibliothek, und scheint es gut einrichten, da es die " bs4 " Ordner in C:\Python33\Lib\site-packages. (ich änderte den Namen in "bs4", bevor installation, und es ging das gleiche nach Installation) aber wenn

beautifulsoup python python-import

Warum ist BeautifulSoup nicht die Suche nach einer bestimmten Tabelle Klasse?

2 Antworten

Ich bin mit Schönen Suppe zu versuchen und kratzen der Rohstoffe Tabelle aus Oil-Price.net. Ich finde das erste div, table, table Körper, und die Zeilen der Tabelle Körper. Aber es ist eine Spalte in einer der Zeilen,

beautifulsoup python web-scraping

Wie zu kratzen, Echtzeit-streaming-Daten mit Python?

3 Antworten

Ich versuchte, mich zu kratzen, die Anzahl der Flüge für diese Webseite https://www.flightradar24.com/56.16,-49.51 Die Nummer markiert ist im Bild unten: Die Anzahl aktualisiert wird alle 8 Sekunden. Dies ist, was ich versucht habe mit BeautifulSoup: import requests

beautifulsoup python web-scraping

install BeautifulSoup

3 Antworten

im Laufenden python 3.1.2 auf meinem ubuntu 10.04 welche version von BeautifulSoup muss ich installieren und wie? ich bereits download-version 3.2 und führen sudo python3 setup.py install hat aber nicht funktioniert thnx EDIT : Der Fehler den

beautifulsoup python

Schöne Suppe findAll nicht, Sie alle zu finden

1 Antworten

Ich versuche zu analysieren, eine website und erhalten Sie einige Infos mit BeautifulSoup.findAll-aber es funktioniert nicht, Sie alle zu finden.. ich bin mit Python ist3 der code ist #!/usr/bin/python3 from bs4 import BeautifulSoup from urllib.request import urlopen

beautifulsoup findall python python-3.x

Entfernen neue Zeile '\n' aus der Ausgabe von python-BeautifulSoup

3 Antworten

Ich bin mit python Schönen Suppe für den Inhalt: <div class="path"> <a href="#"> abc</a> <a href="#"> def</a> <a href="#"> ghi</a> </div> Mein code ist wie folgt: html_doc="""<div class="path"> <a href="#"> abc</a> <a href="#"> def</a> <a href="#"> ghi</a>

beautifulsoup python

ValueError: invalid literal for int() with base 10: '196.41'

2 Antworten

Ich verstehe nicht, warum es funktioniert mit verschiedenen Szenarien, aber nicht mit dieser. Im Grunde, einige Leute halfen mir aus HIER mit der Verbesserung meiner code zu kratzen Wetter, die perfekt funktioniert. Dann habe ich versucht, das

beautifulsoup data-science python valueerror web-scraping

Warten Sie das laden der Seite, bevor man Daten mit Anfragen.Holen Sie sich in python 3

2 Antworten

Ich habe eine Seite, die ich brauche, um die Quelle zu verwenden, mit BS4, aber in der Mitte der Seite dauert 1 Sekunde(vielleicht auch weniger) zum laden der Inhalte und Anforderungen.Holen Sie fängt den Quellcode der Seite,

beautifulsoup python-3.x python-requests web-scraping