Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Python-beautifulsoup: extrahieren von text aus Zelle in der Tabelle

Anzahl der Antworten 2 Antworten
Ich versuche, zu extrahieren Sie die Tabelle aus wikipedia mit dem folgenden code: import urllib2 from bs4 import BeautifulSoup file = open('belarus_wiki.txt', 'w') url = "http://en.wikipedia.org/wiki/Visa_requirements_for_Belarusian_citizens" page = urllib2.urlopen(url) soup = BeautifulSoup(page) country = "" visa =

python-beautifulsoup iframe-html-Dokument extrahieren

Anzahl der Antworten 1 Antworten
Ich versuche zu lernen, ein wenig von der schönen Suppe, und einige html-Daten aus iFrames - aber ich habe nicht sehr erfolgreich gewesen, so weit. So, durch analysieren der iFrame selbst nicht zu sein scheinen ein problem

Entfernen Sie alle inline-styles mit BeautifulSoup

Anzahl der Antworten 5 Antworten
Ich bin dabei einige HTML-Reinigung mit BeautifulSoup. Noob, die sowohl Python & BeautifulSoup. Ich habe die tags entfernt werden, richtig, wie folgt, basierend auf einer Antwort, die ich an anderer Stelle gefunden auf Stackoverflow: [s.extract() for s

schöne Suppe immer tag.id

Anzahl der Antworten 1 Antworten
Ich versuche, um eine Liste der div-ids von einer Seite. Wenn ich drucken Sie die Attribute, bekomme ich die ids aufgelistet. for tag in soup.find_all(class_="bookmark blurb group") : print(tag.attrs) Ergebnisse in: {'id': 'bookmark_8199633', 'role': 'article', 'class': ['bookmark',

Extrahieren string-aus-tag mit BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich versuche, zu extrahieren Sie aus der unten stehenden Tabelle. Ich Schnitt es nach der zweiten , 6 weitere Folgen. Alles in allem acht strings extrahiert werden und ich muss von unten Beispiel Wert 61.5, Wert 56.43

Auszug Inhalt <Script mit BeautifulSoup

Anzahl der Antworten 1 Antworten
1/versuche ich zu extrahieren ein Teil des Skripts mit schöne Suppe, aber es druckt Nichts. Was ist falsch ? URL = "http://www.reuters.com/video/2014/08/30/woman-who-drank-restaurants-tainted-tea?videoId=341712453" oururl= urllib2.urlopen(URL).read() soup = BeautifulSoup(oururl) for script in soup("script"): script.extract() list_of_scripts = soup.findAll("script") print list_of_scripts

BeautifulSoup Python - immer die n-TEN tag eines geben

Anzahl der Antworten 3 Antworten
Habe ich einige html-code, enthält viele <table>s in es. Ich versuche, die Informationen in der zweiten Tabelle. Gibt es eine Möglichkeit, dies zu tun, ohne mit soup.findAll('table') ? Wenn ich tun, verwenden Sie soup.findAll('table') bekomme ich einen

Python - BeautifulSoup - wie um zu überprüfen, ob ResultSet enthält ein element

Anzahl der Antworten 1 Antworten
Ich bin dabei einige web-scraping, aber ich habe etwas, das ich nicht herausfinden können. Grundsätzlich, ich brauche, um zu überprüfen, ob die 0 ' te element meiner Ergebnismenge element Termin enthält, 'Inhalt', wie in [<meta content="1992-09-11" itemprop="datePublished"/>]

Fehler beim importieren von BeautifulSoup - Konflikt mit Python-version

Anzahl der Antworten 3 Antworten
Ich BeautifulSoup installiert mit dem Befehl: sudo easy_install BeautifulSoup4 Bekam ich die Nachricht: Searching for BeautifulSoup4 Best match: beautifulsoup4 4.1.3 Processing beautifulsoup4-4.1.3-py2.6.egg beautifulsoup4 4.1.3 is already the active version in easy-install.pth Using /Library/Python/2.6/site-packages/beautifulsoup4-4.1.3-py2.6.egg Processing dependencies for BeautifulSoup4

BeautifulSoup, Parsen und schreiben der Daten in eine text-Datei

Anzahl der Antworten 1 Antworten
from bs4 import BeautifulSoup soup = BeautifulSoup(open("youtube.htm")) for link in soup.find_all('img'): print link.get('src') file = open("parseddata.txt", "wb") file.write(link.get('src')+"\n") file.flush() Hallo, Ich will herum zu Experimentieren mit BeautifulSoup und analysiert einige youtube-Seiten. Sie erhalten ca. 25 Linien von

Selen:, Durchlaufen Gruppen von Elementen

Anzahl der Antworten 1 Antworten
Habe ich das mit BeautifulSoup aber es ist ein bisschen umständlich, und ich versuche herauszufinden, wenn ich kann, tun Sie es direkt mit Selen. Sagen wir, ich habe den folgenden HTML-Code, der wiederholt mehrere Male im Quelltext

Wie finden Kinder von Knoten mit BeautifulSoup

Anzahl der Antworten 6 Antworten
Möchte ich, um alle <a> tags, welche Kinder <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Ich weiß, wie zu finden-element mit besonderer Klasse wie folgt aus: soup.find("li", { "class" : "test" })

Suchen und klicken Sie auf ein Element von 'onclick' Teilwert

Anzahl der Antworten 3 Antworten
Ist es möglich, Sie auf ein element durch Selen durch eine partielle Wert eines onclick element? Gibt es mehrere input-Elemente auf einer Seite, und ich brauche nur zu wählen Sie eines mit einer bestimmten Zeichenfolge. Beispiele wären:

Wie man alle links von der website mit Schönen Suppe (python) Rekursiv

Anzahl der Antworten 2 Antworten
Ich möchte in der Lage sein, um rekursiv bekommen alle links von einer Webseite, dann Folgen Sie den links und erhalten Sie alle links, die von diesen websites. Die Tiefe sollte etwa 5-10, so dass es wieder

Auswahl eines zweiten Kindes in schöne Suppe mit Suppe.wählen Sie?

Anzahl der Antworten 3 Antworten
Habe ich: <h2 id='names'>Names</h2> <p>John</p> <p>Peter</p> nun, was ist der einfachste Weg, um den Peter hier, wenn ich die h2 Tags bereits? Nun habe ich versucht: soup.select("#names > p:nth-child(1)") aber ich bekomme hier das N-te Kind NotImplementedError:

wie verwenden von Anfragen.post() mit proxy-Authentifizierung in python?

Anzahl der Antworten 1 Antworten
from bs4 import BeautifulSoup import requests from requests.auth import HTTPProxyAuth url = "http://www.transtats.bts.gov/Data_Elements.aspx?Data=2" proxies = {"http":"xxx.xxx.x.xxx: port"} auth = HTTPProxyAuth("username", "password") r = requests.get(url, proxies=proxies, auth=auth) soup = BeautifulSoup(r.text,"html.parser") viewstate_element = soup.find(id = "__VIEWSTATE").attrs viewstate = viewstate_element["value"]

schöne Suppe, die nur den Wert in den tag

Anzahl der Antworten 3 Antworten
Den folgenden Befehl ein: volume = soup.findAll("span", {"id": "volume"})[0] gibt: <span class="gr_text1" id="volume">16,103.3</span> Problem, wenn ich einen Druck(das Volumen). Wie bekomme ich nur die Nummer? Das klappte :-). Wenn Sie es post, als Antwort, ich werde markieren

Konvertieren von HTML in CSV

Anzahl der Antworten 2 Antworten
Möchte ich zum konvertieren einer HTML-Tabelle als gewonnen aus dem Skript unten in eine CSV-Datei, aber habe Typ-Fehler wie folgt: TypeError: sequence Element 0: erwartet string, Tag gefunden from bs4 import BeautifulSoup import urllib2 url = 'http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3_en.php?block_no=47401&view=1'

Suchen und Ersetzen in HTML mit BeautifulSoup

Anzahl der Antworten 3 Antworten
Möchte ich BeautfulSoup suchen und ersetzen <\a> mit <\a><br>. Ich weiß, wie Sie auf öffnen mit urllib2 und dann analysieren und zu extrahieren Sie alle <a> - tags. Was ich will zu tun ist, suchen Sie und

"unit-tests fehlgeschlagen" für beautifulsoup

Anzahl der Antworten 1 Antworten
ich versuche zu installieren beautifulsoup für python33 aber nicht ordnungsgemäß installieren es gibt Fehler wie: C:\Python33>pip install beautifulsoup Downloading/unpacking beautifulsoup Downloading BeautifulSoup-3.2.1.tar.gz Running setup.py egg_info for package beautifulsoup Traceback (most recent call last): File "<string>", line 16,

Python-beautifulsoup Iteration über der Tabelle

Anzahl der Antworten 2 Antworten
Ich versuche, mich zu kratzen Tabelle Daten in eine CSV-Datei. Leider, den ich getroffen habe, eine Straße zu blockieren und den folgenden code einfach wiederholt die TD aus dem ersten TR für alle nachfolgenden TRs. import urllib.request

Wie finden Sie das Kommentar-tag <!--...--> mit BeautifulSoup?

Anzahl der Antworten 2 Antworten
Habe ich versucht die Suppe.find('!--') aber es scheint nicht zu funktionieren. Vielen Dank im Voraus. Edit: Danke für den Tipp, wie man finden alle Kommentare. Ich habe ein follow-up-Frage. Wie kann ich speziell Suche für ein Kommentar?

beautifulsoup findAll find_all

Anzahl der Antworten 2 Antworten
Möchte ich parse eine html-Datei mit Python und dem Modul I ist beautifulsoup. Nachdem ich es benutzt habe, geschah etwas merkwürdiges.Es wird gesagt, dass die Funktion "find_all" ist gleiche wie "findAll", aber ich habe versucht die beiden

So finden Sie Elemente, die durch die Klasse

Anzahl der Antworten 11 Antworten
Ich habe Probleme mit dem Parsen von HTML-Elementen mit der Klasse "class" - Attribut mit Beautifulsoup. Der code sieht so aus soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div

Python-BeautifulSoup-Schleife

Anzahl der Antworten 1 Antworten
Dank diesem board habe ich es geschafft, um den Namen und den Preis des Artikels möchte ich mit diesem code: import urllib2 from BeautifulSoup import BeautifulSoup import re html = urllib2.urlopen('http://www.toolventure.co.uk/hand-tools/saws/').read() soup = BeautifulSoup(html) item = re.sub('\s+',

ImportError: No module named html.Personen

Anzahl der Antworten 1 Antworten
Ich bin neu in python. Ich bin mit python-2.7.5. Ich will schreiben, ein web-crawler. Für die, die ich installiert habe BeautifulSoup 4.3.2. Ich habe es installiert mit diesem Befehl(ich habe nicht benutzt, pip) python setup.py install Ich

Warnung: Einige Zeichen konnten nicht entschlüsselt werden, und wurden ersetzt durch die ERSATZ-ZEICHEN

Anzahl der Antworten 1 Antworten
Ich bin erstellen Sie ein Skript zum download einige mp3-podcasts, die von einer Website aus und schreiben Sie Sie auf einen bestimmten Standort. Ich bin fast fertig, und die Dateien werden heruntergeladen und erstellt. Allerdings bin ich

ImportError: No module named bs4, weil in die falsche python-Ordner

Anzahl der Antworten 1 Antworten
Ich bin neu in Python. Ich versuche nur, zu extrahieren eines string aus einer HTML-Datei. Ich kann nicht damit es funktioniert. Alle reden über das Schöne Suppe, aber es funktioniert nicht für mich... Dies ist mein Fehler:

Einfaches Beispiel BeautifulSoup Python

Anzahl der Antworten 1 Antworten
Arbeitete ich ein einfaches Beispiel mit BeautifulSoup, aber ich war immer komisch resutls. Hier ist mein code: soup = BeautifulSoup(page) print soup.prettify() stuff = soup.findAll('td', attrs={'class' : 'prodSpecAtribtue'}) print stuff Wenn ich Druck bekomme ich: Nicht

Python 3.4 Installation des bs4 - Läuft Python2 nicht Python ist3

Anzahl der Antworten 5 Antworten
Heute ist ein schrecklicher Tag für mich. Ich bin so frustriert, weil ich habe die letzten 4 Stunden versucht zu installieren beautifulsoup4. Ich habe gesucht, jedes tutorial kann ich meine Hände bekommen. Es ist auf meinem computer

UnicodeEncodeError: 'cp949' codec can T encode character '\u20a9' in position 90: illegal multibyte sequence

Anzahl der Antworten 1 Antworten
Ich bin python-Anfänger. Ich versuche zu krabbeln google play store und export in eine csv-Datei. Aber ich bekam eine Fehlermeldung. UnicodeEncodeError: 'cp949' codec can't encode character '\u20a9' in position 90: illegal multibyte sequence Hier ist mein source-code.

Mit BeautifulSoup zum extrahieren der Titel von dem link

Anzahl der Antworten 2 Antworten
Ich versuche, extrahieren der Titel von einem link mit BeautifulSoup. Der code, mit dem ich arbeite ist wie folgt: url = "http://www.example.com" source_code = requests.get(url) plain_text = source_code.text soup = BeautifulSoup(plain_text, "lxml") for link in soup.findAll('a', {'class':

Python-Beautifulsoup img-tag Parsen

Anzahl der Antworten 4 Antworten
Ich bin mit beautifulsoup Parsen alle img-tags, die in 'www.youtube.com' Den code import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2.urlopen('http://www.youtube.com/') soup = BeautifulSoup(page) tags=soup.findAll('img') Bin aber nicht immer alle img-tags.Der erste img-tags sind unwirksam, auch. Img-tags,

So finden Sie alle text in <p> - Elemente in einer HTML-Seite mit BeautifulSoup

Anzahl der Antworten 2 Antworten
Ich muss alle sichtbar-tags innerhalb von Absatz-Elemente in einer HTML-Datei mit BeautifulSoup Python. Zum Beispiel <p>Many hundreds of named mango <a href="/wiki/Cultivar" title="Cultivar">cultivars</a> exist.</p> sollte zurückgeben: Many hundreds of cultivars exist. P. S. Einige Dateien, die Unicode-Zeichen

Wie die Rückkehr der Klartext aus dem Schönen Suppe anstelle von unicode

Anzahl der Antworten 2 Antworten
Ich bin mit BeautifulSoup4 zu kratzen, diese web-Seite, aber ich bin immer die komischen unicode-text, BeautifulSoup gibt. Hier ist mein code: site = "http://en.wikipedia.org/wiki/"+a+"_"+str(b) hdr = {'User-Agent': 'Mozilla/5.0'} req = urllib2.Request(site,headers=hdr) req.add_header('Accept-enconding', 'gzip') #Header to check for

einfache web-crawler

Anzahl der Antworten 1 Antworten
schrieb ich unten Programm in python für sehr einfache web-crawler, aber wenn ich es mir zurück 'NoneType' object ist nicht aufrufbar' , könnten Sie mir bitte helfen? import BeautifulSoup import urllib2 def union(p,q): for e in q:

ANSI, ASCII, Unicode und Kodierung Verwirrung mit Python

Anzahl der Antworten 3 Antworten
War ich gerne mit BeautifulSoup und ich bin auch mit einem text-Datei als Eingabe-Parameter von meinem Python-Skript. Stieß ich dann auf das berühmte "UnicodeEncodeError" Fehler. Ich gelesen habe Fragen, die hier bei SO aber ich bin immer

Lesen Sie den Inhalt des <script> mit BeautifulSoup

Anzahl der Antworten 2 Antworten
Habe ich versucht zu Lesen, die Quelle einer website mit den folgenden: import urllib2 from BeautifulSoup import BeautifulSoup url = 'http://www.myurl.com/' headers = {'User-Agent' : 'Mozilla/5.0'} request = urllib2.Request(url,None,headers) soup = BeautifulSoup(urllib2.urlopen(request).read()) Ich weiter einzugrenzen, als scriptResults

ersetzen von html-tags mit BeautifulSoup

Anzahl der Antworten 4 Antworten
Ich bin derzeit Neuformatierung einige HTML-Seiten mit BeautifulSoup, und ich lief in bisschen ein problem. Mein problem ist, dass die original-HTML-hat Dinge wie diese: <li><p>stff</p></li> und <li><div><p>Stuff</p></div></li> sowie <li><div><p><strong>stff</strong></p></div><li> Mit BeautifulSoup ich hoffe, zur Beseitigung der div

Extrahieren Sie die Nummer von einer website mit beautifulsoup Python

Anzahl der Antworten 7 Antworten
Ich bin versucht, das urllib zu greifen, eine html-Seite, dann verwenden Sie beautifulsoup zum extrahieren von Daten aus. Ich möchte die Anzahl von comments_42.html und drucken Sie die Summe von Ihnen, dann Anzeige der Anzahl von Daten.

Python + BeautifulSoup: Wie man 'href' - Attribut des 'a' - element?

Anzahl der Antworten 3 Antworten
Habe ich Folgendes: html = '''<div class=“file-one”> <a href=“/file-one/additional” class=“file-link"> <h3 class=“file-name”>File One</h3> </a> <div class=“location”> Down </div> </div>''' Erhalten und möchte nur den text von href die /file-one/additional. Also ich hab: from bs4 import BeautifulSoup soup

Schöne Suppe: Zugriff auf <li> Elemente aus <ul> ohne id

Anzahl der Antworten 2 Antworten
Ich versuche, mich zu kratzen, die Leute, die Geburtstag haben, von diesem Wikipedia-Seite Hier ist der bisherige code: hdr = {'User-Agent': 'Mozilla/5.0'} site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1" req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req) soup = BeautifulSoup(page) print soup Diesem

Ich kann nicht importiert schönen Suppe auf python

Anzahl der Antworten 2 Antworten
Installierte ich eine Schöne Suppe Bibliothek, und scheint es gut einrichten, da es die " bs4 " Ordner in C:\Python33\Lib\site-packages. (ich änderte den Namen in "bs4", bevor installation, und es ging das gleiche nach Installation) aber wenn

Warum ist BeautifulSoup nicht die Suche nach einer bestimmten Tabelle Klasse?

Anzahl der Antworten 2 Antworten
Ich bin mit Schönen Suppe zu versuchen und kratzen der Rohstoffe Tabelle aus Oil-Price.net. Ich finde das erste div, table, table Körper, und die Zeilen der Tabelle Körper. Aber es ist eine Spalte in einer der Zeilen,

Wie zu kratzen, Echtzeit-streaming-Daten mit Python?

Anzahl der Antworten 3 Antworten
Ich versuchte, mich zu kratzen, die Anzahl der Flüge für diese Webseite https://www.flightradar24.com/56.16,-49.51 Die Nummer markiert ist im Bild unten: Die Anzahl aktualisiert wird alle 8 Sekunden. Dies ist, was ich versucht habe mit BeautifulSoup: import requests

install BeautifulSoup

Anzahl der Antworten 3 Antworten
im Laufenden python 3.1.2 auf meinem ubuntu 10.04 welche version von BeautifulSoup muss ich installieren und wie? ich bereits download-version 3.2 und führen sudo python3 setup.py install hat aber nicht funktioniert thnx EDIT : Der Fehler den

Schöne Suppe findAll nicht, Sie alle zu finden

Anzahl der Antworten 1 Antworten
Ich versuche zu analysieren, eine website und erhalten Sie einige Infos mit BeautifulSoup.findAll-aber es funktioniert nicht, Sie alle zu finden.. ich bin mit Python ist3 der code ist #!/usr/bin/python3 from bs4 import BeautifulSoup from urllib.request import urlopen

Entfernen neue Zeile '\n' aus der Ausgabe von python-BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich bin mit python Schönen Suppe für den Inhalt: <div class="path"> <a href="#"> abc</a> <a href="#"> def</a> <a href="#"> ghi</a> </div> Mein code ist wie folgt: html_doc="""<div class="path"> <a href="#"> abc</a> <a href="#"> def</a> <a href="#"> ghi</a>

ValueError: invalid literal for int() with base 10: '196.41'

Anzahl der Antworten 2 Antworten
Ich verstehe nicht, warum es funktioniert mit verschiedenen Szenarien, aber nicht mit dieser. Im Grunde, einige Leute halfen mir aus HIER mit der Verbesserung meiner code zu kratzen Wetter, die perfekt funktioniert. Dann habe ich versucht, das

Warten Sie das laden der Seite, bevor man Daten mit Anfragen.Holen Sie sich in python 3

Anzahl der Antworten 2 Antworten
Ich habe eine Seite, die ich brauche, um die Quelle zu verwenden, mit BS4, aber in der Mitte der Seite dauert 1 Sekunde(vielleicht auch weniger) zum laden der Inhalte und Anforderungen.Holen Sie fängt den Quellcode der Seite,