Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

das urllib.Anfrage.urlopen(url) mit Authentifizierung

Anzahl der Antworten 2 Antworten
Ich habe das Spiel mit schönen Suppe und Parsen von web-Seiten für ein paar Tage. Ich habe mit eine code-Zeile, die war mein Retter in allen scripts, die ich Schreibe. Die Zeile code : r = requests.get('some_url',

HTML-parsing mit BeautifulSoup 4 und Python

Anzahl der Antworten 1 Antworten
Ich versuche zu analysieren, die resultlist der http://mobile.de. Zuerst versuchte ich es mit der HTMLParser Klasse, aber ich bekam eine Fehlermeldung: HTMLParser.HTMLParseError: EOF in middle of construct. Also versuchte ich es mit BeautifulSoup 4 was ist besser

How to install beautifulsoup in Python ist3, wenn der Standard-dir ist python2.7?

Anzahl der Antworten 4 Antworten
Habe ich sowohl python 2.7, Python ist3.5 installiert. Wenn ich "pip installieren beautifulsoup4" es sagt mir , es ist bereits installiert python2.7/site-package-Verzeichnis. Aber wie installiere ich es in Python ist3 dir? Durch ausführen pip3 statt? Möglich, Duplikat

Wie zum extrahieren von JSON-Objekt, das definiert wurde, in eine HTML-Seite javascript-block mit Python?

Anzahl der Antworten 3 Antworten
Ich bin das herunterladen von HTML-Seiten, die definierten Daten in der folgenden Weise: ... <script type= "text/javascript"> window.blog.data = {"activity":{"type":"read"}}; </script> ... Ich möchte zum extrahieren von JSON-Objekt definiert in " - Fenster.blog.Daten'. Gibt es eine einfachere

beautifulsoup nicht erkennen lxml

Anzahl der Antworten 2 Antworten
Versuche ich zu verwenden lxml wie der parser für BeautifulSoup, weil das Standard ist man VIEL langsamer, aber ich bin immer diese Fehlermeldung: soup = BeautifulSoup(html, "lxml") File "/home/rob/python/stock/local/lib/python2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't

BeautifulSoup, ein Wörterbuch aus einer HTML-Tabelle

Anzahl der Antworten 3 Antworten
Ich versuche, mich zu kratzen Tabelle Daten von einer website. Hier ist ein einfaches Beispiel Tabelle: t = '<html><table>' +\ '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ '<tr><td class="label"> b </td> <td> 2 </td></tr>' +\ '<tr><td

So laden Sie alle Einträge in eine unendliche scrollen auf einmal zu Parsen den HTML-Code in python

Anzahl der Antworten 3 Antworten
Ich bin versucht, extrahieren von Informationen aus auf dieser Seite. Die Seite lädt 10 Gegenstände zur Zeit, und ich muss scrollen um das laden aller Einträge (insgesamt 100). Ich bin in der Lage zu analysieren, die HTML-und

Holen Sie sich den Inhalt von Klassennamen mit Schönen Suppe

Anzahl der Antworten 6 Antworten
Mit Schönen Suppe Modul, wie bekomme ich Daten von einem div tag, dessen Klassenname feeditemcontent cxfeeditemcontent? Ist es: soup.class['feeditemcontent cxfeeditemcontent'] oder: soup.find_all('class') Dies ist die HTML-Quelle: <div class="feeditemcontent cxfeeditemcontent"> <div class="feeditembodyandfooter"> <div class="feeditembody"> <span>The actual data is

Wie kann ich die strip-Kommentar-tags aus HTML mit BeautifulSoup?

Anzahl der Antworten 2 Antworten
Ich Spiele mit BeautifulSoup, das ist toll. Mein end Ziel ist es zu versuchen und Holen Sie sich den text von einer anderen Seite. Ich versuche nur, um den text aus dem Körper, mit einem speziellen Fall,

BeautifulSoup: AttributeError: 'NavigableString' - Objekt hat kein Attribut 'name'

Anzahl der Antworten 3 Antworten
Weißt du, warum das erste Beispiel in BeautifulSoup tutorial http://www.crummy.com/software/BeautifulSoup/documentation.html#QuickStart gibt AttributeError: 'NavigableString' object has no attribute 'name'? Nach diese Antwort die Leerzeichen in der HTML das problem verursacht. Ich habe versucht, mit Quellen von ein paar

Analysieren Sie die JavaScript zurück von BeautifulSoup

Anzahl der Antworten 5 Antworten
Möchte ich zum Parsen der Webseite http://dcsd.nutrislice.com/menu/meadow-view/lunch/ zu greifen heutigen Mittagsmenü. (Ich habe gebaut, ein Adafruit #IoT-Thermal-Drucker, und ich möchte, um automatisch zu drucken das Menü jeden Tag.) Ich zunächst näherte sich diesem mit BeautifulSoup aber es

Python-Requests: Anfragen.Ausnahmen.TooManyRedirects: Überschreitung der 30 leitet

Anzahl der Antworten 3 Antworten
Ich versuche zu kriechen, diese Seite mit python-requests-Bibliothek import requests from lxml import etree,html url = 'http://www.amazon.in/b/ref=sa_menu_mobile_elec_all?ie=UTF8&node=976419031' r = requests.get(url) tree = etree.HTML(r.text) print tree aber ich habe oben genannten Fehler. (TooManyRedirects) Ich habe versucht, zu verwenden

Schöne Suppe Unicode codieren-Fehler

Anzahl der Antworten 1 Antworten
Ich versuche den folgenden code mit einem bestimmten HTML-Datei from BeautifulSoup import BeautifulSoup import re import codecs import sys f = open('test1.html') html = f.read() soup = BeautifulSoup(html) body = soup.body.contents para = soup.findAll('p') print str(para).encode('utf-8') Bekomme

Holen Sie sich meta-tag content-Eigenschaft mit Python und BeautifulSoup

Anzahl der Antworten 2 Antworten
Ich versuche die Verwendung von python und schöne Suppe, den Inhalt zu extrahieren-Teil des tags unten: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" /> Ich bin immer BeautifulSoup zu laden Sie die Seite einfach

BeautifulSoup webscraping find_all( ): Suche nach exakter übereinstimmung

Anzahl der Antworten 2 Antworten
Bin ich mit Python und BeautifulSoup für web-scraping. Können sagen, ich habe den folgenden html-code zu kratzen: <body> <div class="product">Product 1</div> <div class="product">Product 2</div> <div class="product special">Product 3</div> <div class="product special">Product 4</div> </body> Mit BeautifulSoup, ich will

Schön ist Suppe erhältlich für Python 3.4.1?

Anzahl der Antworten 4 Antworten
Ich will, um zu versuchen und machen ein Programm, dass downloads von Bildern aus dem internet, die ich gefunden habe, eine Anleitung, die verwendet Schöne Suppe. Ich habe gehört, der Schöne Suppe vor, so dass ich dachte,

Entfernen <br> - tags analysiert eine Schöne Suppe Liste?

Anzahl der Antworten 4 Antworten
Ich bin derzeit immer in eine for-Schleife mit allen Zeilen, die ich will: page = urllib2.urlopen(pageurl) soup = BeautifulSoup(page) tables = soup.find("td", "bodyTd") for row in tables.findAll('tr'): An dieser Stelle, ich habe meine Informationen, aber die <br

Wie kann ich ersetzen oder entfernen von HTML-Entitäten wie "&nbsp;" mit BeautifulSoup 4

Anzahl der Antworten 3 Antworten
Bin ich die Verarbeitung von HTML mittels Python und BeautifulSoup 4 Bibliothek und ich kann nicht finden, eine offensichtliche Weise zu ersetzen &nbsp; mit einem Leerzeichen. Stattdessen scheint es konvertiert eine Unicode-non-breaking space character. Übersehe ich hier

Die Prüfung für Attribute in BeautifulSoup?

Anzahl der Antworten 4 Antworten
Ich bin Parsen, Daten aus HTML zu Fuß durch die Elemente auf einer bestimmten Ebene mit nextSibling, und machen verschiedene Dinge je nach tag-name und Klasse von jedem element begegnet. z.B., if n.name == "p" and n.class

Ubuntu - Wie installiert man ein Python-Modul (BeautifulSoup) auf Python 3.3 anstelle von Python 2.7?

Anzahl der Antworten 4 Antworten
Habe ich diesen code (wie geschrieben BS4 documentaion): from bs4 import BeautifulSoup Wenn ich das Skript (mit Python ist3) bekomme ich die Fehlermeldung: ImportError: No module named 'bs4' So installiert BeatifulSoup von: sudo pip install BeatifulSoup4 Aber

Extrahieren von Daten aus HTML-Dateien mit Python und BeautifulSoup

Anzahl der Antworten 1 Antworten
Brauche ich zum extrahieren von Daten aus HTML-Dateien. Die betroffenen Dateien sind, die meisten wahrscheinlich automatisch generiert. Hochgeladen habe ich den code einer dieser Dateien auf Pastebin: http://pastebin.com/9Nj2Edfv. Das ist der link zu der eigentlichen Seite: http://eur-lex.europa.eu/Notice.do?checktexts=checkbox&val=60504%3Acs&pos=1&page=1&lang=en&pgs=10&nbl=1&list=60504%3Acs%2C&hwords=&action=GO&visu=%23texte

Wie man ein verschachteltes element in der schönen Suppe

Anzahl der Antworten 2 Antworten
Ich bin kämpfen mit der erforderlichen syntax zu greifen einige hrefs in einer td. Die table -, tr-und td-Elemente müssen keine Klasse oder id. Wenn ich wollte, greifen Sie den Anker in diesem Beispiel, was würde ich

Wo ist BeautifulSoup4 versteckt?

Anzahl der Antworten 3 Antworten
Habe ich sudo pip install BeautifulSoup4 und bekam eine schrecklich optimistisch Antwort: Downloading/unpacking beautifulsoup4 Running setup.py egg_info for package beautifulsoup4 Installing collected packages: beautifulsoup4 Running setup.py install for beautifulsoup4 Successfully installed beautifulsoup4 Cleaning up.. aber wenn ich

beautifulSoup html csv

Anzahl der Antworten 1 Antworten
Guten Abend, ich habe BeautifulSoup zu extrahieren einige Daten von einer website wie folgt: from BeautifulSoup import BeautifulSoup from urllib2 import urlopen soup = BeautifulSoup(urlopen('http://www.fsa.gov.uk/about/media/facts/fines/2002')) table = soup.findAll('table', attrs={ "class" : "table-horizontal-line"}) print table Dies gibt die

Python-beautifulsoup - erste input-Wert

Anzahl der Antworten 2 Antworten
Habe ich viele Zeilen wie diese: <tr> <td>100</td> <td>200</td> <td><input type="radio" value="123599"></td> </tr> Durchlaufen mit: table = BeautifulSoup(response).find(id="sometable") # Make soup. for row in table.find_all("tr")[1:]: # Find rows. cells = row.find_all("td") # Find cells. points = int(cells[0].get_text())

Vorschläge get_text() in BeautifulSoup

Anzahl der Antworten 2 Antworten
Ich bin mit BeautifulSoup Parsen einige Inhalte aus einer html-Seite. Kann ich extrahieren aus dem html die Inhalte, die ich will (also den text in ein span definiert durch die class myclass"). result = mycontent.find(attrs={'class':'myclass'}) Ich erhalten

BeautifulSoup: Hole den Inhalt einer bestimmten Tabelle

Anzahl der Antworten 3 Antworten
Meine lokalen Flughafen disgracefully blockiert Benutzer ohne IE, und sieht schrecklich. Ich möchte schreiben Sie ein Python-Skripte, die die Inhalte der an-und Abreise die Seiten alle paar Minuten, und zeigen Sie Sie in einem besser lesbaren Weise.

mit python urllib2 POST-Anforderung zu senden und eine Reaktion zu erhalten

Anzahl der Antworten 1 Antworten
Ich versuche die HTML-Seite zurück sendet eine POST-Anforderung: import httplib import urllib import urllib2 from BeautifulSoup import BeautifulSoup headers = { 'Host': 'digitalvita.pitt.edu', 'Connection': 'keep-alive', 'Content-Length': '325', 'Origin': 'https://digitalvita.pitt.edu', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4)

Wie speichern zurück änderungen an einer HTML-Datei mit BeautifulSoup Python?

Anzahl der Antworten 1 Antworten
Python noob hier... Ich habe das Skript unten, das ändert die hrefs für eine html-Datei (in der Zukunft wird es eine Liste von HTML-Dateien in einem Verzeichnis). Mit beautifulSoup ich es geschafft, Zugriff auf die tag-Werte und

Konvertieren einer HTML-Tabelle zu JSON

Anzahl der Antworten 1 Antworten
Ich versuche zu konvertieren eine Tabelle, die ich entpackt habe über BeautifulSoup in JSON. Bisher habe ich es geschafft zu isolieren, die alle Zeilen, aber ich bin mir nicht sicher, wie Sie mit den Daten von hier

python/beautifulsoup zu finden, alle <a href> mit spezifischen Anker-text

Anzahl der Antworten 1 Antworten
Ich versuche, mit schönen Suppe zum analysieren von html und finden Sie alle href-mit einer spezifischen Anker-tag <a href="http://example.com">TEXT</a> <a href="http://example.com/link">TEXT</a> <a href="http://example.com/page">TEXT</a> alle links, die ich Suche, haben die exakt gleichen anchor-text, in diesem Fall TEXT.

Analysieren von Daten mit BeautifulSoup Python

Anzahl der Antworten 2 Antworten
Ich bin versucht, BeautifulSoup Parsen durch einen DOM-Baum, und extrahieren Sie die Namen der Autoren. Unten ist ein Ausschnitt des HTML-zeigen die Struktur des Codes werde ich kratzen. <html> <body> <div class="list-authors"> <span class="descriptor">Authors:</span> <a href="/find/astro-ph/1/au:+Lin_D/0/1/0/all/0/1">Dacheng Lin</a>,

Python-BeautifulSoup findAll von "class" - Attribut

Anzahl der Antworten 2 Antworten
Möchte ich die folgenden code, das ist, was BS Dokumentation zu tun, sagt, das problem ist nur, dass das Wort "Klasse" ist nicht nur ein Wort. Es kann gefunden werden innerhalb von HTML, aber es ist auch

Bei der Suche nach bestimmten link w/ beautifulsoup

Anzahl der Antworten 2 Antworten
Hallo, ich kann nicht herausfinden, wie finden Sie links, die beginnen mit bestimmten text für das Leben von mir. findall('a') funktioniert gut, aber es ist viel zu viel. Ich will einfach nur, um eine Liste aller links,

BeautifulSoup: object of type 'Antwort' has no len()

Anzahl der Antworten 3 Antworten
Problem: wenn ich versuche das script ausführen, BeautifulSoup(html, ...) gibt die Fehlermeldung "TypeError: object of type 'Antwort' has no len(). Ich habe versucht, vorbei am eigentlichen html als parameter, aber es funktioniert immer noch nicht. import requests

BeautifulSoup - suchen Sie nach text innerhalb eines Tags

Anzahl der Antworten 3 Antworten
Beobachten Sie das folgende problem: import re from bs4 import BeautifulSoup as BS soup = BS(""" <a href="/customer-menu/1/accounts/1/update"> Edit </a> """) # This returns the <a> element soup.find( 'a', href="/customer-menu/1/accounts/1/update", text=re.compile(".*Edit.*") ) soup = BS(""" <a href="/customer-menu/1/accounts/1/update">

Immer das N-te element mit BeautifulSoup

Anzahl der Antworten 4 Antworten
Aus einer großen Tabelle möchte ich Lesen die Zeilen 5, 10, 15, 20 ... mit BeautifulSoup. Wie mache ich das? Ist findNextSibling und einem inkrementierenden Zähler der Weg zu gehen? InformationsquelleAutor der Frage aadvaark | 2012-01-04

was sollte ich stattdessen verwenden von urlopen in urllib3

Anzahl der Antworten 3 Antworten
Wollte ich schreiben, ein code wie vorher... so wie hier: from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup = BeautifulSoup(html) Aber ich fand ich habe die Installation urllib3 jetzt. Aber coudntfind jedem

Python-BeautifulSoup kratzen Tabellen

Anzahl der Antworten 1 Antworten
Ich versuche eine Tabelle erstellen, die kratzen mit BeautifulSoup. Ich schrieb diesen Python-code: import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = BeautifulSoup(page) for i

Beautifulsoup = extrahieren Sie den Inhalt in einem tag

Anzahl der Antworten 2 Antworten
Möchte ich extrahieren Sie den Inhalt "Hallo Welt". Bitte beachten Sie, dass es gibt Vielfache <table> und ähnliche <td colspan="2"> auf der Seite als auch. ich habe versucht, die folgenden: hello = soup.find(text='Name: ') hello.findPreviousSiblings Aber wieder

Selen versus BeautifulSoup für web-scraping

Anzahl der Antworten 2 Antworten
Ich bin Schaben-Inhalt von einer website auf Basis von Python. Zuerst nutzte ich BeautifulSoup und Mechanize auf Python, aber ich sah, dass die website hatte eine Schaltfläche, die erstellten Inhalte über JavaScript, so dass ich mich entschieden

Nur das extrahieren von text aus diesem element, nicht die Kinder

Anzahl der Antworten 4 Antworten
Ich will nur extrahieren den text aus dem obersten element meiner Suppe, aber Suppe.text gibt den text der alle Kind-Elemente: Habe ich import BeautifulSoup soup=BeautifulSoup.BeautifulSoup('<html>yes<b>no</b></html>') print soup.text Den Ausgang dieser ist yesno. Ich will einfach 'ja'. Was

Wie bekommt man alle Zeilen einer bestimmten Tabelle mit BeautifulSoup?

Anzahl der Antworten 1 Antworten
Ich Lerne Python und BeautifulSoup zu kratzen-Daten aus dem Internet und Lesen Sie eine HTML-Tabelle. Lesen kann ich es in Open Office und es sagt, dass es ist Tisch #11. Scheint es, wie BeautifulSoup ist die bevorzugte

HTTPError: HTTP Error 403: Forbidden

Anzahl der Antworten 1 Antworten
Ich ein python-script für den persönlichen Gebrauch, aber es funktioniert nicht für wikipedia... Dieser Arbeit: import urllib2, sys from bs4 import BeautifulSoup site = "http://youtube.com" page = urllib2.urlopen(site) soup = BeautifulSoup(page) print soup Diese nicht funktionieren: import

Python 2.7 Schönen Suppe Img Src Entpacken

Anzahl der Antworten 4 Antworten
for imgsrc in Soup.findAll('img', {'class': 'sizedProdImage'}): if imgsrc: imgsrc = imgsrc else: imgsrc = "ERROR" patImgSrc = re.compile('src="(.*)".*/>') findPatImgSrc = re.findall(patImgSrc, imgsrc) print findPatImgSrc ''' <img height="72" name="proimg" id="image" class="sizedProdImage" src="http://imagelocation" /> Dies ist, was ich versuche

Wie behandeln IncompleteRead: in python

Anzahl der Antworten 7 Antworten
Ich bin versucht zu Holen von Daten von einer website. Aber es gibt mir incomplete read. Die Daten, die ich versuche zu bekommen ist eine riesige Menge von verschachtelten links. Ich habe einige der Forschung online und

Python: BeautifulSoup extrahieren von text aus Anker-tag

Anzahl der Antworten 5 Antworten
Möchte ich zum extrahieren von text aus folgenden src von dem image-tag und der text der anchor-tag innerhalb des div-class " - Daten. Habe ich erfolgreich entpacken-img-src aber ich habe Schwierigkeiten, auf der Extraktion von text aus

UnicodeEncodeError beim schreiben in eine Datei

Anzahl der Antworten 3 Antworten
Bin ich zu schreiben versucht, einige strings in eine Datei (die Saiten wurden mir von der HTML-parser BeautifulSoup). Ich verwenden können, "drucken", um Sie anzuzeigen, aber wenn ich die Datei.write() bekomme ich die folgende Fehlermeldung: UnicodeEncodeError: 'ascii'

Finden Sie einen bestimmten tag mit BeautifulSoup

Anzahl der Antworten 2 Antworten
Kann ich die traverse generic-tags einfach mit BS, aber ich weiß nicht, wie die Suche nach bestimmten tags. Zum Beispiel, wie finde ich alle stellen <div style="width=300px;">? Ist das möglich mit BS? InformationsquelleAutor der Frage Jane |

BeautifulSoup: Wie extrahiere ich alle die <li>s aus einer Liste von <ul>s, enthält einige verschachtelte <ul>s?

Anzahl der Antworten 2 Antworten
Mein Quellcode sieht wie folgt aus: <h3>Header3 (Start here)</h3> <ul> <li>List items</li> <li>Etc...</li> </ul> <h3>Header 3</h3> <ul> <li>List items</li> <ul> <li>Nested list items</li> <li>Nested list items</li></ul> <li>List items</li> </ul> <h2>Header 2 (end here)</h2> Möchte ich all die