Tag: beautifulsoup
Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.
1
Antworten
Ok, ich versuche, opener mit schönen Suppe zu extrahieren einige Informationen von einer Seite, und ich denke, das ist, wo das problem entsteht. Ich opener, weil ich Umweg über Tor, da ich denke, dass Sie blockiert haben
1
Antworten
Ich Spiele mit BeautifulSoup 4 und ich habe diesen html-code: </tr> <tr> <td id="freistoesse">Giraffe</td> <td>14</td> <td>7</td> </tr> Ich will passen beide Werte zwischen <td> - tags, so dass hier 14-und 7. Habe ich versucht, dieses: giraffe =
1
Antworten
Ich suchte eine Menge ähnlicher Fragen auf ALSO, aber nicht eine genaue übereinstimmung mit meinem Fall. Ich versuche, ein video herunterladen mit python 2.7 Hier ist mein code für den Download der video - import urllib2 from
2
Antworten
Gegeben <a href="www.example.com/"></a> <table class="theclass"> <tr><td> <a href="www.example.com/two">two</a> </td></tr> <tr><td> <a href ="www.example.com/three">three</a> <span>blabla<span> </td></td> </table> Wie kann ich Schaben nur der, der Inner table class="Klasse"? Ich habe versucht, mit soup = util.mysoupopen(theexample) infoText = soup.findAll("table", {"class":
1
Antworten
Bin ich auf einen seltsamen Fehler. Ich bin versucht zu tun, einige grundlegende Analyse. Im Grunde genommen bin ich das sammeln der Daten in 'x' - format, und will alles zurückgeben, was in einem format, das ich
3
Antworten
Ich versuche, mich zu kratzen, Daten aus der morningstar-website unter: http://financials.morningstar.com/ratios/r.html?t=IBM®ion=USA&culture=de_de Ich bin derzeit versuchen zu tun, nur IBM sondern auch die Hoffnung, um schließlich in der Lage, geben Sie den code von einer anderen Firma, und
1
Antworten
Ich habe eine schriftliche Skript zum analysieren von html und drucken Sie den text content nur. Ich wollte ignorieren Sie die tags. Aber mein Programm hat ein problem. Ich bin nicht sicher, was es ist. Bitte helfen
2
Antworten
Ich versuche, die Daten aus einer Tabelle mit einer bestimmten ID, die ich kenne. Für einige Grund, der code gibt mir immer ein Keine Ergebnis. Aus dem HTML-code, den ich versuche zu analysieren: <table cellspacing="0" cellpadding="3" border="0"
2
Antworten
Habe ich die folgenden Wörterbuch: code dictionary = {u'News; comment; negative': u'contradictory about news', u'News; comment': u'something about news'} Will ich jetzt schreiben einige Python-code, der geht durch die dictionary-keys und trennt sich die codes und die
1
Antworten
Ich bin sehr neu in web-scraping mit Python, und ich bin wirklich eine harte Zeit mit extrahieren verschachtelten text aus HTML (p innerhalb div, um genau zu sein). Hier ist, was ich so weit gekommen: from bs4
2
Antworten
Ich versuche, mich zu kratzen, eine website mit BeautifulSoup aber ich habe ein problem. Ich war nach einem tutorial gemacht in python 2.7 und es hatte genau den gleichen code drin und hatte keine Probleme. import urllib.request
1
Antworten
Habe ich dieses: dates = soup.findAll("div", {"id" : "date"}) Aber ich brauche die id um eine wildcard-Suche, da die id werden kann date_1, date_2 etc. InformationsquelleAutor user984003 | 2013-01-10
2
Antworten
Gibt es eine Möglichkeit zu finden, ein element mit nur das data-Attribut in html, und dann schnappen Sie sich diesen Wert? Z.B. mit dieser Zeile in einem html-doc: <ul data-bin="Sdafdo39"> Wie Kriege ich Sdafdo39 durch die Suche
6
Antworten
Ich versuche, Zugriff auf den Artikel-Inhalt von einer website, mit beautifulsoup mit dem folgenden code: site= 'www.example.com' page = urllib2.urlopen(req) soup = BeautifulSoup(page) content = soup.find_all('p') content=str(content) dem content-Objekt enthält alle Haupt-text von der Seite, ist innerhalb
1
Antworten
Habe ich folgende Bild html, und ich bin versucht, zu analysieren Informationen, die in alt. Zurzeit bin ich in der Lage, erfolgreich extrahieren von Bildern. html (Was ich derzeit analysieren <img class="rslp-p" alt="Sony Cyber-shot DSC-W570 16.1 MP
2
Antworten
Habe ich dieses: date = chunk.find_all('a', title=True, class_='tweet-timestamp js-permalink js-nav js-tooltip') Gibt: <a class="tweet-timestamp js-permalink js-nav js-tooltip" href="/15colleen/status/537395294133313536" title="3:59 PM - 25 Nov 2014"><span class="_timestamp js-short-timestamp " data-aria-label-part="last" data-long-form="true" data-time="1416959997" data-time-ms="1416959997000">Nov 25</span></a> Offensichtlich get_text()zurück Nov 25, aber
3
Antworten
from bs4 import BeautifulSoup import urllib.request import win_unicode_console win_unicode_console.enable() link = ('https://pietroalbini.io/') req = urllib.request.Request(link, headers={'User-Agent': 'Mozilla/5.0'}) url = urllib.request.urlopen(req).read() soup = BeautifulSoup(url, "html.parser") body = soup.find_all('div', {"class":"wrapper"}) print(body.text) Hallo, ich habe ein problem mit Schöne Suppe,
2
Antworten
Ich bin auf der Suche auf die Schaffung eines dictionary in python, wo der Schlüssel ist die html-tag-Namen und der Wert ist die Anzahl der Male der tag erschien. Gibt es eine Möglichkeit, dies zu tun mit
3
Antworten
Ich versuche zu lernen python, so dass ich beschloss, ein Skript schreiben, das könnte etwas übersetzen mit google translate. Bis jetzt schrieb ich dies: import sys from BeautifulSoup import BeautifulSoup import urllib2 import urllib data = {'sl':'en','tl':'it','text':'word'}
1
Antworten
Ich weiß, was ich versuche zu tun, ist einfach, aber es verursacht mir Kummer. Ich möchte, ziehen Sie Daten aus HTML mit Hilfe von BeautifulSoup. Zu tun, dass ich brauchen, um richtig zu verwenden Sie die .find()
2
Antworten
Habe ich folgenden HTML-code: <td class="image"> <a href="/target/tt0111161/" title="Target Text 1"> <img alt="target img" height="74" src="img src url" title="image title" width="54"/> </a> </td> <td class="title"> <span class="wlb_wrapper" data-caller-name="search" data-size="small" data-tconst="tt0111161"> </span> <a href="/target/tt0111161/"> Other Text </a> <span
2
Antworten
Habe ich heruntergeladen beautifulsoup4-4.5.3.tar.gz von https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/ und entpackt es auf meine python-Werk-Verzeichnis(das ist nicht meine python-install-Verzeichnis). Jedoch, wenn ich from bs4 import BeautifulSoup in meinem LEERLAUF der Fehler massage herausgesprungen: >>> from bs4 import BeautifulSoup Traceback (most
2
Antworten
Hier ist mein code: html = '''<img onload='javascript:if(this.width>950) this.width=950' src="http://ww4.sinaimg.cn/mw600/c3107d40jw1e3rt4509j.jpg">''' soup = BeautifulSoup(html) imgs = soup.findAll('img') print imgs[0].attrs Gibt es [(u'onload', u'javascript:if(this.width>950) this.width=950')] Wo ist die src Attribut? Wenn ich ersetzen html-von so etwas wie html =
1
Antworten
Arbeite ich mit BeautifulSoup, versucht zu analysieren ein einfaches HTML-Dokument sieht wie folgt aus: (Natürlich), die Struktur weiterhin auf diese grundlegende Art und Weise ein paar Ebenen tiefer. Aber gelegentlich ist es eine zusätzliche Kugel, die keine
2
Antworten
Ich analysiert eine gesamte HTML-Datei, extrahieren von URLs mit Beautifulsoup-Modul in Python, mit diesem Stückchen code: for link in soup.find_all('a'): for line in link : if "condition" in line : print link.get("href") und ich bekomme in der
3
Antworten
Ich versuche zu Schrott-Jahr & Sieger ( first & second Spalten ) aus der "Liste der Endrunden-matches" - Tabelle (die zweite Tabelle) http://en.wikipedia.org/wiki/List_of_FIFA_World_Cup_finals: Ich bin mit dem folgenden code: import urllib2 from BeautifulSoup import BeautifulSoup url =
3
Antworten
Wie man den text, wie pro Titel beträgt 21,427 gemäß der Abbildung unten. Ich versuchte dies und es funktionierte nicht: rating_count = soup.find("span", attrs={'class':'rating_count'}) print rating_count Dies ist die Ausgabe FWIW, die Leute hier bevorzugen den text
2
Antworten
Ich versuche, zu extrahieren und laden Sie alle Bilder von einer url. Ich schrieb ein Drehbuch import urllib2 import re from os.path import basename from urlparse import urlsplit url = "http://filmygyan.in/katrina-kaifs-top-10-cutest-pics-gallery/" urlContent = urllib2.urlopen(url).read() # HTML image
3
Antworten
Ich versuche, mich zu kratzen, Daten aus dem PGA.com website, um eine Tabelle aller von den Golfplätzen in den Vereinigten Staaten. In meiner CSV-Tabelle möchte ich den Namen des Golfplatzes ,der Adresse ,der Eigentumsverhältnisse ,Website , Telefonnummer.
2
Antworten
Ich habe einen einfachen code wie: p = soup.find_all("p") paragraphs = for x in p: paragraphs.append(str(x)) Ich versuche zu konvertieren, eine Liste, die ich von xml und wandelt es in ein string. Ich will, dass es
2
Antworten
Ich bin zu lernen, Selen und haben eine anständige Verständnis von XPATH. Ein Problem ich bin mit in ist dass auf einer web-Seite, es gibt ein element, ich will zu wählen, dass eine dynamisch generierte id und
3
Antworten
Ich bin verwirrt mit, wie schön die Suppe arbeiten, wenn Sie wollen, Krabbe ein Kind ein tag. Also, ich habe den folgenden HTML-code <div class="media item avatar profile"> <a href="http://..." class="media-link action-medialink"> <img class="media-item-img" src="http://...jpeg" alt="name" title="name"
2
Antworten
Diesem code: from bs4 import BeautifulSoup Funktioniert es nicht und gibt diese Fehlermeldung : raise AttributeError, "'%s' object has no attribute '%s'" % (self.__class__.__name__,attr) ^ SyntaxError: invalid syntax Was soll ich tun ? In Python 3.x, die
4
Antworten
Habe ich nochmals überprüft mein code angeschaut und vergleichbare Operationen, die auf das öffnen einer URL zu übergeben, web-Daten in Schöne Suppe, für einige Grund mein code nur nichts zurückgibt, obwohl es in der richtigen form: >>>
1
Antworten
Habe ich geparste html-Seite: mit beautifulsoup user_page = urllib2.urlopen(user_url) souping_page = bs(user_page) badges = souping_page.body.find('div', attrs={'class': 'badges'}) nachdem diese meine badges Objekt sieht wie folgt aus: <span><span title="9 gold badges"><span class="badge1"></span><span class="badgecount">9</span></span><span title="38 silver badges"><span class="badge2"></span><span class="badgecount">38</span></span><span
2
Antworten
Ich habe eine Seite mit Tabellen in Ihrer Quelle: <table width='100%' cellspacing='0' cellpadding='2' class='an'> <tr> <td width='35%' align='right'>XXX :</td> <td><b>20</b></td> </tr> <tr>< td align='right'>XXX :</td> <td><b>XXX</b></td> </tr> <tr> <td align='right'>XX :</td> <td><b>XXX</b></td> </tr> <tr> <td align='right'>XXX :</td>
1
Antworten
Ich versuche zu analysieren, eine website zu ziehen, einige Daten, die im Körper gespeichert, wie zum Beispiel diese: <body> <b>INFORMATION</b> Hookups: None Group Sites: No Station: No <b>Details</b> Ramp: Yes </body> Möchte ich nutzen, BeautifulSoup4 und RegEx
2
Antworten
Umgebung: Schöne Suppe 4 Python 2.7.5 Logik: 'find_all' <li> Instanzen, die innerhalb einer <ul> mit einer Klasse my_class zB: <ul class='my_class'> <li>thing one</li> <li>thing two</li> </ul> Klarstellung: Nur das 'text' zwischen den <li> - tags. Python-Code: (Find_all
2
Antworten
In einem bestimmten .html-Seite habe ich ein script-tag in etwa so: <script>jQuery(window).load(function () { setTimeout(function(){ jQuery("input[name=Email]").val("
[email protected]"); }, 1000); });</script> Wie kann ich Schöne Suppe zum extrahieren der E-Mail-Adresse? InformationsquelleAutor dundonian | 2016-07-24
2
Antworten
Ich versuche, laden Sie eine Reihe von pdf-Dateien aus hier mit Anfragen und beautifulsoup4. Das ist mein code: import requests from bs4 import BeautifulSoup as bs _ANO = '2013/' _MES = '01/' _MATERIAS = 'matematica/' _CONTEXT =
3
Antworten
Ich versuche, mit Schönen Suppe zu kratzen Gehäuse Preis Daten von Zillow. Bekomme ich die web-Seite von-property-id, zB. http://www.zillow.com/homes/for_sale/18429834_zpid/ Wenn ich versuche, den find_all() Funktion, ich bekomme keine Ergebnisse: results = soup.find_all('div', attrs={"class":"home-summary-row"}) Jedoch wenn ich den
1
Antworten
Hi ich will mir die Beschreibung der App im Google Playstore. (https://play.google.com/store/apps/details?id=com.wetter.androidclient&hl=de) import urllib2 from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen("https://play.google.com/store/apps/details?id=com.wetter.androidclient&hl=de")) result = soup.find_all("div", {"class":"show-more-content text-body"}) Mit diesem code bekomme ich den gesamten Inhalt in dieser Klasse.
2
Antworten
Habe ich einige xml: <article> <uselesstag></uslesstag> <topic>oil, gas</topic> <body>body text</body> </article> <article> <uselesstag></uslesstag> <topic>food</topic> <body>body text</body> </article> <article> <uselesstag></uslesstag> <topic>cars</topic> <body>body text</body> </article> Gibt es viele, viele sinnlose tags. Ich will beautifulsoup zu sammeln alle die den
2
Antworten
Also, wenn ich beschlossen, zu analysieren, Inhalte von einer website. Zum Beispiel, http://allrecipes.com/Recipe/Slow-Cooker-Pork-Chops-II/Detail.aspx Möchte ich analysieren Sie die Zutaten in eine text-Datei. Die Zutaten befinden sich in: < div class="Zutaten" style="margin-top: 10px;"> und innerhalb dieser, jede Zutat
2
Antworten
Ich versuche, mich zu kratzen, Daten aus dem PGA.com website, um eine Tabelle aller von den Golfplätzen in den Vereinigten Staaten. In meiner CSV-Tabelle möchte ich den Namen des Golfplatzes ,der Adresse ,der Eigentumsverhältnisse ,Website , Telefonnummer.
1
Antworten
Ich bin Holen einige html-Tabelle Zeilen mit BeautifulSoup mit diesem Stück code: from bs4 import BeautifulSoup import urllib2 import re page = urllib2.urlopen('www.something.bla') soup = BeautifulSoup(page) rows = soup.findAll('tr', attrs={'class': re.compile('class1.*')}) Dies ist, was ich als Ergebnis:
3
Antworten
Fand ich den Beitrag http://ricardianambivalence.com/2011/08/14/beautifulsoup-in-python-with-windows-7/ (Ich habe python 2.6 und heruntergeladen beautifulsoup4-4.1.3) Konnte ich nicht finden, "BeautifulSoup.pyc" after-run "setup.py" Jedem vorschlagen? Hat man sich bei der Ausgabe von setup.py? Hat er es geschafft? Können Sie den import
2
Antworten
Ich versuche zu kratzen Temperaturen aus dem Wetter Website mit den folgenden: import urllib2 from BeautifulSoup import BeautifulSoup f = open('airport_temp.tsv', 'w') f.write("Location" + "\t" + "High Temp (F)" + "\t" + "Low Temp (F)" + "\t"
1
Antworten
In mechanisieren wir auf links zu klicken, entweder mit follow_link oder click_link. Gibt es eine ähnliche Art der Sache in schöne Suppe zum klicken auf einen link auf einer web-Seite? InformationsquelleAutor user3286661 | 2014-05-15
3
Antworten
Ich versuche zu analysieren, eine Website, und ich werde es später in meinem Django-Projekt. Zu tun, ich bin mit urllib2 und BeautifulSoup4. Allerdings konnte ich nicht bekommen, was ich will. Die Ausgabe von BeautifulSoup Objekt ist seltsam.