Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Wie man text aus span-tag in BeautifulSoup

Anzahl der Antworten 1 Antworten
Habe ich links sieht wie folgt aus <div class="systemRequirementsMainBox"> <div class="systemRequirementsRamContent"> <span title="000 Plus Minimum RAM Requirement">1 GB</span> </div> Ich versuche 1 GB von dort. Ich habe versucht, tt = [a['title'] for a in soup.select(".systemRequirementsRamContent span")] for

Wie bekomme ich den ersten und Dritten td aus einer Tabelle mit BeautifulSoup?

Anzahl der Antworten 1 Antworten
Ich bin derzeit mit Python und BeautifulSoup zu kratzen einige website-Daten. Ich bin versucht zu ziehen Zellen aus einer Tabelle, die formatiert ist wie folgt: <tr><td>1<td><td>20<td>5%</td></td></td></td></tr> Das problem mit den oben genannten HTML ist, dass BeautifulSoup liest

Mit BeautifulSoup Zu Extrahieren Bestimmte Tabelle TD-Elemente Text?

Anzahl der Antworten 4 Antworten
Ich versuche zum extrahieren von IP-Adressen aus einem automatisch generierten HTML-Tabelle mit den BeautifulSoup-Bibliothek und im habend ein wenig Mühe. Den HTML strukturiert ist, und zwar so: <html> <body> <table class="mainTable"> <thead> <tr> <th>IP</th> <th>Country</th> </tr> </thead>

Mit BeautifulSoup zu select-div-Blöcke in HTML

Anzahl der Antworten 1 Antworten
Ich versuche zu analysieren, mehrere div-Blöcke mit Schönen Suppe mit einigen html von einer website. Aber ich kann nicht herausfinden, welche Funktion verwendet werden soll, wählen Sie diese div-Blöcke. Ich habe versucht, die folgenden: import urllib2 from

Python: BeautifulSoup string extrahieren zwischen div-tag von seiner Klasse

Anzahl der Antworten 1 Antworten
import urllib, urllib2 from bs4 import BeautifulSoup, Comment url='http://www.amazon.in/product-reviews/B00CE2LUKQ/ref=cm_cr_pr_top_link_1?ie=UTF8&showViewpoints=0&sortBy=bySubmissionDateDescending' content = urllib2.urlopen(url).read() soup = BeautifulSoup(content, "html.parser") rows =soup.find_all('div',attrs={"class" : "reviewText"}) print rows Dieser code wird verwendet, um zu extrahieren die Bewertungen von der website. Ich brauche nur

Konvertieren io.BytesIO io.StringIO zum Parsen der HTML-Seite

Anzahl der Antworten 2 Antworten
Ich versuche zu Parsen einer HTML-Seite, die ich abgerufen durch pyCurl aber die pyCurl WRITEFUNCTION ist Rückkehr die Seite als BYTES und nicht als string, so bin ich nicht Analysieren, es mit BeautifulSoup. Gibt es eine Möglichkeit,

So wählen Sie eine Klasse von div in einem div mit der schönen Suppe?

Anzahl der Antworten 1 Antworten
Ich habe eine Reihe von div-tags in div-tags: <div class="foo"> <div class="bar">I want this</div> <div class="unwanted">Not this</div> </div> <div class="bar">Don't want this either </div> So, ich bin mit python und schöne Suppe zu trennen Zeug aus. Ich

Wie kann ich Sie entfernen "&amp;nbsp" von html-Inhalten?

Anzahl der Antworten 2 Antworten
Ich habe eine html-Seite als: <div class="theater"> <div class="desc" id="theater_16109207495969942346"> <h2 class="name"><a href="/movies?near=pune&amp;tid=df8f66de0a592b4a" id="link_1_theater_16109207495969942346">Esquare Victory Camp</a></h2> <div class="info">site no 2429,general thimayya road, camp contonment,oppositekayani bakery, Pune - 020 2613 2975 <a class="fl" href="" target="_top"></a> </div> </div> <div

python-BeautifulSoup erhalten, wählen Sie.Wert nicht als text

Anzahl der Antworten 2 Antworten
<select> <option value="0">2002/12</option> <option value="1">2003/12</option> <option value="2">2004/12</option> <option value="3">2005/12</option> <option value="4">2006/12</option> <option value="5" selected>2007/12</option> </select> mit diesem code, ich brauche den Wert als '0' text nicht als '2002/12' Habe ich versucht, eine Menge von BS4-Optionen.stripped_strings, .strip(), .contents,

Beautifulsoup: Parsen von html – Teil des href

Anzahl der Antworten 4 Antworten
Ich versuche zu analysieren <td height="16" class="listtable_1"><a href="http://steamcommunity.com/profiles/76561198134729239" target="_blank">76561198134729239</a></td> für die 76561198134729239. und ich kann nicht herausfinden, wie es zu tun. was habe ich versucht: import requests from lxml import html from bs4 import BeautifulSoup r =

Iterieren durch die Elemente im html-Baum mit BeautifulSoup, und produzieren eine Ausgabe, die behauptet, die relative position der einzelnen Elemente? in Python

Anzahl der Antworten 1 Antworten
Habe ich diesen code, der macht, was ich brauche, es zu tun, mit Jsoup in Java Elements htmlTree = doc.body().select("*"); Elements menuElements = new Elements(); for(Element element : htmlTree) { if(element.hasClass("header")) menuElements.add(element); if(element.hasClass("name")) menuElements.add(element); if(element.hasClass("quantity")) menuElements.add(element); }

Python, .format () und UTF-8

Anzahl der Antworten 1 Antworten
Mein hintergrund ist in Perl, aber ich gebe BeautifulSoup Python sowie einen Versuch für ein neues Projekt. In diesem Beispiel habe ich versucht, zu extrahieren und zu präsentieren, die Ziele link und link-text in einer einzigen Seite.

Parse HTML-Tabelle mit Python-BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich bin versucht, BeautifulSoup Parsen einer html-Tabelle, die ich hochgeladen http://pastie.org/8070879, um die drei Spalten (0, 735, 0.50, 1.0 und 0.5, 0.0) als Listen. Um zu erklären, warum ich will, dass die ganzen zahlen 0-735 zu Tasten

"No such file or directory" von os.mkdir

Anzahl der Antworten 1 Antworten
arbeiten auf ein python-Projekt, und was es tut, ist, es sieht auf den index lifehacker.com dann findet alle tags mit der Klasse "headline h5 hover-markieren-Eintrag-Titel", dann erstellt es Dateien für jedes Verzeichnis. Aber das problem ist nur,

beautifulsoup: find_all auf bs4.element.ResultSet-Objekt oder Liste?

Anzahl der Antworten 1 Antworten
Hi also ich anwenden, find_all auf eine beautifulsoup object, und finden Sie etwas, das ist ein bs4.element.ResultSet object oder eine list. Ich soll weiter machen find_all in dort, aber es ist nicht erlaubt auf einem bs4.element.ResultSet object.

HTML-Tabelle für die pandas Tabelle: Info in html-tags

Anzahl der Antworten 3 Antworten
Ich habe eine große Tabelle aus dem web, auf die der Zugriff über Anfragen und analysiert, mit BeautifulSoup. Ein Teil davon sieht so ähnlich aus wie diese: <table> <tbody> <tr> <td>265</td> <td> <a href="/j/jones03.shtml">Jones</a>Blue</td> <td>29</td> </tr> <tr

Extrahieren image src basierend auf Attribut mit BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich bin mit BeautifulSoup um eine HTML-Seite von IMDb, und ich möchte zu extrahieren, das Standbild von der Seite. Ich habe das Bild basiert auf eines der Attribute, aber ich weiß nicht, wie das extrahieren der Daten

Finden Sie neben Geschwistern, bis eine bestimmte mit beautifulsoup

Anzahl der Antworten 1 Antworten
Die Webseite ist so etwas wie dieses: <h2>section1</h2> <p>article</p> <p>article</p> <p>article</p> <h2>section2</h2> <p>article</p> <p>article</p> <p>article</p> Wie kann ich finden Sie jeden Abschnitt mit den Artikeln, die in Ihnen? Das ist, nach der Feststellung, h2, finden nextsiblings bis

Wie verwenden von CSS-Selektoren zum abrufen von spezifischen links liegen in einer Klasse mit BeautifulSoup?

Anzahl der Antworten 3 Antworten
Ich bin neu in Python und ich Lerne, es für Schaben Zwecke bin ich mit BeautifulSoup zum sammeln von links (ich.e href: 'a' - tag). Ich versuche mich zu sammeln, die links unter "KOMMENDE EVENTS" - tab

Python-schöne Suppe-form-input-parsing

Anzahl der Antworten 2 Antworten
Mein Ziel ist, schnappen Sie sich eine Liste aller eingegebenen Namen und Werte. Um Sie zu verbinden und senden Sie das Formular. Die Namen und Werte sind randomisierte. from bs4 import BeautifulSoup # parsing html = """

Python reguläre Ausdrücke für Schöne Suppe

Anzahl der Antworten 1 Antworten
Ich bin mit Schönen Suppe, ziehen aus bestimmten div-tags, und es scheint, ich kann nicht verwenden einfache string-matching. Die Seite hat einige Markierungen in form von <div class="comment form new"...> was ich will, Sie zu ignorieren, und

Wie zu beheben AttributeError: 'NoneType' object hat keine attribute 'encode' in python

Anzahl der Antworten 1 Antworten
for comment_entry in comment_feed.entry: content = comment_entry.ToString() parse = BeautifulSoup(content) for con in parse.find('ns0:content'): print con.string s = con.string file.write(s.encode('utf8')) Fehler, die ich immer bin: File "channel_search.py", line 108, in youtube_search file.write(s.encode('utf8')) AttributeError: 'NoneType' object has no

Python wird nicht in Datei schreiben

Anzahl der Antworten 2 Antworten
Ich bin versucht zu schreiben, eine ziemlich gedruckte E-Mail .txt-Datei, so kann ich besser sehen, was ich möchte, zu analysieren. Hier ist dieser Abschnitt aus meinem code: result, data = mail.uid('search', None, "(FROM '[email protected]')") # search and

Extrahieren der Inhalte der Tabellen aus html-Seiten mit python und BeautifulSoup

Anzahl der Antworten 1 Antworten
Möchte ich zum extrahieren bestimmter Informationen aus einem html-Dokument. E. g. es enthält eine Tabelle (unter anderem Tabellen und andere Inhalte) wie folgt: <table class="details"> <tr> <th>Advisory:</th> <td>RHBA-2013:0947-1</td> </tr> <tr> <th>Type:</th> <td>Bug Fix Advisory</td> </tr> <tr> <th>Severity:</th>

Parsen von nicht-standard-XML - (CDATA-tag)

Anzahl der Antworten 2 Antworten
Wenn ich will) bis zum Parsen von XML-Dokument mit Python Bibliothek BeautifulSoup, Ich stellte mich vor einige Probleme. Das XML-Dokument, das ich will, zu analysieren: <item> <title><![CDATA[Title Sample]]></title> <link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]> <time_start>2011-10-10 09:00:00</time_start> <time_end>2011-10-17 09:00:00</time_end> <price_original>35000</price_original> <price_now>20000</price_now> </item>

BeautifulSoup - wie soll ich mich erhalten, den Körper Inhalt

Anzahl der Antworten 1 Antworten
Ich bin Parsen HTML mit BeautifulSoup. Am Ende, ich möchte zu erhalten, die body Inhalt, aber ohne die body - tags. Aber BeautifulSoup fügt html, head, und body - tags. Ich diese googlegrops Diskussion eine mögliche Lösung

Holen Sie sich Inhalte von div-id mit BeautifulSoup

Anzahl der Antworten 1 Antworten
Bin ich mit python2.7.6, urllib2, und BeautifulSoup extrahieren von html-Code aus einer website und speichern Sie in einer Variablen. Wie kann ich nur den html-Inhalt einer div mit einer id durch die Verwendung von beautifulsoup? <div id='theDiv'>

BeautifulSoup übergeordneten Tags

Anzahl der Antworten 4 Antworten
Habe ich einige html -, ich will zum extrahieren von text aus. Hier ist ein Beispiel für html: <p>TEXT I WANT <i> &#8211; </i></p> Nun, es gibt, natürlich, viel <p> - tags in diesem Dokument. Also find('p')

Kann nicht install BeautifulSoup python 3.6

Anzahl der Antworten 6 Antworten
Ich habe die letzten 45 Minuten hoffnungslos versuchen zu laufen: from bs4 import BeautifulSoup Aber ohne Erfolg. Ich habe versucht die Befehle: python -m pip install beautifulsoup4 wo es heißt: Requirement already satisfied: beautifulsoup4 in c:\python27\lib\site-packages Habe

Wie kann ich Informationen aus einem <a href> - tag im <div> - tags mit BeautifulSoup und Python?

Anzahl der Antworten 2 Antworten
alle. Ich habe eine kurze Frage über BeautifulSoup Python-Skript. Ich habe mehrere bits von HTML, die wie folgt Aussehen (die einzigen Unterschiede sind die links-und Produktnamen), und ich versuche, den link von der "href" - Attribut. <div

Nicht importieren Sie Schöne Suppe

Anzahl der Antworten 6 Antworten
Ich bin versucht, BeautifulSoup, und trotz der Verwendung der import-Anweisung: from bs4 import BeautifulSoup Bin ich immer die Fehlermeldung: ImportError: cannot import name BeautifulSoup import bs4 gibt keine Fehler. Habe ich auch schon versucht import bs4.BeautifulSoup und

So finden alle Kommentare mit Schönen Suppe

Anzahl der Antworten 2 Antworten
Diese Frage gefragt wurde, vor vier Jahren, aber die Antwort ist jetzt out-of-date für BS4. Möchte ich löschen alle Kommentare in meine html-Datei mit schöne Suppe. Da BS4 macht jeder Kommentar als eine Besondere Art von schiffbaren

Holen Sie sich alle HTML-tags mit Schönen Suppe

Anzahl der Antworten 1 Antworten
Ich versuche zu bekommen eine Liste von allen html-tags aus dem schönen Suppe. Sehe ich alle suchen, aber ich muss wissen, den Namen der tag, bevor ich Suche. Wenn es nur text ist, wie html = """<div>something</div>

Suche in tags mit BeautifulSoup Python

Anzahl der Antworten 2 Antworten
Wollte ich-Suche innerhalb der Metadaten: <div id="cmeProductSlatePaginiationTop" class="cmePaginiation"> <ul> <li class="disabled"> <li class="active"> <li class="away-1"> <li> </ul> </div> Grundsätzlich möchte ich die Anzahl der occurunces von <li ..> in diesem div. Allerdings, wenn ich verwendet, beautifulsoup, das

ZERLEGUNG von HTML -, link-text und Ziel -

Anzahl der Antworten 4 Antworten
Gegeben, einen HTML-link wie <a href="urltxt" class="someclass" close="true">texttxt</a> wie kann ich isolieren Sie die url und den text? Updates Ich bin mit der Schönen Suppe, und bin nicht in der Lage, herauszufinden, wie zu tun. Habe ich

So entfernen Sie Leerzeichen in BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich habe eine Reihe von HTML-ich bin parsing mit BeautifulSoup und es läuft ziemlich gut, außer für einen kleinen Haken. Ich möchte speichern Sie die Ausgabe in eine single-gefüttert-string, mit dem folgenden, da meine aktuelle Ausgabe: <li><span

wie installiere ich schöne Suppe für python auf meinem mac? siehe Fehler

Anzahl der Antworten 2 Antworten
Ich bin mit Mac OS X 10.7.3 auf einem Macbook Pro. Es kam mit Python 2.7.1 installiert. Ich brauche das schöne Suppe Bibliothek. Also habe ich Folgendes gemacht: 1) ging crummy.com und heruntergeladen werden beautifulsoup4-4.0.2.tar.gz 2), nicht

BeautifulSoup findall mit class-Attribut - unicode-encode Fehler

Anzahl der Antworten 3 Antworten
Ich bin mit BeautifulSoup zum extrahieren von Nachrichten Geschichten(nur die Titel) von Hacker News und haben soviel bis jetzt- import urllib2 from BeautifulSoup import BeautifulSoup HN_url = "http://news.ycombinator.com" def get_page(): page_html = urllib2.urlopen(HN_url) return page_html def get_stories(content):

Erhalten Sie sofortigen übergeordnetes tag mit BeautifulSoup Python

Anzahl der Antworten 1 Antworten
Habe ich recherchiert, diese Frage, aber habe nicht gesehen, eine tatsächliche Lösung zu einer Lösung. Ich bin mit BeautifulSoup mit Python und was weis ich zu tun ist, erhalten alle image-tags von einer Seite, Schleife über jede

Scraping, Daten von Facebook mit Python

Anzahl der Antworten 4 Antworten
Ich versuche schon seit mehreren Tagen (erfolglos) zu kratzen Städten von über 500 Facebook-URLs. Jedoch, Facebook behandelt seine Daten in eine sehr seltsame Weise, und ich kann nicht herausfinden, was Los ist unter der Haube zu verstehen,

Die Installation von BeautifulSoup auf Mac OSX

Anzahl der Antworten 3 Antworten
Habe ich versucht alles hier: Wie installiere ich die Schöne Suppe Modul auf dem Mac? Installation scheint zu funktionieren (erste richtige Ausgabe während der Installation) sowohl die herkömmliche Weise zu installieren und auch über easy_install aber wenn

Python-Schöne Suppe, wie JSON Dekodieren, `dict`?

Anzahl der Antworten 2 Antworten
Ich bin neu in Python und BeautifulSoup ich bin versucht zu extrahieren dict von BeautifulSoup. Ich verwendet habe, BeautifulSoup zum extrahieren von JSON und bekam beautifulsoup.beautifulsoup variable soup. Ich versuche Werte aus soup, aber wenn ich das

Schöne Suppe immer das erste Kind

Anzahl der Antworten 1 Antworten
Wie bekomme ich das erste Kind? <div class="cities"> <div id="3232"> London </div> <div id="131"> York </div> </div> Wie kann ich London? for div in nsoup.find_all(class_='cities'): print (div.children.contents) AttributeError: 'listiterator' - Objekt hat kein Attribut 'Inhalt' children ist

Python: Wie zum extrahieren von URL aus HTML-Seite mit BeautifulSoup?

Anzahl der Antworten 4 Antworten
Ich habe eine HTML Seite mit mehreren divs-wie <div class="article-additional-info"> A peculiar situation arose in the Supreme Court on Tuesday when two lawyers claimed to be the representative of one of the six accused in the December

Finden Sie alle Tabellen in html mit BeautifulSoup

Anzahl der Antworten 1 Antworten
Möchte ich finden alle Tabellen in html mit Hilfe von BeautifulSoup. Innere Tabellen sollten einbezogen werden in der äußeren Tabellen. Ich habe einige code, der funktioniert, und es gibt die erwartete Ausgabe. Aber, ich weiß nicht, wie

Wie konvertieren von BeautifulSoup.ResultSet, string

Anzahl der Antworten 4 Antworten
Also habe ich analysiert und eine html-Seite mit .findAll (BeautifulSoup) variable mit dem Namen result. Wenn ich Typ result in der Python-shell und drücken Sie dann Enter, sehe ich den normalen text, wie erwartet, aber ich wollte

Python korrekte Codierung der Webseite (Schöne Suppe)

Anzahl der Antworten 3 Antworten
Ich versuche, das laden einer html-Seite und die Ausgabe der text, obwohl ich immer bin, die Webseite korrekt, BeautifulSoup zerstört irgendwie die Codierung. Quelle: # -*- coding: utf-8 -*- import requests from BeautifulSoup import BeautifulSoup url =

Multithreading in Python/BeautifulSoup Schaben nicht beschleunigen an alle

Anzahl der Antworten 1 Antworten
Ich habe eine csv-Datei ("SomeSiteValidURLs.csv"), die aufgeführt sind alle links, die ich brauche zu kratzen. Der code funktioniert und gehen durch die urls in der csv, kratzen die Informationen und aufnehmen/speichern in eine andere csv-Datei ("Ausgabe.csv"). Aber

Beautifulsoup - Wie Sie Bilder öffnen und herunterladen

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche zu packen, die volle Größe der Produkt-Bilder von hier Mein Gedanke war: Folgen Sie den Bild-link Download das Bild Zurück Wiederholen Sie für n+1 Bilder Ich weiß, wie um das Bild zu

BS4: Erste text in Tags

Anzahl der Antworten 2 Antworten
Ich bin mit schönen Suppe. Es ist ein tag wie dieser: <li><a href="example"> s.r.o., <small>small</small></a></li> Möchte ich, um text, der nicht in <small> tag. So möchte ich "s.r.o.," als Ausgabe. Versuchte ich find('li').text[0] aber es funktioniert nicht.