Tag: beautifulsoup
Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.
1
Antworten
Habe ich links sieht wie folgt aus <div class="systemRequirementsMainBox"> <div class="systemRequirementsRamContent"> <span title="000 Plus Minimum RAM Requirement">1 GB</span> </div> Ich versuche 1 GB von dort. Ich habe versucht, tt = [a['title'] for a in soup.select(".systemRequirementsRamContent span")] for
1
Antworten
Ich bin derzeit mit Python und BeautifulSoup zu kratzen einige website-Daten. Ich bin versucht zu ziehen Zellen aus einer Tabelle, die formatiert ist wie folgt: <tr><td>1<td><td>20<td>5%</td></td></td></td></tr> Das problem mit den oben genannten HTML ist, dass BeautifulSoup liest
4
Antworten
Ich versuche zum extrahieren von IP-Adressen aus einem automatisch generierten HTML-Tabelle mit den BeautifulSoup-Bibliothek und im habend ein wenig Mühe. Den HTML strukturiert ist, und zwar so: <html> <body> <table class="mainTable"> <thead> <tr> <th>IP</th> <th>Country</th> </tr> </thead>
1
Antworten
Ich versuche zu analysieren, mehrere div-Blöcke mit Schönen Suppe mit einigen html von einer website. Aber ich kann nicht herausfinden, welche Funktion verwendet werden soll, wählen Sie diese div-Blöcke. Ich habe versucht, die folgenden: import urllib2 from
1
Antworten
import urllib, urllib2 from bs4 import BeautifulSoup, Comment url='http://www.amazon.in/product-reviews/B00CE2LUKQ/ref=cm_cr_pr_top_link_1?ie=UTF8&showViewpoints=0&sortBy=bySubmissionDateDescending' content = urllib2.urlopen(url).read() soup = BeautifulSoup(content, "html.parser") rows =soup.find_all('div',attrs={"class" : "reviewText"}) print rows Dieser code wird verwendet, um zu extrahieren die Bewertungen von der website. Ich brauche nur
2
Antworten
Ich versuche zu Parsen einer HTML-Seite, die ich abgerufen durch pyCurl aber die pyCurl WRITEFUNCTION ist Rückkehr die Seite als BYTES und nicht als string, so bin ich nicht Analysieren, es mit BeautifulSoup. Gibt es eine Möglichkeit,
1
Antworten
Ich habe eine Reihe von div-tags in div-tags: <div class="foo"> <div class="bar">I want this</div> <div class="unwanted">Not this</div> </div> <div class="bar">Don't want this either </div> So, ich bin mit python und schöne Suppe zu trennen Zeug aus. Ich
2
Antworten
Ich habe eine html-Seite als: <div class="theater"> <div class="desc" id="theater_16109207495969942346"> <h2 class="name"><a href="/movies?near=pune&tid=df8f66de0a592b4a" id="link_1_theater_16109207495969942346">Esquare Victory Camp</a></h2> <div class="info">site no 2429,general thimayya road, camp contonment,oppositekayani bakery, Pune - 020 2613 2975 <a class="fl" href="" target="_top"></a> </div> </div> <div
2
Antworten
<select> <option value="0">2002/12</option> <option value="1">2003/12</option> <option value="2">2004/12</option> <option value="3">2005/12</option> <option value="4">2006/12</option> <option value="5" selected>2007/12</option> </select> mit diesem code, ich brauche den Wert als '0' text nicht als '2002/12' Habe ich versucht, eine Menge von BS4-Optionen.stripped_strings, .strip(), .contents,
4
Antworten
Ich versuche zu analysieren <td height="16" class="listtable_1"><a href="http://steamcommunity.com/profiles/76561198134729239" target="_blank">76561198134729239</a></td> für die 76561198134729239. und ich kann nicht herausfinden, wie es zu tun. was habe ich versucht: import requests from lxml import html from bs4 import BeautifulSoup r =
1
Antworten
Habe ich diesen code, der macht, was ich brauche, es zu tun, mit Jsoup in Java Elements htmlTree = doc.body().select("*"); Elements menuElements = new Elements(); for(Element element : htmlTree) { if(element.hasClass("header")) menuElements.add(element); if(element.hasClass("name")) menuElements.add(element); if(element.hasClass("quantity")) menuElements.add(element); }
1
Antworten
Mein hintergrund ist in Perl, aber ich gebe BeautifulSoup Python sowie einen Versuch für ein neues Projekt. In diesem Beispiel habe ich versucht, zu extrahieren und zu präsentieren, die Ziele link und link-text in einer einzigen Seite.
3
Antworten
Ich bin versucht, BeautifulSoup Parsen einer html-Tabelle, die ich hochgeladen http://pastie.org/8070879, um die drei Spalten (0, 735, 0.50, 1.0 und 0.5, 0.0) als Listen. Um zu erklären, warum ich will, dass die ganzen zahlen 0-735 zu Tasten
1
Antworten
arbeiten auf ein python-Projekt, und was es tut, ist, es sieht auf den index lifehacker.com dann findet alle tags mit der Klasse "headline h5 hover-markieren-Eintrag-Titel", dann erstellt es Dateien für jedes Verzeichnis. Aber das problem ist nur,
1
Antworten
Hi also ich anwenden, find_all auf eine beautifulsoup object, und finden Sie etwas, das ist ein bs4.element.ResultSet object oder eine list. Ich soll weiter machen find_all in dort, aber es ist nicht erlaubt auf einem bs4.element.ResultSet object.
3
Antworten
Ich habe eine große Tabelle aus dem web, auf die der Zugriff über Anfragen und analysiert, mit BeautifulSoup. Ein Teil davon sieht so ähnlich aus wie diese: <table> <tbody> <tr> <td>265</td> <td> <a href="/j/jones03.shtml">Jones</a>Blue</td> <td>29</td> </tr> <tr
3
Antworten
Ich bin mit BeautifulSoup um eine HTML-Seite von IMDb, und ich möchte zu extrahieren, das Standbild von der Seite. Ich habe das Bild basiert auf eines der Attribute, aber ich weiß nicht, wie das extrahieren der Daten
1
Antworten
Die Webseite ist so etwas wie dieses: <h2>section1</h2> <p>article</p> <p>article</p> <p>article</p> <h2>section2</h2> <p>article</p> <p>article</p> <p>article</p> Wie kann ich finden Sie jeden Abschnitt mit den Artikeln, die in Ihnen? Das ist, nach der Feststellung, h2, finden nextsiblings bis
3
Antworten
Ich bin neu in Python und ich Lerne, es für Schaben Zwecke bin ich mit BeautifulSoup zum sammeln von links (ich.e href: 'a' - tag). Ich versuche mich zu sammeln, die links unter "KOMMENDE EVENTS" - tab
2
Antworten
Mein Ziel ist, schnappen Sie sich eine Liste aller eingegebenen Namen und Werte. Um Sie zu verbinden und senden Sie das Formular. Die Namen und Werte sind randomisierte. from bs4 import BeautifulSoup # parsing html = """
1
Antworten
Ich bin mit Schönen Suppe, ziehen aus bestimmten div-tags, und es scheint, ich kann nicht verwenden einfache string-matching. Die Seite hat einige Markierungen in form von <div class="comment form new"...> was ich will, Sie zu ignorieren, und
1
Antworten
for comment_entry in comment_feed.entry: content = comment_entry.ToString() parse = BeautifulSoup(content) for con in parse.find('ns0:content'): print con.string s = con.string file.write(s.encode('utf8')) Fehler, die ich immer bin: File "channel_search.py", line 108, in youtube_search file.write(s.encode('utf8')) AttributeError: 'NoneType' object has no
2
Antworten
Ich bin versucht zu schreiben, eine ziemlich gedruckte E-Mail .txt-Datei, so kann ich besser sehen, was ich möchte, zu analysieren. Hier ist dieser Abschnitt aus meinem code: result, data = mail.uid('search', None, "(FROM '
[email protected]')") # search and
1
Antworten
Möchte ich zum extrahieren bestimmter Informationen aus einem html-Dokument. E. g. es enthält eine Tabelle (unter anderem Tabellen und andere Inhalte) wie folgt: <table class="details"> <tr> <th>Advisory:</th> <td>RHBA-2013:0947-1</td> </tr> <tr> <th>Type:</th> <td>Bug Fix Advisory</td> </tr> <tr> <th>Severity:</th>
2
Antworten
Wenn ich will) bis zum Parsen von XML-Dokument mit Python Bibliothek BeautifulSoup, Ich stellte mich vor einige Probleme. Das XML-Dokument, das ich will, zu analysieren: <item> <title><![CDATA[Title Sample]]></title> <link /><![CDATA[http://banhada.kr/?cateCode=09&viewCode=S0941580]]> <time_start>2011-10-10 09:00:00</time_start> <time_end>2011-10-17 09:00:00</time_end> <price_original>35000</price_original> <price_now>20000</price_now> </item>
1
Antworten
Ich bin Parsen HTML mit BeautifulSoup. Am Ende, ich möchte zu erhalten, die body Inhalt, aber ohne die body - tags. Aber BeautifulSoup fügt html, head, und body - tags. Ich diese googlegrops Diskussion eine mögliche Lösung
1
Antworten
Bin ich mit python2.7.6, urllib2, und BeautifulSoup extrahieren von html-Code aus einer website und speichern Sie in einer Variablen. Wie kann ich nur den html-Inhalt einer div mit einer id durch die Verwendung von beautifulsoup? <div id='theDiv'>
4
Antworten
Habe ich einige html -, ich will zum extrahieren von text aus. Hier ist ein Beispiel für html: <p>TEXT I WANT <i> – </i></p> Nun, es gibt, natürlich, viel <p> - tags in diesem Dokument. Also find('p')
6
Antworten
Ich habe die letzten 45 Minuten hoffnungslos versuchen zu laufen: from bs4 import BeautifulSoup Aber ohne Erfolg. Ich habe versucht die Befehle: python -m pip install beautifulsoup4 wo es heißt: Requirement already satisfied: beautifulsoup4 in c:\python27\lib\site-packages Habe
2
Antworten
alle. Ich habe eine kurze Frage über BeautifulSoup Python-Skript. Ich habe mehrere bits von HTML, die wie folgt Aussehen (die einzigen Unterschiede sind die links-und Produktnamen), und ich versuche, den link von der "href" - Attribut. <div
6
Antworten
Ich bin versucht, BeautifulSoup, und trotz der Verwendung der import-Anweisung: from bs4 import BeautifulSoup Bin ich immer die Fehlermeldung: ImportError: cannot import name BeautifulSoup import bs4 gibt keine Fehler. Habe ich auch schon versucht import bs4.BeautifulSoup und
2
Antworten
Diese Frage gefragt wurde, vor vier Jahren, aber die Antwort ist jetzt out-of-date für BS4. Möchte ich löschen alle Kommentare in meine html-Datei mit schöne Suppe. Da BS4 macht jeder Kommentar als eine Besondere Art von schiffbaren
1
Antworten
Ich versuche zu bekommen eine Liste von allen html-tags aus dem schönen Suppe. Sehe ich alle suchen, aber ich muss wissen, den Namen der tag, bevor ich Suche. Wenn es nur text ist, wie html = """<div>something</div>
2
Antworten
Wollte ich-Suche innerhalb der Metadaten: <div id="cmeProductSlatePaginiationTop" class="cmePaginiation"> <ul> <li class="disabled"> <li class="active"> <li class="away-1"> <li> </ul> </div> Grundsätzlich möchte ich die Anzahl der occurunces von <li ..> in diesem div. Allerdings, wenn ich verwendet, beautifulsoup, das
4
Antworten
Gegeben, einen HTML-link wie <a href="urltxt" class="someclass" close="true">texttxt</a> wie kann ich isolieren Sie die url und den text? Updates Ich bin mit der Schönen Suppe, und bin nicht in der Lage, herauszufinden, wie zu tun. Habe ich
3
Antworten
Ich habe eine Reihe von HTML-ich bin parsing mit BeautifulSoup und es läuft ziemlich gut, außer für einen kleinen Haken. Ich möchte speichern Sie die Ausgabe in eine single-gefüttert-string, mit dem folgenden, da meine aktuelle Ausgabe: <li><span
2
Antworten
Ich bin mit Mac OS X 10.7.3 auf einem Macbook Pro. Es kam mit Python 2.7.1 installiert. Ich brauche das schöne Suppe Bibliothek. Also habe ich Folgendes gemacht: 1) ging crummy.com und heruntergeladen werden beautifulsoup4-4.0.2.tar.gz 2), nicht
3
Antworten
Ich bin mit BeautifulSoup zum extrahieren von Nachrichten Geschichten(nur die Titel) von Hacker News und haben soviel bis jetzt- import urllib2 from BeautifulSoup import BeautifulSoup HN_url = "http://news.ycombinator.com" def get_page(): page_html = urllib2.urlopen(HN_url) return page_html def get_stories(content):
1
Antworten
Habe ich recherchiert, diese Frage, aber habe nicht gesehen, eine tatsächliche Lösung zu einer Lösung. Ich bin mit BeautifulSoup mit Python und was weis ich zu tun ist, erhalten alle image-tags von einer Seite, Schleife über jede
4
Antworten
Ich versuche schon seit mehreren Tagen (erfolglos) zu kratzen Städten von über 500 Facebook-URLs. Jedoch, Facebook behandelt seine Daten in eine sehr seltsame Weise, und ich kann nicht herausfinden, was Los ist unter der Haube zu verstehen,
3
Antworten
Habe ich versucht alles hier: Wie installiere ich die Schöne Suppe Modul auf dem Mac? Installation scheint zu funktionieren (erste richtige Ausgabe während der Installation) sowohl die herkömmliche Weise zu installieren und auch über easy_install aber wenn
2
Antworten
Ich bin neu in Python und BeautifulSoup ich bin versucht zu extrahieren dict von BeautifulSoup. Ich verwendet habe, BeautifulSoup zum extrahieren von JSON und bekam beautifulsoup.beautifulsoup variable soup. Ich versuche Werte aus soup, aber wenn ich das
1
Antworten
Wie bekomme ich das erste Kind? <div class="cities"> <div id="3232"> London </div> <div id="131"> York </div> </div> Wie kann ich London? for div in nsoup.find_all(class_='cities'): print (div.children.contents) AttributeError: 'listiterator' - Objekt hat kein Attribut 'Inhalt' children ist
4
Antworten
Ich habe eine HTML Seite mit mehreren divs-wie <div class="article-additional-info"> A peculiar situation arose in the Supreme Court on Tuesday when two lawyers claimed to be the representative of one of the six accused in the December
1
Antworten
Möchte ich finden alle Tabellen in html mit Hilfe von BeautifulSoup. Innere Tabellen sollten einbezogen werden in der äußeren Tabellen. Ich habe einige code, der funktioniert, und es gibt die erwartete Ausgabe. Aber, ich weiß nicht, wie
4
Antworten
Also habe ich analysiert und eine html-Seite mit .findAll (BeautifulSoup) variable mit dem Namen result. Wenn ich Typ result in der Python-shell und drücken Sie dann Enter, sehe ich den normalen text, wie erwartet, aber ich wollte
3
Antworten
Ich versuche, das laden einer html-Seite und die Ausgabe der text, obwohl ich immer bin, die Webseite korrekt, BeautifulSoup zerstört irgendwie die Codierung. Quelle: # -*- coding: utf-8 -*- import requests from BeautifulSoup import BeautifulSoup url =
1
Antworten
Ich habe eine csv-Datei ("SomeSiteValidURLs.csv"), die aufgeführt sind alle links, die ich brauche zu kratzen. Der code funktioniert und gehen durch die urls in der csv, kratzen die Informationen und aufnehmen/speichern in eine andere csv-Datei ("Ausgabe.csv"). Aber
1
Antworten
Ich bin auf der Suche zu packen, die volle Größe der Produkt-Bilder von hier Mein Gedanke war: Folgen Sie den Bild-link Download das Bild Zurück Wiederholen Sie für n+1 Bilder Ich weiß, wie um das Bild zu
2
Antworten
Ich bin mit schönen Suppe. Es ist ein tag wie dieser: <li><a href="example"> s.r.o., <small>small</small></a></li> Möchte ich, um text, der nicht in <small> tag. So möchte ich "s.r.o.," als Ausgabe. Versuchte ich find('li').text[0] aber es funktioniert nicht.