Tag: beautifulsoup
Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.
1
Antworten
Ich kann die html-Seite, über das urllib, und verwenden Sie BeautifulSoup Parsen der html-Seite, und es sieht so aus, dass ich zu generieren, die Datei zum Lesen von BeautifulSoup. import urllib sock = urllib.urlopen("http://SOMEWHERE") htmlSource = sock.read()
1
Antworten
Ich habe eine einfache Frage: wenn Sie BeautifulSoup zu kratzen, einen bestimmten Teil einer website, die Sie verwenden können data.find(), data.findAll() oder data.select(). Jetzt ist die Frage. Gibt es einen signifikanten Unterschied zwischen den .find() und die
2
Antworten
Habe ich einige Probleme mit dem abrufen der Daten von der website. Die website-Quelle ist hier: view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO gibt es etw so: INFORMACJE O FILMIE Tytuł............................................: La mer à boire Ocena.............................................: IMDB - 6.3/10 (24) Produkcja.........................................: Frankreich Gatunek...........................................:
1
Antworten
Also Lerne ich Python langsam, und ich versuche, um eine einfache Funktion, die zieht die Daten aus den high-scores-Seite ein online-Spiel. Das ist jemand anderes den code, den ich schrieb in einer Funktion (was das problem sein
3
Antworten
Habe ich versucht zu analysieren Songtexte von größten Russischen Texte Website http://amalgama-lab.com und speichern von Texten (übersetzung und original) in der Liste "audio" aus meinen Vkontakte account(leider, amalgama keine API) import urllib from BeautifulSoup import BeautifulSoup import
1
Antworten
Ich heruntergeladen BeautifulSoup. Dann habe ich ein Upgrade pip: pip install --upgrade pip Dann installiert-BS: pip installieren beautifulsoup4 Wie es scheint, alles hat gut funktioniert, aber jetzt wenn ich diese drei Zeilen code: from BeautifulSoup import BeautifulSoup
2
Antworten
Ich bin völlig neu in web-Parsen mit Python/BeautifulSoup. Ich habe ein HTML, das hat (teilweise) den code wie folgt: <div id="pages"> <ul> <li class="active"><a href="example.com">Example</a></li> <li><a href="example.com">Example</a></li> <li><a href="example1.com">Example 1</a></li> <li><a href="example2.com">Example 2</a></li> </ul> </div> Habe ich
4
Antworten
Dem problem: Eine website, die ich bin versucht zu sammeln Daten von Javascript verwendet, um zu produzieren ein graph. Ich möchte in der Lage sein, ziehen Sie die Daten, die in der Grafik verwendet wird, aber ich
2
Antworten
pip install http://www.crummy.com/software/BeautifulSoup/unreleased/4.x/BeautifulSoup-4.0b.tar.gz dies installiert Paket bs4, und alles ist ok. Aber wenn ich diese Zeile in requirements.txt http://www.crummy.com/software/BeautifulSoup/unreleased/4.x/BeautifulSoup-4.0b.tar.gz und führen pip install -r requirements.txt die Ausgabe ist Downloading/unpacking http://www.crummy.com/software/BeautifulSoup/unreleased/4.x/BeautifulSoup-4.0b.tar.gz (from -r requirements.txt (line 40)) Downloading BeautifulSoup-4.0b.tar.gz
5
Antworten
Möchte ich extrahieren: text aus folgenden src der image tag und text der anchor-tag innerhalb der div Klasse Daten Habe ich erfolgreich entpacken-img-src, aber ich habe Probleme bei der Extraktion des Textes aus den Anker-tag. <a class="title"
1
Antworten
Ich versuche zu kratzen ein JavaScript-aktiviert die Seite mit BS und Selen. Ich habe den folgenden code so weit. Es immer noch nicht irgendwie erkennen, die JavaScript (und gibt einen null-Wert). In diesem Fall bin ich versucht
4
Antworten
ich habe eine XML-Datei mit einer definierten Struktur, aber unterschiedlicher Anzahl von tags, wie file1.xml: <document> <subDoc> <id>1</id> <myId>1</myId> </subDoc> </document> file2.xml: <document> <subDoc> <id>2</id> </subDoc> </document> Jetzt möchte ich überprüfen, wenn der tag myId beendet. Also
1
Antworten
Ich versuche, mich zu kratzen, Daten aus der öffentlichen Website asx.com.au Die Seite http://www.asx.com.au/asx/research/company.do#!/ACB/details enthält eine div mit der Klasse "view-content", die die Informationen, die ich brauche: Aber wenn ich versuchen, diese Seite über Python ' s
1
Antworten
Ich versuche zu Parsen von text zwischen das tag <blockquote>. Wenn ich soup.blockquote.get_text(). Ich das Ergebnis bekommen, das möchte ich für den ersten Auftritt blockquote in HTML-Datei. Wie finde ich die nächste und sequentielle <blockquote> - tag
1
Antworten
Wie soll ich extrahieren "£70,004" text in dd, das weglassen von "Investment gesucht" text in dt. from bs4 import BeautifulSoup import urllib2 url="https://www.seedrs.com/tanorganic" page = urllib2.urlopen(url) soup = BeautifulSoup(page.read(), "html.parser") target = soup.find("dl", class_="investment_sought").text print target figure
3
Antworten
Ich versuche zum extrahieren der ersten und der Dritten Spalten von diese Daten Tabelle mit BeautifulSoup. Aus der Betrachtung der HTML-die erste Spalte hat eine <th> tag. Die andere Spalte der Interesse hat als <td> tag. In
1
Antworten
Bin ich mit einem Spachtel dieser Kurs website und ich Frage mich ob es einen schnelleren Weg zu kratzen, die Seite, sobald ich es in beautifulsoup. Es dauert viel länger, als ich erwartet hätte. Tipps? from selenium
2
Antworten
Ich habe ein paar Beiträge der letzten paar Tage , also vielen Dank für die Hilfe bisher, alle es ist geschätzt, da Sie helfen einem Anfänger. Heads-Up , ich kenne den code unten aussieht erm ist sehr
1
Antworten
Ich ausführen, erhalten Sie einen Wert als Partitur. score = soup.find('div', attrs={'class' : 'summarycount'}) Ich Lauf "drucken Ergebnis" zu bekommen, wie folgt. <div class=\"summarycount\">524</div> Brauch ich zu extrahieren der Zahl Teil. Ich verwendet, re-Modul aber nicht. m
3
Antworten
Mit den folgenden code: soup = BeautifulSoup(page.read(), fromEncoding="utf-8") result = soup.find('div', {'class' :'flagPageTitle'}) Bekomme ich die folgende html: <div id="ctl00_ContentPlaceHolder1_Item65404" class="flagPageTitle" style=" "> <span></span><p>Some text here</p> </div> Wie bekomme ich Some text here ohne tags? Ist es
4
Antworten
Ich versuche, zu extrahieren text mit BeautifulSoup. Ich bin mit get_text() Funktion für diesen Zweck. Mein problem ist, dass der text enthält </br> tags und ich brauche, um Sie zu konvertieren Ende Linien. wie kann ich dies
5
Antworten
Ich bin kämpfen, um BeautifulSoup installiert auf Windows. Bisher habe ich: heruntergeladen BeautifulSoup zu "Meine Downloads". entzippt/entpackt in den downloads-Ordner. An der Eingabeaufforderung ein, ich lief: C:<path to python33> "C:path to beautiful soup\setup.py" install Den Prozess generiert
1
Antworten
Ich brauche, um meinen code rückwärts kompatibel mit python2.6 und BeautifulSoup 3. Mein code wurde geschrieben mit python2.7, und in diesem Fall mit BS4. Aber wenn ich versuche, führen Sie es mit squeezy-server, bekomme ich diese Fehlermeldung
1
Antworten
commentary = soup.find('div', {'id' : 'live-text-commentary-wrapper'}) findtoure = commentary.find(text = re.compile('Gnegneri Toure Yaya')).replace('Gnegneri Toure Yaya', 'Yaya Toure') Kommentar enthält verschiedene Instanzen von Gnegneri Toure Yaya, die müssen das ändern, um Yaya Toure. findAll() funktioniert nicht so findtoure
2
Antworten
Ich bin grabbing eine HTML-Tabelle mit diesem code : import csv import urllib2 from bs4 import BeautifulSoup with open('listing.csv', 'wb') as f: writer = csv.writer(f) for i in range(39): url = "file:///C:/projects/HTML/Export.htm".format(i) u = urllib2.urlopen(url) try: html
2
Antworten
Ich bin mit Python 3.3 auf Windows. Ich versuche herauszufinden, wie laden ein .csv-Datei aus yahoo Finanzen. Es ist eine Datei für den Historischen Preisen. Dies ist der source-code, wo der link ist, den ich versuche zu
3
Antworten
Muss ich spezielle escape-Zeichen in einem hässlichen XML-Datei (5000 Zeilen oder so lang). Hier ein Beispiel der XML, die ich zu bewältigen haben: <root> <element> <name>name & surname</name> <mail>
[email protected]</mail> </element> </root> Hier das problem ist, das Zeichen
3
Antworten
Wollte ich schreiben ein Stück code wie den folgenden: from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup = BeautifulSoup(html) Aber ich fand, dass ich installieren urllib3 - Paket jetzt. Außerdem konnte ich
3
Antworten
Ich bin zu lernen, BeautifulSoup, und fand viele "html2text" Lösungen, aber die, die ich bin auf der Suche nach sollten imitieren die Formatierung: <ul> <li>One</li> <li>Two</li> </ul> Werden würde * One * Two und Some text <blockquote>
3
Antworten
Ich muss in der Lage sein, zu ändern, jeden einzelnen link in einem HTML-Dokument. Ich weiß, dass ich die SoupStrainer aber ich bin nicht 100% positiv, wie es zu implementieren. Wenn jemand könnte mir eine gute Ressource
1
Antworten
Ich versuche zu analysieren, html-Seite und die fetch-Werte für Währungen und schreiben in csv. Ich habe folgenden code: #!/usr/bin/env python import urllib2 from BeautifulSoup import BeautifulSoup contenturl = "http://www.bank.gov.ua/control/en/curmetal/detail/currency?period=daily" soup = BeautifulSoup(urllib2.urlopen(contenturl).read()) table = soup.find('div', attrs={'class': 'content'})
4
Antworten
Sagen, ich schaue auf die folgenden Tumblr post: http://ronbarak.tumblr.com/post/40692813... Es (derzeit) hat 292 Anmerkungen. Ich würde gerne alle die obigen Notizen mit einem Python-Skript (z.B. via urllib2, BeautifulSoup, simplejson, oder tumblr-Api). Einige umfangreiche Googeln produzieren nicht alle
3
Antworten
Habe ich diese html: <input type="text" class="txtSearch"> <input type="submit" value="Search" class="sbtSearch"> Was ich brauche, ist zu schreiben in das Textfeld ein, und klicken Sie dann auf senden mittels python. Die input-tags sind nicht in Form. Wie ich
1
Antworten
Habe ich die folgenden (vereinfachten) code, der verwendet die folgenden Quelle: <html> <p>line 1</p> <div> <a>line 2</a> </div> </html> soup = BeautifulSoup('<html><p>line 1</p><div><a>line 2</a></div></html>') ele = soup.find('p').nextSibling somehow_print_tag_of_ele_here Ich will den tag ele, in diesem Fall "div".
3
Antworten
Hat jemand integrierten BeautifulSoup mit ASP.NET/C# (evtl. mit IronPython oder anderweitig)? Gibt es eine BeautifulSoup alternative oder einen Anschluss, der funktioniert gut mit ASP.NET/C# Der Absicht, von der Planung bis zur Nutzung der Bibliothek zu extrahieren lesbar
3
Antworten
Wie kann ich download mehrere links gleichzeitig? Mein Skript funktioniert aber nur downloads, ein zu einer Zeit, und es ist extrem langsam. Ich kann nicht herausfinden, wie zu integrieren multithreading in meinem Skript. Python-Skript: from BeautifulSoup import
6
Antworten
Ich versuche zu analysieren, Inhalte von meta-tags. Hier ist die Struktur der meta-tags. Die ersten beiden sind geschlossen mit einem backslash, aber der rest nicht irgendwelche schließenden tags. Sobald ich die 3. meta-tag, wird der gesamte Inhalt
3
Antworten
Ich versuche zu analysieren, eine XML mit Beautifulsoup, sondern schlagen eine Mauer bei dem Versuch, die " rekursive " - Attribut mit findall() Ich habe eine ziemlich seltsame xml-format ist unten gezeigt: <?xml version="1.0"?> <catalog> <book> <author>Gambardella,
3
Antworten
wie finde ich alle span-Tag mit einer Klasse 'blue' text enthalten, in der Form: 04/18/13 7:29pm könnte daher sein: 04/18/13 7:29pm oder: Posted on 04/18/13 7:29pm in Bezug auf die Konstruktion der Logik zu tun, dies ist
2
Antworten
Arbeite ich an einem Schulprojekt.Ich will bauen, eine Andriod-app, aber vorher will ich das kratzen einige Daten aus 220.225.101.27/MPLogin/eSewa/VehicleSearch.aspx und speichern in meiner Datenbank. Wenn Sie geben diese Website, die Sie ausfüllen müssen, das KFZ-Kennzeichen da wird
3
Antworten
Ich Schreibe ein python-Skript, welches durch extrahieren wird das Skript Standorte nach der Analyse von einer Webseite. Können sagen, es gibt zwei Szenarien : <script type="text/javascript" src="http://example.com/something.js"></script> und <script>some JS</script> Ich bin in der Lage, die JS
2
Antworten
Ich versuche zum extrahieren von Daten aus Civic Commons-Apps link für mein Projekt. Ich bin in der Lage, um die links von der Seite, die ich brauche. Aber wenn ich versuche zum öffnen der links bekomme ich
3
Antworten
Ich versuche, mit BeautifulSoup zu bekommen text von web-Seiten. Unten ist eine Skript, das ich geschrieben habe zu tun. Es nimmt zwei Argumente, Erstens ist die Eingabe von HTML-oder XML-Datei, die zweite Ausgabedatei. import sys from bs4
3
Antworten
Ich versuche zu analysieren, ein HTML-Dokument mit dem BeautifulSoup Python-Bibliothek, aber die Struktur ist immer verzerrt durch <br> - tags. Lassen Sie mich Ihnen nur ein Beispiel. Input HTML: <div> some text <br> <span> some more text
3
Antworten
import urllib2 import urllib from BeautifulSoup import BeautifulSoup # html from BeautifulSoup import BeautifulStoneSoup # xml import BeautifulSoup # everything import re f = o.open( 'http://www.google.com', p) html = f.read() f.close() soup = BeautifulSoup(html) Immer eine Fehlermeldung
2
Antworten
Will ich Holen von Daten von einer anderen url, für die ich bin mit das urllib und Schöne Suppe , Meine Daten innerhalb der Tabelle-tag (die ich-Figur aus der Verwendung von Firefox in der Konsole). Aber als
4
Antworten
Ich löschen möchte die spezifischen div aus soup Objekt. Ich bin mit python 2.7 und bs4. Laut Unterlagen, die wir verwenden können div.decompose(). Aber das würde alle löschen, die div. Wie lösche ich einen div mit bestimmten
1
Antworten
Ich will kratzen Sie die Bilder von einem öffentlichen Instagram-account. Ich bin ziemlich vertraut mit bs4 und so begann ich mit diesem. Mit dem element-Inspektor auf Chrome, ich stellte die Bilder sind in einer ungeordneten Liste und
2
Antworten
Brauche ich Daten aus der Tabelle in eine Textdatei (output.txt) in diesem format: data1;data2;data3;data4;..... Celkova podlahova plocha bytu;33m;Vytah;Ano;Nadzemne podlazie;Prizemne podlazie;.....;Forma vlastnictva;Osobne All in "eine Zeile", separator ";" (später exportieren in csv-Datei). Im Anfänger.. Hilfe, danke. from BeautifulSoup
3
Antworten
Modifizierte ich eine html-Datei, indem einige der tags mit beautifulsoup. Jetzt möchte ich schreiben die Ergebnisse in eine html-Datei. Mein code: from bs4 import BeautifulSoup from bs4 import Comment soup = BeautifulSoup(open('1.html'),"html.parser") [x.extract() for x in soup.find_all('script')]