Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Über das urllib und BeautifulSoup zum abrufen von Infos aus dem web mit Python

Anzahl der Antworten 1 Antworten
Ich kann die html-Seite, über das urllib, und verwenden Sie BeautifulSoup Parsen der html-Seite, und es sieht so aus, dass ich zu generieren, die Datei zum Lesen von BeautifulSoup. import urllib sock = urllib.urlopen("http://SOMEWHERE") htmlSource = sock.read()

Beautifulsoup : gibt es einen Unterschied zwischen .find() und .wählen Sie() - python 3.xx

Anzahl der Antworten 1 Antworten
Ich habe eine einfache Frage: wenn Sie BeautifulSoup zu kratzen, einen bestimmten Teil einer website, die Sie verwenden können data.find(), data.findAll() oder data.select(). Jetzt ist die Frage. Gibt es einen signifikanten Unterschied zwischen den .find() und die

Analysieren web-Seite in python mit Schönen Suppe

Anzahl der Antworten 2 Antworten
Habe ich einige Probleme mit dem abrufen der Daten von der website. Die website-Quelle ist hier: view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO gibt es etw so: INFORMACJE O FILMIE Tytuł............................................: La mer à boire Ocena.............................................: IMDB - 6.3/10 (24) Produkcja.........................................: Frankreich Gatunek...........................................:

Warum bin ich immer "'ResultSet' hat kein Attribut 'findAll'" mit BeautifulSoup Python?

Anzahl der Antworten 1 Antworten
Also Lerne ich Python langsam, und ich versuche, um eine einfache Funktion, die zieht die Daten aus den high-scores-Seite ein online-Spiel. Das ist jemand anderes den code, den ich schrieb in einer Funktion (was das problem sein

BeautifulSoup .text-Methode gibt text ohne Trennzeichen (\n, \r etc.)

Anzahl der Antworten 3 Antworten
Habe ich versucht zu analysieren Songtexte von größten Russischen Texte Website http://amalgama-lab.com und speichern von Texten (übersetzung und original) in der Liste "audio" aus meinen Vkontakte account(leider, amalgama keine API) import urllib from BeautifulSoup import BeautifulSoup import

Kein Modul namens BeautifulSoup (sollte aber installiert werden)

Anzahl der Antworten 1 Antworten
Ich heruntergeladen BeautifulSoup. Dann habe ich ein Upgrade pip: pip install --upgrade pip Dann installiert-BS: pip installieren beautifulsoup4 Wie es scheint, alles hat gut funktioniert, aber jetzt wenn ich diese drei Zeilen code: from BeautifulSoup import BeautifulSoup

Zugang nächsten Geschwister <li> element mit BeautifulSoup

Anzahl der Antworten 2 Antworten
Ich bin völlig neu in web-Parsen mit Python/BeautifulSoup. Ich habe ein HTML, das hat (teilweise) den code wie folgt: <div id="pages"> <ul> <li class="active"><a href="example.com">Example</a></li> <li><a href="example.com">Example</a></li> <li><a href="example1.com">Example 1</a></li> <li><a href="example2.com">Example 2</a></li> </ul> </div> Habe ich

Wie kann ich analysieren Javascript-Variablen mit python?

Anzahl der Antworten 4 Antworten
Dem problem: Eine website, die ich bin versucht zu sammeln Daten von Javascript verwendet, um zu produzieren ein graph. Ich möchte in der Lage sein, ziehen Sie die Daten, die in der Grafik verwendet wird, aber ich

pip install package from url

Anzahl der Antworten 2 Antworten
pip install http://www.crummy.com/software/BeautifulSoup/unreleased/4.x/BeautifulSoup-4.0b.tar.gz dies installiert Paket bs4, und alles ist ok. Aber wenn ich diese Zeile in requirements.txt http://www.crummy.com/software/BeautifulSoup/unreleased/4.x/BeautifulSoup-4.0b.tar.gz und führen pip install -r requirements.txt die Ausgabe ist Downloading/unpacking http://www.crummy.com/software/BeautifulSoup/unreleased/4.x/BeautifulSoup-4.0b.tar.gz (from -r requirements.txt (line 40)) Downloading BeautifulSoup-4.0b.tar.gz

BeautifulSoup: extrahieren von text aus Anker-tag

Anzahl der Antworten 5 Antworten
Möchte ich extrahieren: text aus folgenden src der image tag und text der anchor-tag innerhalb der div Klasse Daten Habe ich erfolgreich entpacken-img-src, aber ich habe Probleme bei der Extraktion des Textes aus den Anker-tag. <a class="title"

Python Scraping JavaScript mit Selen und Schöne Suppe

Anzahl der Antworten 1 Antworten
Ich versuche zu kratzen ein JavaScript-aktiviert die Seite mit BS und Selen. Ich habe den folgenden code so weit. Es immer noch nicht irgendwie erkennen, die JavaScript (und gibt einen null-Wert). In diesem Fall bin ich versucht

Test, wenn Kinder tag existiert in beautifulsoup

Anzahl der Antworten 4 Antworten
ich habe eine XML-Datei mit einer definierten Struktur, aber unterschiedlicher Anzahl von tags, wie file1.xml: <document> <subDoc> <id>1</id> <myId>1</myId> </subDoc> </document> file2.xml: <document> <subDoc> <id>2</id> </subDoc> </document> Jetzt möchte ich überprüfen, wenn der tag myId beendet. Also

Web scraping - how für den Zugriff auf Inhalte gerendert in JavaScript über Angular.js?

Anzahl der Antworten 1 Antworten
Ich versuche, mich zu kratzen, Daten aus der öffentlichen Website asx.com.au Die Seite http://www.asx.com.au/asx/research/company.do#!/ACB/details enthält eine div mit der Klasse "view-content", die die Informationen, die ich brauche: Aber wenn ich versuchen, diese Seite über Python ' s

Finden nächsten Auftritt-tag und eingeschlossenen text mit Schönen Suppe

Anzahl der Antworten 1 Antworten
Ich versuche zu Parsen von text zwischen das tag <blockquote>. Wenn ich soup.blockquote.get_text(). Ich das Ergebnis bekommen, das möchte ich für den ersten Auftritt blockquote in HTML-Datei. Wie finde ich die nächste und sequentielle <blockquote> - tag

'NoneType' - Objekt hat kein Attribut 'text'

Anzahl der Antworten 1 Antworten
Wie soll ich extrahieren "£70,004" text in dd, das weglassen von "Investment gesucht" text in dt. from bs4 import BeautifulSoup import urllib2 url="https://www.seedrs.com/tanorganic" page = urllib2.urlopen(url) soup = BeautifulSoup(page.read(), "html.parser") target = soup.find("dl", class_="investment_sought").text print target figure

Extrahieren von ausgewählten Spalten aus einer Tabelle mit BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich versuche zum extrahieren der ersten und der Dritten Spalten von diese Daten Tabelle mit BeautifulSoup. Aus der Betrachtung der HTML-die erste Spalte hat eine <th> tag. Die andere Spalte der Interesse hat als <td> tag. In

Beschleunigung beautifulsoup

Anzahl der Antworten 1 Antworten
Bin ich mit einem Spachtel dieser Kurs website und ich Frage mich ob es einen schnelleren Weg zu kratzen, die Seite, sobald ich es in beautifulsoup. Es dauert viel länger, als ich erwartet hätte. Tipps? from selenium

TypeError: 'NoneType' object ist nicht iterierbar, Python

Anzahl der Antworten 2 Antworten
Ich habe ein paar Beiträge der letzten paar Tage , also vielen Dank für die Hilfe bisher, alle es ist geschätzt, da Sie helfen einem Anfänger. Heads-Up , ich kenne den code unten aussieht erm ist sehr

was ist der return-Wert von BeautifulSoup.finden?

Anzahl der Antworten 1 Antworten
Ich ausführen, erhalten Sie einen Wert als Partitur. score = soup.find('div', attrs={'class' : 'summarycount'}) Ich Lauf "drucken Ergebnis" zu bekommen, wie folgt. <div class=\"summarycount\">524</div> Brauch ich zu extrahieren der Zahl Teil. Ich verwendet, re-Modul aber nicht. m

Gibt es eine InnerText entspricht in BeautifulSoup?

Anzahl der Antworten 3 Antworten
Mit den folgenden code: soup = BeautifulSoup(page.read(), fromEncoding="utf-8") result = soup.find('div', {'class' :'flagPageTitle'}) Bekomme ich die folgende html: <div id="ctl00_ContentPlaceHolder1_Item65404" class="flagPageTitle" style=" "> <span></span><p>Some text here</p> </div> Wie bekomme ich Some text here ohne tags? Ist es

Convert </br> Ende Zeile

Anzahl der Antworten 4 Antworten
Ich versuche, zu extrahieren text mit BeautifulSoup. Ich bin mit get_text() Funktion für diesen Zweck. Mein problem ist, dass der text enthält </br> tags und ich brauche, um Sie zu konvertieren Ende Linien. wie kann ich dies

Can ' T install Beautifulsoup ("bs4 nicht vorhanden")

Anzahl der Antworten 5 Antworten
Ich bin kämpfen, um BeautifulSoup installiert auf Windows. Bisher habe ich: heruntergeladen BeautifulSoup zu "Meine Downloads". entzippt/entpackt in den downloads-Ordner. An der Eingabeaufforderung ein, ich lief: C:<path to python33> "C:path to beautiful soup\setup.py" install Den Prozess generiert

BeautifulSoup - TypeError: 'NoneType' object ist nicht aufrufbar

Anzahl der Antworten 1 Antworten
Ich brauche, um meinen code rückwärts kompatibel mit python2.6 und BeautifulSoup 3. Mein code wurde geschrieben mit python2.7, und in diesem Fall mit BS4. Aber wenn ich versuche, führen Sie es mit squeezy-server, bekomme ich diese Fehlermeldung

Python - Finden Sie text mit beautifulSoup dann ersetzen Sie in der original-Suppe-variable

Anzahl der Antworten 1 Antworten
commentary = soup.find('div', {'id' : 'live-text-commentary-wrapper'}) findtoure = commentary.find(text = re.compile('Gnegneri Toure Yaya')).replace('Gnegneri Toure Yaya', 'Yaya Toure') Kommentar enthält verschiedene Instanzen von Gnegneri Toure Yaya, die müssen das ändern, um Yaya Toure. findAll() funktioniert nicht so findtoure

BeautifulSoup / Python - Konvertieren Sie HTML-Tabelle in CSV und erhalten href für eine Spalte

Anzahl der Antworten 2 Antworten
Ich bin grabbing eine HTML-Tabelle mit diesem code : import csv import urllib2 from bs4 import BeautifulSoup with open('listing.csv', 'wb') as f: writer = csv.writer(f) for i in range(39): url = "file:///C:/projects/HTML/Export.htm".format(i) u = urllib2.urlopen(url) try: html

Download ein .csv-Datei mit Python

Anzahl der Antworten 2 Antworten
Ich bin mit Python 3.3 auf Windows. Ich versuche herauszufinden, wie laden ein .csv-Datei aus yahoo Finanzen. Es ist eine Datei für den Historischen Preisen. Dies ist der source-code, wo der link ist, den ich versuche zu

escaping von Zeichen in einer xml-Datei mit python

Anzahl der Antworten 3 Antworten
Muss ich spezielle escape-Zeichen in einem hässlichen XML-Datei (5000 Zeilen oder so lang). Hier ein Beispiel der XML, die ich zu bewältigen haben: <root> <element> <name>name & surname</name> <mail>[email protected]</mail> </element> </root> Hier das problem ist, das Zeichen

Was sollte ich verwenden, um einen url zu öffnen, anstatt urlopen in urllib3

Anzahl der Antworten 3 Antworten
Wollte ich schreiben ein Stück code wie den folgenden: from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup = BeautifulSoup(html) Aber ich fand, dass ich installieren urllib3 - Paket jetzt. Außerdem konnte ich

Python konvertieren von html in text und Formatierung imitieren

Anzahl der Antworten 3 Antworten
Ich bin zu lernen, BeautifulSoup, und fand viele "html2text" Lösungen, aber die, die ich bin auf der Suche nach sollten imitieren die Formatierung: <ul> <li>One</li> <li>Two</li> </ul> Werden würde * One * Two und Some text <blockquote>

BeautifulSoup - ändern sich alle links in einem Stück HTML?

Anzahl der Antworten 3 Antworten
Ich muss in der Lage sein, zu ändern, jeden einzelnen link in einem HTML-Dokument. Ich weiß, dass ich die SoupStrainer aber ich bin nicht 100% positiv, wie es zu implementieren. Wenn jemand könnte mir eine gute Ressource

Wie parse html-Tabelle mit python und beautifulsoup-und Schreibzugriff auf csv

Anzahl der Antworten 1 Antworten
Ich versuche zu analysieren, html-Seite und die fetch-Werte für Währungen und schreiben in csv. Ich habe folgenden code: #!/usr/bin/env python import urllib2 from BeautifulSoup import BeautifulSoup contenturl = "http://www.bank.gov.ua/control/en/curmetal/detail/currency?period=daily" soup = BeautifulSoup(urllib2.urlopen(contenturl).read()) table = soup.find('div', attrs={'class': 'content'})

Wie kann ich sehen, alle Notizen von einem Tumblr-post von Python?

Anzahl der Antworten 4 Antworten
Sagen, ich schaue auf die folgenden Tumblr post: http://ronbarak.tumblr.com/post/40692813... Es (derzeit) hat 292 Anmerkungen. Ich würde gerne alle die obigen Notizen mit einem Python-Skript (z.B. via urllib2, BeautifulSoup, simplejson, oder tumblr-Api). Einige umfangreiche Googeln produzieren nicht alle

Fill input vom Typ text und drücken Sie senden mittels python

Anzahl der Antworten 3 Antworten
Habe ich diese html: <input type="text" class="txtSearch"> <input type="submit" value="Search" class="sbtSearch"> Was ich brauche, ist zu schreiben in das Textfeld ein, und klicken Sie dann auf senden mittels python. Die input-tags sind nicht in Form. Wie ich

BeautifulSoup: get tag-name eines Elements selbst, nicht die Kinder

Anzahl der Antworten 1 Antworten
Habe ich die folgenden (vereinfachten) code, der verwendet die folgenden Quelle: <html> <p>line 1</p> <div> <a>line 2</a> </div> </html> soup = BeautifulSoup('<html><p>line 1</p><div><a>line 2</a></div></html>') ele = soup.find('p').nextSibling somehow_print_tag_of_ele_here Ich will den tag ele, in diesem Fall "div".

BeautifulSoup und ASP.NET/C#

Anzahl der Antworten 3 Antworten
Hat jemand integrierten BeautifulSoup mit ASP.NET/C# (evtl. mit IronPython oder anderweitig)? Gibt es eine BeautifulSoup alternative oder einen Anschluss, der funktioniert gut mit ASP.NET/C# Der Absicht, von der Planung bis zur Nutzung der Bibliothek zu extrahieren lesbar

Multithreading für eine schnellere Download

Anzahl der Antworten 3 Antworten
Wie kann ich download mehrere links gleichzeitig? Mein Skript funktioniert aber nur downloads, ein zu einer Zeit, und es ist extrem langsam. Ich kann nicht herausfinden, wie zu integrieren multithreading in meinem Skript. Python-Skript: from BeautifulSoup import

Extrahieren von Inhalt aus bestimmten meta-tags, die nicht geschlossen mit BeautifulSoup

Anzahl der Antworten 6 Antworten
Ich versuche zu analysieren, Inhalte von meta-tags. Hier ist die Struktur der meta-tags. Die ersten beiden sind geschlossen mit einem backslash, aber der rest nicht irgendwelche schließenden tags. Sobald ich die 3. meta-tag, wird der gesamte Inhalt

BeautifulSoup verschachtelte tags

Anzahl der Antworten 3 Antworten
Ich versuche zu analysieren, eine XML mit Beautifulsoup, sondern schlagen eine Mauer bei dem Versuch, die " rekursive " - Attribut mit findall() Ich habe eine ziemlich seltsame xml-format ist unten gezeigt: <?xml version="1.0"?> <catalog> <book> <author>Gambardella,

So finden Sie überspannt mit einer bestimmten Klasse mit bestimmten text mit schönen Suppe und re?

Anzahl der Antworten 3 Antworten
wie finde ich alle span-Tag mit einer Klasse 'blue' text enthalten, in der Form: 04/18/13 7:29pm könnte daher sein: 04/18/13 7:29pm oder: Posted on 04/18/13 7:29pm in Bezug auf die Konstruktion der Logik zu tun, dies ist

Wie füllen Sie html-Formular und kratzen von einer website?

Anzahl der Antworten 2 Antworten
Arbeite ich an einem Schulprojekt.Ich will bauen, eine Andriod-app, aber vorher will ich das kratzen einige Daten aus 220.225.101.27/MPLogin/eSewa/VehicleSearch.aspx und speichern in meiner Datenbank. Wenn Sie geben diese Website, die Sie ausfüllen müssen, das KFZ-Kennzeichen da wird

Erste Attribut-Wert mit BeautifulSoup

Anzahl der Antworten 3 Antworten
Ich Schreibe ein python-Skript, welches durch extrahieren wird das Skript Standorte nach der Analyse von einer Webseite. Können sagen, es gibt zwei Szenarien : <script type="text/javascript" src="http://example.com/something.js"></script> und <script>some JS</script> Ich bin in der Lage, die JS

Python-Web-Schaben - urlopen error [Errno -2] Name oder Dienst nicht bekannt

Anzahl der Antworten 2 Antworten
Ich versuche zum extrahieren von Daten aus Civic Commons-Apps link für mein Projekt. Ich bin in der Lage, um die links von der Seite, die ich brauche. Aber wenn ich versuche zum öffnen der links bekomme ich

BeautifulSoup get_text nicht alle strip-tags und JavaScript

Anzahl der Antworten 3 Antworten
Ich versuche, mit BeautifulSoup zu bekommen text von web-Seiten. Unten ist eine Skript, das ich geschrieben habe zu tun. Es nimmt zwei Argumente, Erstens ist die Eingabe von HTML-oder XML-Datei, die zweite Ausgabedatei. import sys from bs4

Beautifulsoup Geschwister-Struktur mit br-tags

Anzahl der Antworten 3 Antworten
Ich versuche zu analysieren, ein HTML-Dokument mit dem BeautifulSoup Python-Bibliothek, aber die Struktur ist immer verzerrt durch <br> - tags. Lassen Sie mich Ihnen nur ein Beispiel. Input HTML: <div> some text <br> <span> some more text

BeautifulSoup(html) funktioniert nicht, sagen kann nicht aufgerufen werden Modul?

Anzahl der Antworten 3 Antworten
import urllib2 import urllib from BeautifulSoup import BeautifulSoup # html from BeautifulSoup import BeautifulStoneSoup # xml import BeautifulSoup # everything import re f = o.open( 'http://www.google.com', p) html = f.read() f.close() soup = BeautifulSoup(html) Immer eine Fehlermeldung

Abrufen von Daten von Variablen im script-tag in Python oder Inhalte Hinzugefügt von js

Anzahl der Antworten 2 Antworten
Will ich Holen von Daten von einer anderen url, für die ich bin mit das urllib und Schöne Suppe , Meine Daten innerhalb der Tabelle-tag (die ich-Figur aus der Verwendung von Firefox in der Konsole). Aber als

Löschen eines div mit einer particlular Klasse mit BeautifulSoup

Anzahl der Antworten 4 Antworten
Ich löschen möchte die spezifischen div aus soup Objekt. Ich bin mit python 2.7 und bs4. Laut Unterlagen, die wir verwenden können div.decompose(). Aber das würde alle löschen, die div. Wie lösche ich einen div mit bestimmten

Wie zu kratzen Instagram mit BeautifulSoup

Anzahl der Antworten 1 Antworten
Ich will kratzen Sie die Bilder von einem öffentlichen Instagram-account. Ich bin ziemlich vertraut mit bs4 und so begann ich mit diesem. Mit dem element-Inspektor auf Chrome, ich stellte die Bilder sind in einer ungeordneten Liste und

parsing-Tabelle mit BeautifulSoup und schreiben in text-Datei

Anzahl der Antworten 2 Antworten
Brauche ich Daten aus der Tabelle in eine Textdatei (output.txt) in diesem format: data1;data2;data3;data4;..... Celkova podlahova plocha bytu;33m;Vytah;Ano;Nadzemne podlazie;Prizemne podlazie;.....;Forma vlastnictva;Osobne All in "eine Zeile", separator ";" (später exportieren in csv-Datei). Im Anfänger.. Hilfe, danke. from BeautifulSoup

Wie schreibt man die Ausgabe in html-Datei mit dem Python-BeautifulSoup

Anzahl der Antworten 3 Antworten
Modifizierte ich eine html-Datei, indem einige der tags mit beautifulsoup. Jetzt möchte ich schreiben die Ergebnisse in eine html-Datei. Mein code: from bs4 import BeautifulSoup from bs4 import Comment soup = BeautifulSoup(open('1.html'),"html.parser") [x.extract() for x in soup.find_all('script')]