Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Python-BeautifulSoup zu kratzen Tabellen aus einer Webseite

1 Antworten

Ich versuche zum sammeln von Informationen von einer website, die eine Datenbank für die Schiffe. Ich habe versucht, die Informationen mit BeautifulSoup. Aber im moment scheint es nicht zu funktionieren. Ich habe versucht, die Suche im web

Konvertieren Ergebnismenge string und Platz in der Liste

1 Antworten

Ich versuche zu konvertieren die Werte in meiner Liste zu normalen strings wie listy = [['value1','value2','value3'],['value1','value2','value3'],[ Ich initialisiert eine leere Liste listy = alle die <a> mit find_all('a') und produziert diese als Ausgang listy = [[...

beautifulsoup python unicode xml

web-scraping (football Quote)

1 Antworten

Ich bin neu in web-scraping und Recht jetzt ich versuche, es zu verstehen, um die Automatisierung, der ein Wetten-Wettbewerb mit Freunden über die Deutsche bundesliga. (Die Plattform, die wir verwenden, ist kicktipp.de). Ich habe es schon geschafft,

beautifulsoup python web-scraping

Verwenden BeautifulSoup um text zu extrahieren, bevor das erste Kind-tag

1 Antworten

Aus dieser html-Quelltext: <div class="category_link"> Category: <a href="/category/personal">Personal</a> </div> Möchte ich extrahieren Sie den text Category: Hier sind meine versuche mit Python/BeautifulSoup (mit Ausgabe als Kommentar - nach dem #) parsed = BeautifulSoup(sample_html) parsed_div = parsed.findAll('div')[0] parsed_div.firstText()

beautifulsoup python

BeautifulSoup - lxml und html5lib Parser Schaben Unterschiede

2 Antworten

Ich bin mit BeautifulSoup 4 mit Python 2.7. Ich möchte zum extrahieren bestimmter Elemente aus einer website (Mengen, siehe das Beispiel unten). Für einige Grund, die lxml parser erlaubt mir nicht, zu extrahieren alle gewünschten Elemente von

beautifulsoup html5lib lxml python web-scraping

BeautifulSoup Ausgang zu .txt-Datei

2 Antworten

Ich versuche meine Daten exportieren, als .txt-Datei from bs4 import BeautifulSoup import requests import os import os os.getcwd() '/home/folder' os.mkdir("Probeersel6") os.chdir("Probeersel6") os.getcwd() '/home/Desktop/folder' os.mkdir("img") #now `folder` url = "http://nos.nl/artikel/2093082-steeds-meer-nekklachten-bij-kinderen-door-gebruik-tablets.html" r = requests.get(url) soup = BeautifulSoup(r.content) data =

beautifulsoup bs4 operating-system python python-requests

Python-Schöne Suppe .content-Eigenschaft

1 Antworten

Was bedeutet BeautifulSoup ist .Inhalt tun? Ich arbeite durch crummy.com's tutorial und ich weiß nicht wirklich verstehen, was .Inhalt tut. Ich habe mir die Foren und ich habe nicht gesehen, alle Antworten. Betrachten Sie den code unten....

beautifulsoup python

Parsen von html mit BeautifulSoup Python

1 Antworten

Ich schrieb einige code zu Parsen von html, aber das Ergebnis war nicht das, was ich wollte: import urllib2 html = urllib2.urlopen('http://dummy').read() from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) for definition in soup.findAll('span', {"class":'d'}): definition = definition.renderContents()

beautifulsoup html python

Wie eine Schleife durch eine html-Tabelle-Datensatz in Python

2 Antworten

Ich bin erste mal poster hier versuchen, abholen einige Python-Fähigkeiten; seien Sie bitte nett zu mir 🙂 Während ich bin nicht einer völlig fremden zu Programmierkonzepte (ich ve wurde Herumspielen mit PHP vor), den übergang zu Python

beautifulsoup python

web-kratzen ein .txt-Datei mit python

2 Antworten

Geschlossen. Diese Frage muss sich mehr. Es ist derzeit nicht akzeptieren Antworten. mehr. verbessern Wollen dieser Frage? Update die Frage, also es konzentriert sich auf ein problem, das nur durch Bearbeiten diesem post. Geschlossen 3 Jahren. Ich

beautifulsoup python python-3.x web-scraping

Wie legen Sie Wert in der mit Schönen Suppe, in der einige HTML-element, wenn ich weiß id, die element oder Klasse?

1 Antworten

Wie Wert mit Schönen Suppe, die in einigen element, wenn ich weiß, die id des HTML-Elements oder Klasse ? Ich habe zum Beispiel <td id="test"></td> und ich möchte, um text WIEDERHERSTELLEN... wie <td id="test">RESTORE...</td>. InformationsquelleAutor Damir |

beautifulsoup python

Entfernen von span-tags von der Suppe BeautifulSoup/Python

2 Antworten

Ich habe eine Suppe in Python so: <p> <span style="text-decoration: underline; color: #3366ff;"> Title: </span> Info </p> <p> <span style="color: #3366ff;"> <span style="text-decoration: underline;"> Title2: </span> </span> Info2 </p> Ich mag würde, um es wie folgt Aussehen:

beautifulsoup dom html python

HTTP-Fehler 400: Bad Request (das urllib)

1 Antworten

Ich Schreibe ein Skript, um Informationen über Gebäude in NYC. Ich weiß, dass mein code funktioniert und gibt was ich möchte, es zu. Ich war vorher dabei die manuelle Eingabe und es hat funktioniert. Jetzt versuche ich

beautifulsoup python urllib

Wie man span-Wert unter Verwendung von python und BeautifulSoup

1 Antworten

Ich bin mit BeautifulSoup zum ersten mal und versuchen zu sammeln, mehrere Daten wie E-Mail,Telefon-Nummer und Email-Adresse aus einer Suppe Objekt. Mithilfe von regulären Ausdrücken, ich kann erkennen, die E-Mail-Adresse. Mein code zu finden, der E-Mail ist:

beautifulsoup python

Python-Aufteilung auf die neue-Zeile-Zeichen

3 Antworten

Ich habe eine html-Datei, die ich abrufen nur der text ich würde gerne drucken einer einzelnen Zeile jetzt bin ich print for line in newName.body(text=True): print line dieser gibt mir alles, was in den Körper was ich

beautifulsoup python split string urllib2

Python, wie Streifen weiß-Leerzeichen aus dem xml-text Knoten

5 Antworten

Ich habe eine xml-Datei wie folgt <Person> <name> My Name </name> <Address>My Address</Address> </Person> Den tag hat extra neue Leitungen, gibt es einen schnellen Pythonic Weg, um trim und generieren Sie eine neue xml. Fand ich dies,

beautifulsoup lxml python python-2.7 xml xml-parsing

Wie kann ich deinstallieren beautifulsoup von der Quelle?

2 Antworten

Ich installiert extrahieren BeautifulSoup-3.2.0.tar.gz python setup.py install Was ist der Befehl zum deinstallieren von ihm? Ich bemerkte, dass es ein linux-distro-spezifischen Paket namens python-beautifulsoup. Ich möchte das system installieren, spezifische beautifulsoup. Was ich versucht habe: python setup.py

beautifulsoup python

Kratzen eine dynamische website

9 Antworten

Was ist die beste Methode, um kratzen eine dynamische website, wo die meisten Inhalte werden durch das, was erscheint, um ajax-requests? Ich habe Vorherige Erfahrung mit einem Mechanisieren, BeautifulSoup, und python-combo, aber ich bin für etwas neues.

ajax beautifulsoup python screen-scraping

InvalidSchema Keine Anschluss-Adapter wurden nicht gefunden , Fehler in django

2 Antworten

Ich experimentiere mit http://robobrowser.readthedocs.org/en/latest/readme.html, eine neue python-Bibliothek, basierend auf der schönen Suppe und Anfragen ibraries. Ich bin derzeit mit es zu öffnen, eine Reihe von Seiten und speichern der Antwort in einer Liste für eine spätere Analyse.

beautifulsoup django python python-requests robobrowser

Web Scraping Rap-lyrics auf Rap Genius w/ Python

5 Antworten

Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein

beautifulsoup html-parsing nltk python web-scraping

python - PipeMapRed.waitOutputThreads(): subprocess failed with code 1

1 Antworten

Kürzlich, möchte ich analysieren, websites, und verwenden Sie dann BeautifulSoup zu filtern, was ich will und schreiben in der csv-Datei in hdfs. Nun bin ich auf die Filterung von website-code mit BeautifulSoup. Will ich mit mapreduce-Methode ausführen:

beautifulsoup hadoop-streaming mapreduce

schreiben von xml mit schönen Suppe

2 Antworten

dies ist möglicherweise eine wirklich dumme Frage, aber ich habe nicht wirklich die Antwort gefunden. sobald ich änderungen an der xml-Struktur als notwendig, wie Schreibe ich es wieder aus der Datei? code: workbook = open("C:\\Users\\rabdel.WINCMPT\\Documents\\Retail Footwear.twb") soup

beautifulsoup python

urlopen, BeautifulSoup und UTF-8-Problem

2 Antworten

Ich versuche nur, das abrufen einer web-Seite, aber irgendwie eine fremde Figur ist eingebettet in die HTML-Datei. Dieses Zeichen ist nicht sichtbar, wenn ich "View Source". isbn = 9780141187983 url = "http://search.barnesandnoble.com/booksearch/isbninquiry.asp?ean=%s" % isbn opener = urllib2.build_opener()

beautifulsoup python urllib2 utf-8

BeautifulSoup' hat kein Attribut 'HTML_ENTITIES

3 Antworten

Ich habe vor kurzem ein upgrade BeautifulSoup von version 3.0 auf version 4.1 auf einem Windows-Rechner. Ich bin jetzt immer eine seltsame Fehlermeldung: File "C:\path\to\myscript.py", line 23 0, in soupify return BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES) AttributeError: type object 'BeautifulSoup'

beautifulsoup python

beautifulsoup finden, text mit und ohne regex

1 Antworten

Html: <td>some key </td> finden ohne regex: soup.find(text='some key') zurückgegeben Keiner finden mit regex soup.find(text=re.compile('some key')) zurückgegeben, die den td-Knoten. Würde jemand auf den Unterschied zwischen den beiden Ansätzen? "einige wichtige" ist eine wörtliche Zeichenfolge ohne Sonderzeichen.

beautifulsoup

Display-text aus der img-alt-tag mit beautifulsoup

2 Antworten

Bisher mein code ist: year = range(1958,2013) randomYear = random.choice(year) randomYear = str(randomYear) page = range(1,5) randomPage = random.choice(page) randomPage = str(randomPage) print(randomPage, randomYear) url = 'http://www.billboard.com/artists/top-100/'+randomYear+'?page='+randomPage url1 = urlopen(url) htmlSource = url1.read() url1.close() soup = BeautifulSoup(htmlSource)

beautifulsoup python

Batch-Download text und Bilder aus einer URL mit Python / das urllib / beautifulsoup?

1 Antworten

Ich habe beim durchstöbern einige Beiträge hier, aber ich habe gerade nicht bekommen kann meinen Kopf herum batch-herunterladen von Bildern und text aus einer bestimmten URL mit Python. import urllib,urllib2 import urlparse from BeautifulSoup import BeautifulSoup import

beautifulsoup python urllib urllib2

Mit BeautifulSoup zu finden, die bestimmten text auf einer Webseite

1 Antworten

Ich versuche zu speichern eine Liste der Filme von einer website mit Python 3 und die Schöne Suppe 4. Das problem ist, ich bin Recht neu in Python und BS und ich weiß wirklich nicht, wo man

beautifulsoup html python python-3.x web-scraping

Ausschließen unerwünschter tag auf Beautifulsoup Python

2 Antworten

<span> I Like <span class='unwanted'> to punch </span> your face </span> How to print "ich Mag dein Gesicht" statt "ich Mag punch your face" Habe ich versucht, dieses lala = soup.find_all('span') for p in lala: if not

beautifulsoup html python web-scraping

Python-schöne Suppe wählen Sie text

2 Antworten

Der folgenden ist ein Beispiel für den HTML code, den ich will, zu analysieren: <html> <body> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> Example BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8">

beautifulsoup html-parsing python

Schaben eine Antwort von der ausgewählten option in der dropdown-Liste

2 Antworten

Dies ist ein Beispiel einer Seite, die Listen baseball-Statistiken für den ausgewählten Spieler, den säumigen zu dem letzten Jahr (2014, bald 2015) http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 Dem drop-down-Liste erlaubt dem Benutzer ausgewählte Jahre Jahr 2010, aber nicht ändern der angezeigten

beautifulsoup drop-down-menu html-parsing python web-scraping

BeautifulSoup gibt mir unicode+html-Symbole, anstatt gerade nach oben unicode. Ist das ein Fehler oder Missverständnis?

2 Antworten

Ich bin mit BeautifulSoup zu kratzen einer website. Die Seite macht Ordnung in meinem browser: Oxfam International ' s Bericht mit dem Titel “Abseits! http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271 Insbesondere die single-und double-quotes gut Aussehen. Sie sehen die html-Symbole anstatt ascii,

beautifulsoup html python unicode

Was bedeutet diese Fehlermeldung in der schönen Suppe bedeutet?

2 Antworten

Mache ich kleines Skript mit PyQt4 und BeautifulSoup. Im Grunde geben Sie url und als Skript soll download alle pic ' s von der web-Seite. In der Ausgabe, wenn ich http://yahoo.com lädt es alle Bilder außer eins:

beautifulsoup pyqt python

Wie eine Schleife durch das Schöne Suppe Elemente, um Attribut-Werte

1 Antworten

Muss ich Durchlaufen Schöne Suppe, die Elemente und Holen Sie sich die Attribut-Werte: Für ein XML-doc: <?xml version="1.0" encoding="UTF-8"?> <Document> <Page x1="71" y1="120" x2="527" y2="765" type="page" chunkCount="25" pageNumber="1" wordCount="172"> <Chunk x1="206" y1="120" x2="388" y2="144" type="unclassified"> <Word x1="206"

beautifulsoup python xml

Web-Crawler in Python für Yelp

2 Antworten

Ich habe versucht zu schreiben, ein crawler ist zum jaulen. Ich möchte die links der Anbieter auf dieser Seite zur Verfügung, ich weiß, es ist gegeben a href=" aber das array zurückgeben ist immer leer Bitte um

beautifulsoup mechanize-python python web-crawler

post zur Seite, um eine Anmeldung mit schönen Suppe

2 Antworten

Bin ich mit python und beautifulsoup (neu für beide!), und ich möchte Zugriff auf die Lieferanten-website. So Ihre form so aussieht (vereinfacht): <form name=loginform action=/index.html method="post"> <input name=user> <input name=pass"> </form> Gibt es eine Möglichkeit zu verfolgen,

beautifulsoup python

BeautifulSoup: Wie man verschachtelte divs

1 Antworten

Folgenden code: <html> <body> <div class="category1" id="foo"> <div class="category2" id="bar"> <div class="category3"> </div> <div class="category4"> <div class="category5"> test </div> </div> </div> </div> </body> </html> Gewusst wie: extrahieren Sie das Wort test aus <div class="category5"> test mit BeautifulSoup

beautifulsoup python web-scraping

Kann nicht entfernen Zeilenumbrüche von BeautifulSoup text-Ausgabe (Python 2.7.5)

3 Antworten

Ich versuche ein Programm zu schreiben, zu analysieren, eine Reihe von HTML-Dateien und speichern Sie die resultierenden Daten in eine .csv-spreadsheet, das ist unglaublich angewiesen auf die Zeilenumbrüche in genau der richtige Ort. Ich habe versucht, jede

beautifulsoup python text

Anfänger: importieren müssen Schöne Suppe 4 in Python

2 Antworten

Lernte ich Python von codecademy und jetzt versuche ich zu lernen, es zu benutzen, um mir Daten von einer website. Ich habe nicht meine eigene Python-system einrichten (nur einmal benutzt die Codecademy) und so brauche ich Rat,

beautifulsoup import python

Schöne Suppe und Tabelle Schaben - lxml vs html-parser

1 Antworten

Ich versuche zu extrahieren den HTML-code eine Tabelle aus einer Webseite mit BeautifulSoup. <table class="facts_label" id="facts_table">...</table> Ich würde gerne wissen, warum der code Balg arbeitet mit der "html.parser" und prints zurück none wenn ich "html.parser" für "lxml".

beautifulsoup html-parsing lxml python web-scraping

Extrahieren von Inhalt des div mit BeautifulSoup

1 Antworten

Zuerst möchte ich sagen, dass ich auch schon gefunden die gleiche Frage mit Antworten, aber ich konnte nicht, wie Sie arbeiten. Ich versuche, zu extrahieren die Daten aus den Bewertungen, für jetzt die Beurteilung der Inhalte und

beautifulsoup python

python-BeautifulSoup finde alle Eingaben für bestimmte form

1 Antworten

Ich versuche zu verwenden BeautifulSoup zu extrahieren input-Felder für eine bestimmte form. Extrahieren Sie das Formular mit den folgenden: soup.find('form') Nun will ich extrahieren Sie alle Eingabefelder, die ein Kind, um das Formular nur. Wie kann ich

beautifulsoup forms html html-parsing python

So finden Sie alle divs, die die Klasse beginnt mit einer Zeichenkette, die in BeautifulSoup?

2 Antworten

In BeautifulSoup, wenn ich finden wollen alle div-s, wo dessen Klasse span3, würde ich nur tun: result = soup.findAll("div",{"class":"span3"}) Jedoch, in meinem Fall, ich finden wollen alle div-s, deren Kurs beginnt mit span3, daher BeautifulSoup finden sollte:

beautifulsoup python

Das laden von großen XML-Dateien und den Umgang mit MemoryError

1 Antworten

Ich habe eine sehr große XML-Datei (20 GB um genau zu sein, und ja, ich brauche alle es). Wenn ich versuche, um die Datei zu laden, erhalte ich diese Fehlermeldung: Python(23358) malloc: *** mmap(size=140736680968192) failed (error code=12)

beautifulsoup mediawiki python xml

Mit beautifulsoup, um mehrere tags und Attribute Daten

2 Antworten

Will ich mit beautifulsoup, um mehrere tags und Attribute von HTML - 1)div id= home_1039509 2)div id="guest_1039509 3)id="odds_3_1039509 4)id="gs_1039509 5)id="hs_1039509 6)id="time_1039509 HTML: <tr align="center" height="15" id="tr_1039509" bgcolor="#F7F3F7" index="0"> <td width="10"> <img src="images/lclose.gif" onclick="hidematch(0)" style="cursor:pointer;"> </td> <td width="63"

beautifulsoup html parsing python

Was ist die nächste Entsprechung der Schönen Suppe für Ruby?

4 Antworten

Ich Liebe die Schöne Suppe Schaben Bibliothek in Python. Es funktioniert einfach. Gibt es eine enge Entsprechung in Ruby? InformationsquelleAutor | 2009-03-12

beautifulsoup python ruby

Python und BeautifulSoup Öffnen von Seiten

1 Antworten

Frage ich mich, wie würde ich öffnen eine weitere Seite in meine Liste mit BeautifulSoup? Ich habe dieses tutorial, aber es sagt uns nicht, wie Sie zu öffnen eine weitere Seite, auf der Liste. Auch, wie würde

beautifulsoup python web-scraping

Wie gehen Sie zur nächsten Seite mit schönen Suppe?

2 Antworten

Ich haben, um Informationen zu extrahieren aus 5 Seiten einer website. Am Ende jeder Seite gibt es "NÄCHSTE SEITE" - Taste. dies ist der html-code der Schaltfläche weiter - <li class="pagination__next" data-reactid=".0.3.0.0.1.1.1.3.2"> <span class="icon-arrowright-thin--pagination" data-reactid=".0.3.0.0.1.1.1.3.2.0"> ::before </span>

beautifulsoup mechanize python

Holen Sie sich Attribut href, Link td-tag BeautifulSoup Python

1 Antworten

Ich bin neu in Python und jemand schlug vor, mich mit Schönen Suppe für die Verschrottung und ich bin überrascht, in einem problem zu Holen, das href-Attribut aus einem td-tag Spalte 2 auf der Grundlage des Jahres,

beautifulsoup python

Entfernen Sie alle Stil, Skripts und html-tags aus einer html-Seite

5 Antworten

Hier ist was ich habe, so weit: from bs4 import BeautifulSoup def cleanme(html): soup = BeautifulSoup(html) # create a new bs4 object from the html data loaded for script in soup(["script"]): script.extract() text = soup.get_text() return text

beautifulsoup html lxml python