Tag: beautifulsoup

Beautiful Soup ist ein Python-package zum Parsen von HTML/XML. Die neueste version dieses Pakets ist die version 4, importiert bs4.

Python-BeautifulSoup zu kratzen Tabellen aus einer Webseite

Anzahl der Antworten 1 Antworten
Ich versuche zum sammeln von Informationen von einer website, die eine Datenbank für die Schiffe. Ich habe versucht, die Informationen mit BeautifulSoup. Aber im moment scheint es nicht zu funktionieren. Ich habe versucht, die Suche im web

Konvertieren Ergebnismenge string und Platz in der Liste

Anzahl der Antworten 1 Antworten
Ich versuche zu konvertieren die Werte in meiner Liste zu normalen strings wie listy = [['value1','value2','value3'],['value1','value2','value3'],[ Ich initialisiert eine leere Liste listy = alle die <a> mit find_all('a') und produziert diese als Ausgang listy = [[...

web-scraping (football Quote)

Anzahl der Antworten 1 Antworten
Ich bin neu in web-scraping und Recht jetzt ich versuche, es zu verstehen, um die Automatisierung, der ein Wetten-Wettbewerb mit Freunden über die Deutsche bundesliga. (Die Plattform, die wir verwenden, ist kicktipp.de). Ich habe es schon geschafft,

Verwenden BeautifulSoup um text zu extrahieren, bevor das erste Kind-tag

Anzahl der Antworten 1 Antworten
Aus dieser html-Quelltext: <div class="category_link"> Category: <a href="/category/personal">Personal</a> </div> Möchte ich extrahieren Sie den text Category: Hier sind meine versuche mit Python/BeautifulSoup (mit Ausgabe als Kommentar - nach dem #) parsed = BeautifulSoup(sample_html) parsed_div = parsed.findAll('div')[0] parsed_div.firstText()

BeautifulSoup - lxml und html5lib Parser Schaben Unterschiede

Anzahl der Antworten 2 Antworten
Ich bin mit BeautifulSoup 4 mit Python 2.7. Ich möchte zum extrahieren bestimmter Elemente aus einer website (Mengen, siehe das Beispiel unten). Für einige Grund, die lxml parser erlaubt mir nicht, zu extrahieren alle gewünschten Elemente von

BeautifulSoup Ausgang zu .txt-Datei

Anzahl der Antworten 2 Antworten
Ich versuche meine Daten exportieren, als .txt-Datei from bs4 import BeautifulSoup import requests import os import os os.getcwd() '/home/folder' os.mkdir("Probeersel6") os.chdir("Probeersel6") os.getcwd() '/home/Desktop/folder' os.mkdir("img") #now `folder` url = "http://nos.nl/artikel/2093082-steeds-meer-nekklachten-bij-kinderen-door-gebruik-tablets.html" r = requests.get(url) soup = BeautifulSoup(r.content) data =

Python-Schöne Suppe .content-Eigenschaft

Anzahl der Antworten 1 Antworten
Was bedeutet BeautifulSoup ist .Inhalt tun? Ich arbeite durch crummy.com's tutorial und ich weiß nicht wirklich verstehen, was .Inhalt tut. Ich habe mir die Foren und ich habe nicht gesehen, alle Antworten. Betrachten Sie den code unten....

Parsen von html mit BeautifulSoup Python

Anzahl der Antworten 1 Antworten
Ich schrieb einige code zu Parsen von html, aber das Ergebnis war nicht das, was ich wollte: import urllib2 html = urllib2.urlopen('http://dummy').read() from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) for definition in soup.findAll('span', {"class":'d'}): definition = definition.renderContents()

Wie eine Schleife durch eine html-Tabelle-Datensatz in Python

Anzahl der Antworten 2 Antworten
Ich bin erste mal poster hier versuchen, abholen einige Python-Fähigkeiten; seien Sie bitte nett zu mir 🙂 Während ich bin nicht einer völlig fremden zu Programmierkonzepte (ich ve wurde Herumspielen mit PHP vor), den übergang zu Python

web-kratzen ein .txt-Datei mit python

Anzahl der Antworten 2 Antworten
Geschlossen. Diese Frage muss sich mehr. Es ist derzeit nicht akzeptieren Antworten. mehr. verbessern Wollen dieser Frage? Update die Frage, also es konzentriert sich auf ein problem, das nur durch Bearbeiten diesem post. Geschlossen 3 Jahren. Ich

Wie legen Sie Wert in der mit Schönen Suppe, in der einige HTML-element, wenn ich weiß id, die element oder Klasse?

Anzahl der Antworten 1 Antworten
Wie Wert mit Schönen Suppe, die in einigen element, wenn ich weiß, die id des HTML-Elements oder Klasse ? Ich habe zum Beispiel <td id="test"></td> und ich möchte, um text WIEDERHERSTELLEN... wie <td id="test">RESTORE...</td>. InformationsquelleAutor Damir |

Entfernen von span-tags von der Suppe BeautifulSoup/Python

Anzahl der Antworten 2 Antworten
Ich habe eine Suppe in Python so: <p> <span style="text-decoration: underline; color: #3366ff;"> Title: </span> Info </p> <p> <span style="color: #3366ff;"> <span style="text-decoration: underline;"> Title2: </span> </span> Info2 </p> Ich mag würde, um es wie folgt Aussehen:

HTTP-Fehler 400: Bad Request (das urllib)

Anzahl der Antworten 1 Antworten
Ich Schreibe ein Skript, um Informationen über Gebäude in NYC. Ich weiß, dass mein code funktioniert und gibt was ich möchte, es zu. Ich war vorher dabei die manuelle Eingabe und es hat funktioniert. Jetzt versuche ich

Wie man span-Wert unter Verwendung von python und BeautifulSoup

Anzahl der Antworten 1 Antworten
Ich bin mit BeautifulSoup zum ersten mal und versuchen zu sammeln, mehrere Daten wie E-Mail,Telefon-Nummer und Email-Adresse aus einer Suppe Objekt. Mithilfe von regulären Ausdrücken, ich kann erkennen, die E-Mail-Adresse. Mein code zu finden, der E-Mail ist:

Python-Aufteilung auf die neue-Zeile-Zeichen

Anzahl der Antworten 3 Antworten
Ich habe eine html-Datei, die ich abrufen nur der text ich würde gerne drucken einer einzelnen Zeile jetzt bin ich print for line in newName.body(text=True): print line dieser gibt mir alles, was in den Körper was ich

Python, wie Streifen weiß-Leerzeichen aus dem xml-text Knoten

Anzahl der Antworten 5 Antworten
Ich habe eine xml-Datei wie folgt <Person> <name> My Name </name> <Address>My Address</Address> </Person> Den tag hat extra neue Leitungen, gibt es einen schnellen Pythonic Weg, um trim und generieren Sie eine neue xml. Fand ich dies,

Wie kann ich deinstallieren beautifulsoup von der Quelle?

Anzahl der Antworten 2 Antworten
Ich installiert extrahieren BeautifulSoup-3.2.0.tar.gz python setup.py install Was ist der Befehl zum deinstallieren von ihm? Ich bemerkte, dass es ein linux-distro-spezifischen Paket namens python-beautifulsoup. Ich möchte das system installieren, spezifische beautifulsoup. Was ich versucht habe: python setup.py

Kratzen eine dynamische website

Anzahl der Antworten 9 Antworten
Was ist die beste Methode, um kratzen eine dynamische website, wo die meisten Inhalte werden durch das, was erscheint, um ajax-requests? Ich habe Vorherige Erfahrung mit einem Mechanisieren, BeautifulSoup, und python-combo, aber ich bin für etwas neues.

InvalidSchema Keine Anschluss-Adapter wurden nicht gefunden , Fehler in django

Anzahl der Antworten 2 Antworten
Ich experimentiere mit http://robobrowser.readthedocs.org/en/latest/readme.html, eine neue python-Bibliothek, basierend auf der schönen Suppe und Anfragen ibraries. Ich bin derzeit mit es zu öffnen, eine Reihe von Seiten und speichern der Antwort in einer Liste für eine spätere Analyse.

Web Scraping Rap-lyrics auf Rap Genius w/ Python

Anzahl der Antworten 5 Antworten
Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein

python - PipeMapRed.waitOutputThreads(): subprocess failed with code 1

Anzahl der Antworten 1 Antworten
Kürzlich, möchte ich analysieren, websites, und verwenden Sie dann BeautifulSoup zu filtern, was ich will und schreiben in der csv-Datei in hdfs. Nun bin ich auf die Filterung von website-code mit BeautifulSoup. Will ich mit mapreduce-Methode ausführen:

schreiben von xml mit schönen Suppe

Anzahl der Antworten 2 Antworten
dies ist möglicherweise eine wirklich dumme Frage, aber ich habe nicht wirklich die Antwort gefunden. sobald ich änderungen an der xml-Struktur als notwendig, wie Schreibe ich es wieder aus der Datei? code: workbook = open("C:\\Users\\rabdel.WINCMPT\\Documents\\Retail Footwear.twb") soup

urlopen, BeautifulSoup und UTF-8-Problem

Anzahl der Antworten 2 Antworten
Ich versuche nur, das abrufen einer web-Seite, aber irgendwie eine fremde Figur ist eingebettet in die HTML-Datei. Dieses Zeichen ist nicht sichtbar, wenn ich "View Source". isbn = 9780141187983 url = "http://search.barnesandnoble.com/booksearch/isbninquiry.asp?ean=%s" % isbn opener = urllib2.build_opener()

BeautifulSoup' hat kein Attribut 'HTML_ENTITIES

Anzahl der Antworten 3 Antworten
Ich habe vor kurzem ein upgrade BeautifulSoup von version 3.0 auf version 4.1 auf einem Windows-Rechner. Ich bin jetzt immer eine seltsame Fehlermeldung: File "C:\path\to\myscript.py", line 23 0, in soupify return BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES) AttributeError: type object 'BeautifulSoup'

beautifulsoup finden, text mit und ohne regex

Anzahl der Antworten 1 Antworten
Html: <td>some key </td> finden ohne regex: soup.find(text='some key') zurückgegeben Keiner finden mit regex soup.find(text=re.compile('some key')) zurückgegeben, die den td-Knoten. Würde jemand auf den Unterschied zwischen den beiden Ansätzen? "einige wichtige" ist eine wörtliche Zeichenfolge ohne Sonderzeichen.

Display-text aus der img-alt-tag mit beautifulsoup

Anzahl der Antworten 2 Antworten
Bisher mein code ist: year = range(1958,2013) randomYear = random.choice(year) randomYear = str(randomYear) page = range(1,5) randomPage = random.choice(page) randomPage = str(randomPage) print(randomPage, randomYear) url = 'http://www.billboard.com/artists/top-100/'+randomYear+'?page='+randomPage url1 = urlopen(url) htmlSource = url1.read() url1.close() soup = BeautifulSoup(htmlSource)

Batch-Download text und Bilder aus einer URL mit Python / das urllib / beautifulsoup?

Anzahl der Antworten 1 Antworten
Ich habe beim durchstöbern einige Beiträge hier, aber ich habe gerade nicht bekommen kann meinen Kopf herum batch-herunterladen von Bildern und text aus einer bestimmten URL mit Python. import urllib,urllib2 import urlparse from BeautifulSoup import BeautifulSoup import

Mit BeautifulSoup zu finden, die bestimmten text auf einer Webseite

Anzahl der Antworten 1 Antworten
Ich versuche zu speichern eine Liste der Filme von einer website mit Python 3 und die Schöne Suppe 4. Das problem ist, ich bin Recht neu in Python und BS und ich weiß wirklich nicht, wo man

Ausschließen unerwünschter tag auf Beautifulsoup Python

Anzahl der Antworten 2 Antworten
<span> I Like <span class='unwanted'> to punch </span> your face </span> How to print "ich Mag dein Gesicht" statt "ich Mag punch your face" Habe ich versucht, dieses lala = soup.find_all('span') for p in lala: if not

Python-schöne Suppe wählen Sie text

Anzahl der Antworten 2 Antworten
Der folgenden ist ein Beispiel für den HTML code, den ich will, zu analysieren: <html> <body> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> Example BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8"> BLAB BLAB BLAB </td> <td style="PADDING-LEFT: 5px"bgcolor="ffffff" class="style8">

Schaben eine Antwort von der ausgewählten option in der dropdown-Liste

Anzahl der Antworten 2 Antworten
Dies ist ein Beispiel einer Seite, die Listen baseball-Statistiken für den ausgewählten Spieler, den säumigen zu dem letzten Jahr (2014, bald 2015) http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 Dem drop-down-Liste erlaubt dem Benutzer ausgewählte Jahre Jahr 2010, aber nicht ändern der angezeigten

BeautifulSoup gibt mir unicode+html-Symbole, anstatt gerade nach oben unicode. Ist das ein Fehler oder Missverständnis?

Anzahl der Antworten 2 Antworten
Ich bin mit BeautifulSoup zu kratzen einer website. Die Seite macht Ordnung in meinem browser: Oxfam International ' s Bericht mit dem Titel “Abseits! http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271 Insbesondere die single-und double-quotes gut Aussehen. Sie sehen die html-Symbole anstatt ascii,

Was bedeutet diese Fehlermeldung in der schönen Suppe bedeutet?

Anzahl der Antworten 2 Antworten
Mache ich kleines Skript mit PyQt4 und BeautifulSoup. Im Grunde geben Sie url und als Skript soll download alle pic ' s von der web-Seite. In der Ausgabe, wenn ich http://yahoo.com lädt es alle Bilder außer eins:

Wie eine Schleife durch das Schöne Suppe Elemente, um Attribut-Werte

Anzahl der Antworten 1 Antworten
Muss ich Durchlaufen Schöne Suppe, die Elemente und Holen Sie sich die Attribut-Werte: Für ein XML-doc: <?xml version="1.0" encoding="UTF-8"?> <Document> <Page x1="71" y1="120" x2="527" y2="765" type="page" chunkCount="25" pageNumber="1" wordCount="172"> <Chunk x1="206" y1="120" x2="388" y2="144" type="unclassified"> <Word x1="206"

Web-Crawler in Python für Yelp

Anzahl der Antworten 2 Antworten
Ich habe versucht zu schreiben, ein crawler ist zum jaulen. Ich möchte die links der Anbieter auf dieser Seite zur Verfügung, ich weiß, es ist gegeben a href=" aber das array zurückgeben ist immer leer Bitte um

post zur Seite, um eine Anmeldung mit schönen Suppe

Anzahl der Antworten 2 Antworten
Bin ich mit python und beautifulsoup (neu für beide!), und ich möchte Zugriff auf die Lieferanten-website. So Ihre form so aussieht (vereinfacht): <form name=loginform action=/index.html method="post"> <input name=user> <input name=pass"> </form> Gibt es eine Möglichkeit zu verfolgen,

BeautifulSoup: Wie man verschachtelte divs

Anzahl der Antworten 1 Antworten
Folgenden code: <html> <body> <div class="category1" id="foo"> <div class="category2" id="bar"> <div class="category3"> </div> <div class="category4"> <div class="category5"> test </div> </div> </div> </div> </body> </html> Gewusst wie: extrahieren Sie das Wort test aus <div class="category5"> test mit BeautifulSoup

Kann nicht entfernen Zeilenumbrüche von BeautifulSoup text-Ausgabe (Python 2.7.5)

Anzahl der Antworten 3 Antworten
Ich versuche ein Programm zu schreiben, zu analysieren, eine Reihe von HTML-Dateien und speichern Sie die resultierenden Daten in eine .csv-spreadsheet, das ist unglaublich angewiesen auf die Zeilenumbrüche in genau der richtige Ort. Ich habe versucht, jede

Anfänger: importieren müssen Schöne Suppe 4 in Python

Anzahl der Antworten 2 Antworten
Lernte ich Python von codecademy und jetzt versuche ich zu lernen, es zu benutzen, um mir Daten von einer website. Ich habe nicht meine eigene Python-system einrichten (nur einmal benutzt die Codecademy) und so brauche ich Rat,

Schöne Suppe und Tabelle Schaben - lxml vs html-parser

Anzahl der Antworten 1 Antworten
Ich versuche zu extrahieren den HTML-code eine Tabelle aus einer Webseite mit BeautifulSoup. <table class="facts_label" id="facts_table">...</table> Ich würde gerne wissen, warum der code Balg arbeitet mit der "html.parser" und prints zurück none wenn ich "html.parser" für "lxml".

Extrahieren von Inhalt des div mit BeautifulSoup

Anzahl der Antworten 1 Antworten
Zuerst möchte ich sagen, dass ich auch schon gefunden die gleiche Frage mit Antworten, aber ich konnte nicht, wie Sie arbeiten. Ich versuche, zu extrahieren die Daten aus den Bewertungen, für jetzt die Beurteilung der Inhalte und

python-BeautifulSoup finde alle Eingaben für bestimmte form

Anzahl der Antworten 1 Antworten
Ich versuche zu verwenden BeautifulSoup zu extrahieren input-Felder für eine bestimmte form. Extrahieren Sie das Formular mit den folgenden: soup.find('form') Nun will ich extrahieren Sie alle Eingabefelder, die ein Kind, um das Formular nur. Wie kann ich

So finden Sie alle divs, die die Klasse beginnt mit einer Zeichenkette, die in BeautifulSoup?

Anzahl der Antworten 2 Antworten
In BeautifulSoup, wenn ich finden wollen alle div-s, wo dessen Klasse span3, würde ich nur tun: result = soup.findAll("div",{"class":"span3"}) Jedoch, in meinem Fall, ich finden wollen alle div-s, deren Kurs beginnt mit span3, daher BeautifulSoup finden sollte:

Das laden von großen XML-Dateien und den Umgang mit MemoryError

Anzahl der Antworten 1 Antworten
Ich habe eine sehr große XML-Datei (20 GB um genau zu sein, und ja, ich brauche alle es). Wenn ich versuche, um die Datei zu laden, erhalte ich diese Fehlermeldung: Python(23358) malloc: *** mmap(size=140736680968192) failed (error code=12)

Mit beautifulsoup, um mehrere tags und Attribute Daten

Anzahl der Antworten 2 Antworten
Will ich mit beautifulsoup, um mehrere tags und Attribute von HTML - 1)div id= home_1039509 2)div id="guest_1039509 3)id="odds_3_1039509 4)id="gs_1039509 5)id="hs_1039509 6)id="time_1039509 HTML: <tr align="center" height="15" id="tr_1039509" bgcolor="#F7F3F7" index="0"> <td width="10"> <img src="images/lclose.gif" onclick="hidematch(0)" style="cursor:pointer;"> </td> <td width="63"

Was ist die nächste Entsprechung der Schönen Suppe für Ruby?

Anzahl der Antworten 4 Antworten
Ich Liebe die Schöne Suppe Schaben Bibliothek in Python. Es funktioniert einfach. Gibt es eine enge Entsprechung in Ruby? InformationsquelleAutor | 2009-03-12

Python und BeautifulSoup Öffnen von Seiten

Anzahl der Antworten 1 Antworten
Frage ich mich, wie würde ich öffnen eine weitere Seite in meine Liste mit BeautifulSoup? Ich habe dieses tutorial, aber es sagt uns nicht, wie Sie zu öffnen eine weitere Seite, auf der Liste. Auch, wie würde

Wie gehen Sie zur nächsten Seite mit schönen Suppe?

Anzahl der Antworten 2 Antworten
Ich haben, um Informationen zu extrahieren aus 5 Seiten einer website. Am Ende jeder Seite gibt es "NÄCHSTE SEITE" - Taste. dies ist der html-code der Schaltfläche weiter - <li class="pagination__next" data-reactid=".0.3.0.0.1.1.1.3.2"> <span class="icon-arrowright-thin--pagination" data-reactid=".0.3.0.0.1.1.1.3.2.0"> ::before </span>

Holen Sie sich Attribut href, Link td-tag BeautifulSoup Python

Anzahl der Antworten 1 Antworten
Ich bin neu in Python und jemand schlug vor, mich mit Schönen Suppe für die Verschrottung und ich bin überrascht, in einem problem zu Holen, das href-Attribut aus einem td-tag Spalte 2 auf der Grundlage des Jahres,

Entfernen Sie alle Stil, Skripts und html-tags aus einer html-Seite

Anzahl der Antworten 5 Antworten
Hier ist was ich habe, so weit: from bs4 import BeautifulSoup def cleanme(html): soup = BeautifulSoup(html) # create a new bs4 object from the html data loaded for script in soup(["script"]): script.extract() text = soup.get_text() return text