Tag: web-scraping

Web scraping ist das Verfahren der Extraktion von spezifischen Informationen aus websites, die nicht ohne weiteres eine API bereitstellen, oder andere Methoden der automatisierten Datenabruf. Fragen über „Wie man Mit Schaben“ (z.B. mit Excel, VBA) sollte *gründlich recherchiert,* wie viele funktionale code-Beispiele sind verfügbar. Web-scraping-Methoden gehören 3rd-party-Anwendungen, Entwicklung von Individualsoftware, oder sogar die manuelle Datensammlung in einer standardisierten Art und Weise.

Python-Schöne Suppe, wie JSON Dekodieren, `dict`?

2 Antworten

Ich bin neu in Python und BeautifulSoup ich bin versucht zu extrahieren dict von BeautifulSoup. Ich verwendet habe, BeautifulSoup zum extrahieren von JSON und bekam beautifulsoup.beautifulsoup variable soup. Ich versuche Werte aus soup, aber wenn ich das

Multithreading in Python/BeautifulSoup Schaben nicht beschleunigen an alle

1 Antworten

Ich habe eine csv-Datei ("SomeSiteValidURLs.csv"), die aufgeführt sind alle links, die ich brauche zu kratzen. Der code funktioniert und gehen durch die urls in der csv, kratzen die Informationen und aufnehmen/speichern in eine andere csv-Datei ("Ausgabe.csv"). Aber

beautifulsoup multithreading parallel-processing python-2.7 web-scraping

Entfernen Sie alle Schrägstriche in Javascript

4 Antworten

Entfernen Sie alle backslash in einem JavaScript-string ? var str = "one thing\\\'s for certain: power blackouts and surges can damage your equipment."; Möchte ich eine Ausgabe wie one thing's for certain: power blackouts and surges can

javascript slash web-scraping

PHP: strip_tags - entfernt nur bestimmte tags (und deren Inhalt)?

2 Antworten

Ich die strip_tags() Funktion, aber ich brauche entfernen einige tags (und alle Ihre Inhalte). Beispiel : <div> <p class="test"> Test A </p> <span> Test B </span> <div> Test C </div> </div> Lassen Sie uns sagen, ich brauche,

php strip-tags web-scraping

selenium webdriver zu finden, die Anker-tag ein, und klicken Sie auf das

2 Antworten

<div id="ContentPrimary"> <ul class="selectors modeSelectors"> <li><a href="/content/l411846326l1213g/references/" title=""> <span class="selector">References (27)</span></a></li> <li><a href="/content/l411846326l1213g/referrers/" title=""> <span class="selector">Cited By (2)</span></a></li> <li><a href="/content/l411846326l1213g/export-citation/" title=""> <span class="selector">Export Citation</span></a></li> <li><a href="/content/l411846326l1213g/about/" title=""> <span class="selector">About</span></a></li> </ul> In diesem ich brauche zu finden, und

java selenium web-scraping web-scripting

Wie kann ich mich auf den plain-text aus einer Webseite mit Scrapy?

3 Antworten

Ich würde gerne alle den text sichtbar von einer website, nachdem das HTML gerendert wird. Ich arbeite in Python mit Scrapy framework. Mit xpath('//body//text()') ich bin in der Lage, es zu bekommen, aber mit den HTML-tags, und

html python scrapy web-scraping xpath

Wie automatisieren, um mehrere Anforderungen auf einem web-search-Formular mit R

4 Antworten

Ich versuche zu lernen, wie RCurl (oder andere geeignete R-Paket, wenn ich falsch bin, über RCurl richtigen Werkzeug) zu automatisieren den Prozess der übermittlung Suchbegriffe ein web-Formular und platzieren Sie die Ergebnisse der Suche in einer Datenbank-Datei.

r web-scraping

Ist das web scraping erlaubt?

2 Antworten

Arbeite ich an einem Projekt, das erfordert, dass bestimmte Statistiken auf einer anderen website, und ich ' ve erstellt eine HTML-scraper, die Daten erhält alle 15 Minuten automatisch. Allerdings habe ich aufgehört den bot jetzt, als in

web-scraping

Wie kann ich fangen und verarbeiten die Daten aus dem XHR-Antworten mit casperjs?

2 Antworten

Die Daten auf der Webseite angezeigt wird dynamisch und es scheint, dass die überprüfung für jede änderung in der html und das extrahieren der Daten ist eine sehr schwierige Aufgabe und braucht auch mich sehr unzuverlässig XPath-Ausdrücken.

ajax casperjs google-chrome phantomjs web-scraping

Senden von Daten per web-Formular und extrahieren Sie die Ergebnisse

3 Antworten

Meine python-Niveau ist Anfänger. Ich habe nie geschrieben, ein web-scraper oder crawler. Ich habe geschrieben, ein python code um die Verbindung zu einer api, und extrahieren Sie die Daten, die ich will. Aber für einige der extrahierten

python web-crawler web-scraping

Läuft Selen hinter einem proxy-server

4 Antworten

Ich habe mit Selen für die automatische browser-Simulationen und web-scraping in python und es hat gut für mich gearbeitet. Aber jetzt habe ich es zum laufen hinter einem proxy-server. So, jetzt Selen öffnen Sie die Fenster, aber

proxy python selenium selenium-webdriver web-scraping

Holen Sie sich meta-tag content-Eigenschaft mit Python und BeautifulSoup

2 Antworten

Ich versuche die Verwendung von python und schöne Suppe, den Inhalt zu extrahieren-Teil des tags unten: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" /> Ich bin immer BeautifulSoup zu laden Sie die Seite einfach

beautifulsoup html python web-scraping

BeautifulSoup webscraping find_all( ): Suche nach exakter übereinstimmung

2 Antworten

Bin ich mit Python und BeautifulSoup für web-scraping. Können sagen, ich habe den folgenden html-code zu kratzen: <body> <div class="product">Product 1</div> <div class="product">Product 2</div> <div class="product special">Product 3</div> <div class="product special">Product 4</div> </body> Mit BeautifulSoup, ich will

beautifulsoup html python regex web-scraping

Kratzen Sie mehrere Seiten mit Python und BeautifulSoup

1 Antworten

Meinen code erfolgreich Schrammen die tr align=center-tags aus [ http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY ] und schreibt die td-Elemente in eine text-Datei. Allerdings gibt es mehrere Seiten auf der Website oben in die ich möchte in der Lage sein zu kratzen.

html page-numbering python web-scraping

Holen Sie alle href-link mit Selen in python

3 Antworten

Ich bin Praktizierender Selen in python und ich wollte Sie Holen, alle links auf einer web-Seite mit Selen. Zum Beispiel, ich möchte alle links in "a href" - tag von diese website : http://psychoticelites.com/ Habe ich ein

python python-2.7 selenium selenium-webdriver web-scraping

Kratzen Passwort-geschützten website in R

2 Antworten

Ich versuche, mich zu kratzen, Daten von einem Passwort-geschützten website in R. zu Lesen, es scheint, dass die httr und RCurl Pakete sind die besten Optionen für die Verschrottung mit Passwort-Authentifizierung (hab ich auch sah in das

httr r rcurl web-scraping xml

Selen-Debugging: Element ist nicht anklickbar am Punkt (X,Y)

3 Antworten

Ich versuche zu kratzen, diese Website durch Selen. Ich möchten, klicken Sie auf "Nächste Seite" - Button, für das ich: driver.find_element_by_class_name('pagination-r').click() es funktioniert bei vielen Seiten, aber nicht für alle, ich habe diesen Fehler WebDriverException: Message: Element

python selenium selenium-firefoxdriver selenium-webdriver web-scraping

Schöne Suppe Mit Regex zu Finden-Tags?

3 Antworten

Ich würde wirklich gerne in der Lage sein zu ermöglichen Schöne Suppe für eine beliebige Liste von tags, wie so. Ich weiß, attr akzeptiert regex, aber es ist alles in schönen Suppe, die es Ihnen erlaubt, dies

python regex web-scraping

Schaben Webseite generiert, die per javascript mit C#

3 Antworten

Ich habe einen webBrowser und einem label in Visual Studio, und im Grunde, was ich versuche zu tun ist, schnappen Sie sich einen Abschnitt von einer anderen Webseite. Versuchte ich mit WebClient.DownloadString und WebClient.DownloadFile, und beide geben

c#html javascript visual-studio web-scraping

Kratzen web-Seite Inhalte

4 Antworten

Ich entwickle ein Projekt, für das ich möchte kratzen, die Inhalte einer Webseite in den hintergrund und Holen Sie sich einige begrenzte Inhalte aus, kratzte website. Zum Beispiel in meine Seite habe ich "userid" und "password" -

curl httprequest php screen-scraping web-scraping

Alle Java-äquivalent zu PhantomJS?

3 Antworten

Ich würde gerne wissen, ob es eine Java-Bibliothek entspricht PhantomJS. Was ich erreichen möchte ist, simulieren zu können, Anmeldeformular und senden Aktionen von einem web-Seite und auch die Seite " Schaben gut. Ich weiß jsoup funktioniert Seite

java javascript web-scraping

Wie kann ich Schaben Websites, die eine Authentifizierung erfordern mit node.js?

2 Antworten

Habe ich über viele tutorials, die erklären wie man kratzen öffentlichen websites, die nicht erfordern eine Authentifizierung/login, mit node.js. Kann jemand erklären, wie kratzen Sie die Seiten, die eine Anmeldung erforderlich ist mit node.js? hast du diese

authentication javascript node.js web-scraping

College/University-Daten-API

2 Antworten

Ich versuche, eine Anwendung zu erstellen, die es Benutzern ermöglicht, um eine bestimmte Universität und Daten über Sie (Eintrittspreis, SAT Partituren, Größe, etc.). Aber ich kann nicht finden, eine API/Datenbank, die ich verwenden kann. Ich weiß, die

api json web-scraping

CasperJS die Weitergabe der Daten wieder zu PHP

2 Antworten

CasperJS aufgerufen wird von PHP mit einem exec() Befehl. Nach CasperJS tut seine Arbeit, wie beispielsweise das abrufen von teilen einer Webseite, wie können die abgerufenen Daten zurück zu PHP? InformationsquelleAutor Nyxynyx | 2013-04-06

casperjs phantomjs php screen-scraping web-scraping

Wie machen Scrapy show user agent pro download-Anfrage im log?

4 Antworten

Lerne ich Scrapy, ein web-crawling-framework. Ich weiß, ich kann USER_AGENT im settings.py - Datei des Scrapy Projekt. Wenn ich das Scrapy, ich kann sehen, dass die USER_AGENT's Wert in INFO protokolliert. Diese USER_AGENT festgelegt wird, in jede

python scrapy user-agent web-crawler web-scraping

Wie Schütze ich meine Website von HTTrack oder anderen software rippen?

4 Antworten

Vor kurzem habe ich eine Website-Vorlage genehmigt am Themeforest. Ich bin immer einfach zu viel traffic auf meiner Website und bemerkte, dass meine demo auf Themeforest immer verarscht von einigen Programmen wie HTTrack. Wenn das so weiter

ripping web web-scraping

Schaben Daten von der website, die mithilfe von vba

5 Antworten

Ich versuche, kratzen Sie die Daten von der website: http://uk.investing.com/rates-bonds/financial-futures über vba, wie zum Beispiel Echtzeit-Preise, d.h. Deutsch 5 YR-Bobl, US 30Y T-Bond, ich habe versucht, excel web-Abfrage, sondern es nur Schrammen die ganze website, aber ich

excel excel-vba vba web-scraping

BeautifulSoup: Hole den Inhalt einer bestimmten Tabelle

3 Antworten

Meine lokalen Flughafen disgracefully blockiert Benutzer ohne IE, und sieht schrecklich. Ich möchte schreiben Sie ein Python-Skripte, die die Inhalte der an-und Abreise die Seiten alle paar Minuten, und zeigen Sie Sie in einem besser lesbaren Weise.

beautifulsoup python tabular web-scraping

Scrapy CrawlSpider für AJAX-content

1 Antworten

Ich bin versucht zu Crawlen einer Website für news-Artikel. Meine start_url enthält: (1) links zu jedem Artikel: http://example.com/symbol/TSLA und (2) ein "Mehr" - button, der macht einen AJAX-call, die dynamisch weitere Artikel innerhalb derselben start_url: http://example.com/account/ajax_headlines_content?type=in_focus_articles&page=0&slugs=tsla&is_symbol_page=true Parameter

python scrapy web-scraping

Scrapy: Extrahieren Sie links und text

2 Antworten

Ich bin neu scrapy und ich bin versucht zu kratzen, die Ikea website Webseite. Der basic-Seite mit der Liste der Standorte als gegeben hier. Meine items.py Datei wird unten gegeben: import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field()

python scrapy scrapy-spider web-scraping

Verwenden getElementById auf HTMLElement statt HTMLDocument

4 Antworten

Ich habe das Spiel mit dem abkratzen von Daten aus web-Seiten mit VBS/VBA. Wenn es Javascript würde ich Weg sein, da seine einfache, aber es scheint nicht ganz so geradlinig in VBS/VBA. Dies ist ein Beispiel, die

vba web-scraping

Mit HTMLParser in Python 3.2

1 Antworten

Ich habe mit HTML-Parser Verschrottung von Daten aus Webseiten und stripping html-Codierung dabei. Ich bin mir bewusst, dass verschiedene Module wie Schöne Suppe, aber beschlossen zu gehen auf dem Weg der nicht in Abhängigkeit von "außen" -

arguments html-parsing python-3.x stripping web-scraping

R: Mit rvest-Paket-anstelle des XML-Pakets, um links von der URL

4 Antworten

Verwende ich XML-Paket zu bekommen, die links von diese url. # Parse HTML URL v1WebParse <- htmlParse(v1URL) # Read links and and get the quotes of the companies from the href t1Links <- data.frame(xpathSApply(v1WebParse, '//a', xmlGetAttr, 'href'))

r rvest web-scraping xml

Kann ein Telegramm, bot das Lesen von Nachrichten aus Kanal

1 Antworten

Kann ein Telegramm, bot Lesen/Zugriff auf ein Telegramm-Kanal, dass weder ich oder der bot ist administrator? Ich weiß, dass bis zum letzten November, es war nicht möglich, aber ich habe gehört, einige Leute haben das getan, aber

python telegram telegram-bot web-scraping

Python-BeautifulSoup findAll von "class" - Attribut

2 Antworten

Möchte ich die folgenden code, das ist, was BS Dokumentation zu tun, sagt, das problem ist nur, dass das Wort "Klasse" ist nicht nur ein Wort. Es kann gefunden werden innerhalb von HTML, aber es ist auch

beautifulsoup python web-scraping

Wie Sie Bildschirm Kratzen?

6 Antworten

Wenn es keine webservice-API zur Verfügung, ist Ihre einzige option sein könnte, um zu Bildschirm zu Kratzen, aber wie machst du das in c#? wie denken Sie, es zu tun? Wenn die Ergebnisse wichtig sind, dann glaube

api c#web-scraping web-services

Was ist der beste screen scraping Sprache?

13 Antworten

Hallo ich möchte erstellen Sie eine desktop-app (c# prob), dass Kratzer oder manipuliert ein Formular auf eine 3rd-party-web-Seite. Grundsätzlich habe ich meine Daten eingeben in der form, in der desktop-app, es geht Weg, um die 3rd-party-website, und

programming-languages screen-scraping web-scraping

BeautifulSoup: object of type 'Antwort' has no len()

3 Antworten

Problem: wenn ich versuche das script ausführen, BeautifulSoup(html, ...) gibt die Fehlermeldung "TypeError: object of type 'Antwort' has no len(). Ich habe versucht, vorbei am eigentlichen html als parameter, aber es funktioniert immer noch nicht. import requests

beautifulsoup html parsing python web-scraping

Jsoup Cookies für HTTPS-Schaben

3 Antworten

Ich bin das Experimentieren mit dieser Website zu sammeln, mein Benutzername willkommen auf der Seite zu erfahren, Jsoup und Android. Mit dem folgenden code Connection.Response res = Jsoup.connect("http://www.mikeportnoy.com/forum/login.aspx") .data("ctl00$ContentPlaceHolder1$ctl00$Login1$UserName", "username", "ctl00$ContentPlaceHolder1$ctl00$Login1$Password", "password") .method(Method.POST) .execute(); String sessionId =

cookies java jsoup web-scraping

Immer das N-te element mit BeautifulSoup

4 Antworten

Aus einer großen Tabelle möchte ich Lesen die Zeilen 5, 10, 15, 20 ... mit BeautifulSoup. Wie mache ich das? Ist findNextSibling und einem inkrementierenden Zähler der Weg zu gehen? InformationsquelleAutor der Frage aadvaark | 2012-01-04

beautifulsoup python web-scraping

So drucken Sie eine Ausnahme in Python 3?

3 Antworten

Gerade jetzt, ich fange die exception in der except Exception: - Klausel, und führen print(exception). Das Ergebnis liefert keine Informationen, da druckt er immer <class 'Exception'>. Ich wusste, dass dies funktionierte in python 2, aber wie mache

python python-3.x web-scraping

Schaben ajax-Seiten mit python

2 Antworten

Ich habe schon gesehen,diese Frage zu Schaben ajaxaber python ist nicht dort erwähnt. Als ich mit scrapyich glaube, Sie haben einige Dokumentationen zu diesem Thema, aber wie Sie sehen können, die website ist down. Also ich weiß

ajax python scrapy screen-scraping web-scraping

Python-BeautifulSoup kratzen Tabellen

1 Antworten

Ich versuche eine Tabelle erstellen, die kratzen mit BeautifulSoup. Ich schrieb diesen Python-code: import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = BeautifulSoup(page) for i

beautifulsoup html html-parsing python web-scraping

PhantomJS hängen beim Aufruf von CLI-oder Web -

2 Antworten

Ich versuche, phantomJS zu erfassen, einen screenshot von einer URL, jedoch wenn ich Anrufe, phantomJS (entweder über die Befehlszeile oder web-app) hängt es und seesm nie führen Sie die "exit()" aufrufen. Ich kann nicht scheinen, um herauszufinden,

javascript phantomjs web-scraping

Wie legen Wert ein input-tag in casperJs

2 Antworten

Habe ich input-element so angezeigt : <input type="text" class="bg-white" id="couponCode" value=""> Wie kann ich das einstellen/füllen Sie den Wert mit casperJs InformationsquelleAutor der Frage user2129794 | 2013-08-11

casperjs phantomjs web-scraping

scrapy - wie stop-Redirect (302)

4 Antworten

Ich versuche zu krabbeln einer url mit Scrapy. Aber es leitet mich zu Seite, die nicht existiert. Redirecting (302) to <GET http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197> from <GET http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx> Das problem ist http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx vorhanden ist, aber http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197 nicht, so dass der

scrapy web-crawler web-scraping

Extrahieren von Informationen aus web-Seite von machine-learning

8 Antworten

Möchte ich extrahieren, die eine bestimmte Art von Informationen aus web-Seiten in Python. Lassen Sie uns sagen, postalische Adresse. Es hat Tausende von Formen, aber immer noch, es ist irgendwie erkennbar. Da es eine große Anzahl von

extract html-parsing machine-learning python web-scraping

Klicken Sie auf die javascript-popup durch webdriver

5 Antworten

Ich bin Schaben eine Webseite mit Selenium webdriver in Python Die Webseite, die ich arbeite, hat eine form. Ich bin in der Lage, um die form zu füllen und dann klicke ich auf den Submit-button. Es erzeugt

alert python selenium web-scraping webdriver

Web Scraping mit Scala

3 Antworten

Nur Fragen, ob jemand weiß von einem web-scraping-Bibliothek, die die Vorteile von Scala prägnante syntax. Bisher habe ich gefunden Scheuernaber das scheint schlecht dokumentiert und gepflegt. Ich Frage mich, ob jemand da draußen getan hat, Schaben mit

libraries scala web-scraping

Wie behandeln IncompleteRead: in python

7 Antworten

Ich bin versucht zu Holen von Daten von einer website. Aber es gibt mir incomplete read. Die Daten, die ich versuche zu bekommen ist eine riesige Menge von verschachtelten links. Ich habe einige der Forschung online und

beautifulsoup mechanize python python-2.7 web-scraping