Tag: web-scraping

Web scraping ist das Verfahren der Extraktion von spezifischen Informationen aus websites, die nicht ohne weiteres eine API bereitstellen, oder andere Methoden der automatisierten Datenabruf. Fragen über „Wie man Mit Schaben“ (z.B. mit Excel, VBA) sollte *gründlich recherchiert,* wie viele funktionale code-Beispiele sind verfügbar. Web-scraping-Methoden gehören 3rd-party-Anwendungen, Entwicklung von Individualsoftware, oder sogar die manuelle Datensammlung in einer standardisierten Art und Weise.

Python-Schöne Suppe, wie JSON Dekodieren, `dict`?

Anzahl der Antworten 2 Antworten
Ich bin neu in Python und BeautifulSoup ich bin versucht zu extrahieren dict von BeautifulSoup. Ich verwendet habe, BeautifulSoup zum extrahieren von JSON und bekam beautifulsoup.beautifulsoup variable soup. Ich versuche Werte aus soup, aber wenn ich das

Multithreading in Python/BeautifulSoup Schaben nicht beschleunigen an alle

Anzahl der Antworten 1 Antworten
Ich habe eine csv-Datei ("SomeSiteValidURLs.csv"), die aufgeführt sind alle links, die ich brauche zu kratzen. Der code funktioniert und gehen durch die urls in der csv, kratzen die Informationen und aufnehmen/speichern in eine andere csv-Datei ("Ausgabe.csv"). Aber

Entfernen Sie alle Schrägstriche in Javascript

Anzahl der Antworten 4 Antworten
Entfernen Sie alle backslash in einem JavaScript-string ? var str = "one thing\\\'s for certain: power blackouts and surges can damage your equipment."; Möchte ich eine Ausgabe wie one thing's for certain: power blackouts and surges can

PHP: strip_tags - entfernt nur bestimmte tags (und deren Inhalt)?

Anzahl der Antworten 2 Antworten
Ich die strip_tags() Funktion, aber ich brauche entfernen einige tags (und alle Ihre Inhalte). Beispiel : <div> <p class="test"> Test A </p> <span> Test B </span> <div> Test C </div> </div> Lassen Sie uns sagen, ich brauche,

selenium webdriver zu finden, die Anker-tag ein, und klicken Sie auf das

Anzahl der Antworten 2 Antworten
<div id="ContentPrimary"> <ul class="selectors modeSelectors"> <li><a href="/content/l411846326l1213g/references/" title=""> <span class="selector">References (27)</span></a></li> <li><a href="/content/l411846326l1213g/referrers/" title=""> <span class="selector">Cited By (2)</span></a></li> <li><a href="/content/l411846326l1213g/export-citation/" title=""> <span class="selector">Export Citation</span></a></li> <li><a href="/content/l411846326l1213g/about/" title=""> <span class="selector">About</span></a></li> </ul> In diesem ich brauche zu finden, und

Wie kann ich mich auf den plain-text aus einer Webseite mit Scrapy?

Anzahl der Antworten 3 Antworten
Ich würde gerne alle den text sichtbar von einer website, nachdem das HTML gerendert wird. Ich arbeite in Python mit Scrapy framework. Mit xpath('//body//text()') ich bin in der Lage, es zu bekommen, aber mit den HTML-tags, und

Wie automatisieren, um mehrere Anforderungen auf einem web-search-Formular mit R

Anzahl der Antworten 4 Antworten
Ich versuche zu lernen, wie RCurl (oder andere geeignete R-Paket, wenn ich falsch bin, über RCurl richtigen Werkzeug) zu automatisieren den Prozess der übermittlung Suchbegriffe ein web-Formular und platzieren Sie die Ergebnisse der Suche in einer Datenbank-Datei.

Ist das web scraping erlaubt?

Anzahl der Antworten 2 Antworten
Arbeite ich an einem Projekt, das erfordert, dass bestimmte Statistiken auf einer anderen website, und ich ' ve erstellt eine HTML-scraper, die Daten erhält alle 15 Minuten automatisch. Allerdings habe ich aufgehört den bot jetzt, als in

Wie kann ich fangen und verarbeiten die Daten aus dem XHR-Antworten mit casperjs?

Anzahl der Antworten 2 Antworten
Die Daten auf der Webseite angezeigt wird dynamisch und es scheint, dass die überprüfung für jede änderung in der html und das extrahieren der Daten ist eine sehr schwierige Aufgabe und braucht auch mich sehr unzuverlässig XPath-Ausdrücken.

Senden von Daten per web-Formular und extrahieren Sie die Ergebnisse

Anzahl der Antworten 3 Antworten
Meine python-Niveau ist Anfänger. Ich habe nie geschrieben, ein web-scraper oder crawler. Ich habe geschrieben, ein python code um die Verbindung zu einer api, und extrahieren Sie die Daten, die ich will. Aber für einige der extrahierten

Läuft Selen hinter einem proxy-server

Anzahl der Antworten 4 Antworten
Ich habe mit Selen für die automatische browser-Simulationen und web-scraping in python und es hat gut für mich gearbeitet. Aber jetzt habe ich es zum laufen hinter einem proxy-server. So, jetzt Selen öffnen Sie die Fenster, aber

Holen Sie sich meta-tag content-Eigenschaft mit Python und BeautifulSoup

Anzahl der Antworten 2 Antworten
Ich versuche die Verwendung von python und schöne Suppe, den Inhalt zu extrahieren-Teil des tags unten: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" /> Ich bin immer BeautifulSoup zu laden Sie die Seite einfach

BeautifulSoup webscraping find_all( ): Suche nach exakter übereinstimmung

Anzahl der Antworten 2 Antworten
Bin ich mit Python und BeautifulSoup für web-scraping. Können sagen, ich habe den folgenden html-code zu kratzen: <body> <div class="product">Product 1</div> <div class="product">Product 2</div> <div class="product special">Product 3</div> <div class="product special">Product 4</div> </body> Mit BeautifulSoup, ich will

Kratzen Sie mehrere Seiten mit Python und BeautifulSoup

Anzahl der Antworten 1 Antworten
Meinen code erfolgreich Schrammen die tr align=center-tags aus [ http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY ] und schreibt die td-Elemente in eine text-Datei. Allerdings gibt es mehrere Seiten auf der Website oben in die ich möchte in der Lage sein zu kratzen.

Holen Sie alle href-link mit Selen in python

Anzahl der Antworten 3 Antworten
Ich bin Praktizierender Selen in python und ich wollte Sie Holen, alle links auf einer web-Seite mit Selen. Zum Beispiel, ich möchte alle links in "a href" - tag von diese website : http://psychoticelites.com/ Habe ich ein

Kratzen Passwort-geschützten website in R

Anzahl der Antworten 2 Antworten
Ich versuche, mich zu kratzen, Daten von einem Passwort-geschützten website in R. zu Lesen, es scheint, dass die httr und RCurl Pakete sind die besten Optionen für die Verschrottung mit Passwort-Authentifizierung (hab ich auch sah in das

Selen-Debugging: Element ist nicht anklickbar am Punkt (X,Y)

Anzahl der Antworten 3 Antworten
Ich versuche zu kratzen, diese Website durch Selen. Ich möchten, klicken Sie auf "Nächste Seite" - Button, für das ich: driver.find_element_by_class_name('pagination-r').click() es funktioniert bei vielen Seiten, aber nicht für alle, ich habe diesen Fehler WebDriverException: Message: Element

Schöne Suppe Mit Regex zu Finden-Tags?

Anzahl der Antworten 3 Antworten
Ich würde wirklich gerne in der Lage sein zu ermöglichen Schöne Suppe für eine beliebige Liste von tags, wie so. Ich weiß, attr akzeptiert regex, aber es ist alles in schönen Suppe, die es Ihnen erlaubt, dies

Schaben Webseite generiert, die per javascript mit C#

Anzahl der Antworten 3 Antworten
Ich habe einen webBrowser und einem label in Visual Studio, und im Grunde, was ich versuche zu tun ist, schnappen Sie sich einen Abschnitt von einer anderen Webseite. Versuchte ich mit WebClient.DownloadString und WebClient.DownloadFile, und beide geben

Kratzen web-Seite Inhalte

Anzahl der Antworten 4 Antworten
Ich entwickle ein Projekt, für das ich möchte kratzen, die Inhalte einer Webseite in den hintergrund und Holen Sie sich einige begrenzte Inhalte aus, kratzte website. Zum Beispiel in meine Seite habe ich "userid" und "password" -

Alle Java-äquivalent zu PhantomJS?

Anzahl der Antworten 3 Antworten
Ich würde gerne wissen, ob es eine Java-Bibliothek entspricht PhantomJS. Was ich erreichen möchte ist, simulieren zu können, Anmeldeformular und senden Aktionen von einem web-Seite und auch die Seite " Schaben gut. Ich weiß jsoup funktioniert Seite

Wie kann ich Schaben Websites, die eine Authentifizierung erfordern mit node.js?

Anzahl der Antworten 2 Antworten
Habe ich über viele tutorials, die erklären wie man kratzen öffentlichen websites, die nicht erfordern eine Authentifizierung/login, mit node.js. Kann jemand erklären, wie kratzen Sie die Seiten, die eine Anmeldung erforderlich ist mit node.js? hast du diese

College/University-Daten-API

Anzahl der Antworten 2 Antworten
Ich versuche, eine Anwendung zu erstellen, die es Benutzern ermöglicht, um eine bestimmte Universität und Daten über Sie (Eintrittspreis, SAT Partituren, Größe, etc.). Aber ich kann nicht finden, eine API/Datenbank, die ich verwenden kann. Ich weiß, die

CasperJS die Weitergabe der Daten wieder zu PHP

Anzahl der Antworten 2 Antworten
CasperJS aufgerufen wird von PHP mit einem exec() Befehl. Nach CasperJS tut seine Arbeit, wie beispielsweise das abrufen von teilen einer Webseite, wie können die abgerufenen Daten zurück zu PHP? InformationsquelleAutor Nyxynyx | 2013-04-06

Wie machen Scrapy show user agent pro download-Anfrage im log?

Anzahl der Antworten 4 Antworten
Lerne ich Scrapy, ein web-crawling-framework. Ich weiß, ich kann USER_AGENT im settings.py - Datei des Scrapy Projekt. Wenn ich das Scrapy, ich kann sehen, dass die USER_AGENT's Wert in INFO protokolliert. Diese USER_AGENT festgelegt wird, in jede

Wie Schütze ich meine Website von HTTrack oder anderen software rippen?

Anzahl der Antworten 4 Antworten
Vor kurzem habe ich eine Website-Vorlage genehmigt am Themeforest. Ich bin immer einfach zu viel traffic auf meiner Website und bemerkte, dass meine demo auf Themeforest immer verarscht von einigen Programmen wie HTTrack. Wenn das so weiter

Schaben Daten von der website, die mithilfe von vba

Anzahl der Antworten 5 Antworten
Ich versuche, kratzen Sie die Daten von der website: http://uk.investing.com/rates-bonds/financial-futures über vba, wie zum Beispiel Echtzeit-Preise, d.h. Deutsch 5 YR-Bobl, US 30Y T-Bond, ich habe versucht, excel web-Abfrage, sondern es nur Schrammen die ganze website, aber ich

BeautifulSoup: Hole den Inhalt einer bestimmten Tabelle

Anzahl der Antworten 3 Antworten
Meine lokalen Flughafen disgracefully blockiert Benutzer ohne IE, und sieht schrecklich. Ich möchte schreiben Sie ein Python-Skripte, die die Inhalte der an-und Abreise die Seiten alle paar Minuten, und zeigen Sie Sie in einem besser lesbaren Weise.

Scrapy CrawlSpider für AJAX-content

Anzahl der Antworten 1 Antworten
Ich bin versucht zu Crawlen einer Website für news-Artikel. Meine start_url enthält: (1) links zu jedem Artikel: http://example.com/symbol/TSLA und (2) ein "Mehr" - button, der macht einen AJAX-call, die dynamisch weitere Artikel innerhalb derselben start_url: http://example.com/account/ajax_headlines_content?type=in_focus_articles&page=0&slugs=tsla&is_symbol_page=true Parameter

Scrapy: Extrahieren Sie links und text

Anzahl der Antworten 2 Antworten
Ich bin neu scrapy und ich bin versucht zu kratzen, die Ikea website Webseite. Der basic-Seite mit der Liste der Standorte als gegeben hier. Meine items.py Datei wird unten gegeben: import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field()

Verwenden getElementById auf HTMLElement statt HTMLDocument

Anzahl der Antworten 4 Antworten
Ich habe das Spiel mit dem abkratzen von Daten aus web-Seiten mit VBS/VBA. Wenn es Javascript würde ich Weg sein, da seine einfache, aber es scheint nicht ganz so geradlinig in VBS/VBA. Dies ist ein Beispiel, die

Mit HTMLParser in Python 3.2

Anzahl der Antworten 1 Antworten
Ich habe mit HTML-Parser Verschrottung von Daten aus Webseiten und stripping html-Codierung dabei. Ich bin mir bewusst, dass verschiedene Module wie Schöne Suppe, aber beschlossen zu gehen auf dem Weg der nicht in Abhängigkeit von "außen" -

R: Mit rvest-Paket-anstelle des XML-Pakets, um links von der URL

Anzahl der Antworten 4 Antworten
Verwende ich XML-Paket zu bekommen, die links von diese url. # Parse HTML URL v1WebParse <- htmlParse(v1URL) # Read links and and get the quotes of the companies from the href t1Links <- data.frame(xpathSApply(v1WebParse, '//a', xmlGetAttr, 'href'))

Kann ein Telegramm, bot das Lesen von Nachrichten aus Kanal

Anzahl der Antworten 1 Antworten
Kann ein Telegramm, bot Lesen/Zugriff auf ein Telegramm-Kanal, dass weder ich oder der bot ist administrator? Ich weiß, dass bis zum letzten November, es war nicht möglich, aber ich habe gehört, einige Leute haben das getan, aber

Python-BeautifulSoup findAll von "class" - Attribut

Anzahl der Antworten 2 Antworten
Möchte ich die folgenden code, das ist, was BS Dokumentation zu tun, sagt, das problem ist nur, dass das Wort "Klasse" ist nicht nur ein Wort. Es kann gefunden werden innerhalb von HTML, aber es ist auch

Wie Sie Bildschirm Kratzen?

Anzahl der Antworten 6 Antworten
Wenn es keine webservice-API zur Verfügung, ist Ihre einzige option sein könnte, um zu Bildschirm zu Kratzen, aber wie machst du das in c#? wie denken Sie, es zu tun? Wenn die Ergebnisse wichtig sind, dann glaube

Was ist der beste screen scraping Sprache?

Anzahl der Antworten 13 Antworten
Hallo ich möchte erstellen Sie eine desktop-app (c# prob), dass Kratzer oder manipuliert ein Formular auf eine 3rd-party-web-Seite. Grundsätzlich habe ich meine Daten eingeben in der form, in der desktop-app, es geht Weg, um die 3rd-party-website, und

BeautifulSoup: object of type 'Antwort' has no len()

Anzahl der Antworten 3 Antworten
Problem: wenn ich versuche das script ausführen, BeautifulSoup(html, ...) gibt die Fehlermeldung "TypeError: object of type 'Antwort' has no len(). Ich habe versucht, vorbei am eigentlichen html als parameter, aber es funktioniert immer noch nicht. import requests

Jsoup Cookies für HTTPS-Schaben

Anzahl der Antworten 3 Antworten
Ich bin das Experimentieren mit dieser Website zu sammeln, mein Benutzername willkommen auf der Seite zu erfahren, Jsoup und Android. Mit dem folgenden code Connection.Response res = Jsoup.connect("http://www.mikeportnoy.com/forum/login.aspx") .data("ctl00$ContentPlaceHolder1$ctl00$Login1$UserName", "username", "ctl00$ContentPlaceHolder1$ctl00$Login1$Password", "password") .method(Method.POST) .execute(); String sessionId =

Immer das N-te element mit BeautifulSoup

Anzahl der Antworten 4 Antworten
Aus einer großen Tabelle möchte ich Lesen die Zeilen 5, 10, 15, 20 ... mit BeautifulSoup. Wie mache ich das? Ist findNextSibling und einem inkrementierenden Zähler der Weg zu gehen? InformationsquelleAutor der Frage aadvaark | 2012-01-04

So drucken Sie eine Ausnahme in Python 3?

Anzahl der Antworten 3 Antworten
Gerade jetzt, ich fange die exception in der except Exception: - Klausel, und führen print(exception). Das Ergebnis liefert keine Informationen, da druckt er immer <class 'Exception'>. Ich wusste, dass dies funktionierte in python 2, aber wie mache

Schaben ajax-Seiten mit python

Anzahl der Antworten 2 Antworten
Ich habe schon gesehen,diese Frage zu Schaben ajaxaber python ist nicht dort erwähnt. Als ich mit scrapyich glaube, Sie haben einige Dokumentationen zu diesem Thema, aber wie Sie sehen können, die website ist down. Also ich weiß

Python-BeautifulSoup kratzen Tabellen

Anzahl der Antworten 1 Antworten
Ich versuche eine Tabelle erstellen, die kratzen mit BeautifulSoup. Ich schrieb diesen Python-code: import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = BeautifulSoup(page) for i

PhantomJS hängen beim Aufruf von CLI-oder Web -

Anzahl der Antworten 2 Antworten
Ich versuche, phantomJS zu erfassen, einen screenshot von einer URL, jedoch wenn ich Anrufe, phantomJS (entweder über die Befehlszeile oder web-app) hängt es und seesm nie führen Sie die "exit()" aufrufen. Ich kann nicht scheinen, um herauszufinden,

Wie legen Wert ein input-tag in casperJs

Anzahl der Antworten 2 Antworten
Habe ich input-element so angezeigt : <input type="text" class="bg-white" id="couponCode" value=""> Wie kann ich das einstellen/füllen Sie den Wert mit casperJs InformationsquelleAutor der Frage user2129794 | 2013-08-11

scrapy - wie stop-Redirect (302)

Anzahl der Antworten 4 Antworten
Ich versuche zu krabbeln einer url mit Scrapy. Aber es leitet mich zu Seite, die nicht existiert. Redirecting (302) to <GET http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197> from <GET http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx> Das problem ist http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx vorhanden ist, aber http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197 nicht, so dass der

Extrahieren von Informationen aus web-Seite von machine-learning

Anzahl der Antworten 8 Antworten
Möchte ich extrahieren, die eine bestimmte Art von Informationen aus web-Seiten in Python. Lassen Sie uns sagen, postalische Adresse. Es hat Tausende von Formen, aber immer noch, es ist irgendwie erkennbar. Da es eine große Anzahl von

Klicken Sie auf die javascript-popup durch webdriver

Anzahl der Antworten 5 Antworten
Ich bin Schaben eine Webseite mit Selenium webdriver in Python Die Webseite, die ich arbeite, hat eine form. Ich bin in der Lage, um die form zu füllen und dann klicke ich auf den Submit-button. Es erzeugt

Web Scraping mit Scala

Anzahl der Antworten 3 Antworten
Nur Fragen, ob jemand weiß von einem web-scraping-Bibliothek, die die Vorteile von Scala prägnante syntax. Bisher habe ich gefunden Scheuernaber das scheint schlecht dokumentiert und gepflegt. Ich Frage mich, ob jemand da draußen getan hat, Schaben mit

Wie behandeln IncompleteRead: in python

Anzahl der Antworten 7 Antworten
Ich bin versucht zu Holen von Daten von einer website. Aber es gibt mir incomplete read. Die Daten, die ich versuche zu bekommen ist eine riesige Menge von verschachtelten links. Ich habe einige der Forschung online und