Tag: web-scraping
Web scraping ist das Verfahren der Extraktion von spezifischen Informationen aus websites, die nicht ohne weiteres eine API bereitstellen, oder andere Methoden der automatisierten Datenabruf. Fragen über „Wie man Mit Schaben“ (z.B. mit Excel, VBA) sollte *gründlich recherchiert,* wie viele funktionale code-Beispiele sind verfügbar. Web-scraping-Methoden gehören 3rd-party-Anwendungen, Entwicklung von Individualsoftware, oder sogar die manuelle Datensammlung in einer standardisierten Art und Weise.
3
Antworten
Ich bin mit scrapy in einem python-Skript def setup_crawler(domain): dispatcher.connect(stop_reactor, signal=signals.spider_closed) spider = ArgosSpider(domain=domain) settings = get_project_settings() crawler = Crawler(settings) crawler.configure() crawler.crawl(spider) crawler.start() reactor.run() erfolgreich ausgeführt und beendet, aber wo ist das Ergebnis ? Ich möchte das
5
Antworten
Ich würde gerne das Crawlen einer beliebten Website (sagen Quora), das nicht über eine API und erhalten Sie einige spezifische Informationen und werfen Sie es in eine Datei - sagen entweder eine csv -, .txt-oder .html-formatierte schön
3
Antworten
Beispiel: scrapy shell http://scrapy.org/ content = hxs.select('//*[@id="content"]').extract()[0] print content dann bekam ich folgenden raw-html-codes: <div id="content"> <h2>Welcome to Scrapy</h2> <h3>What is Scrapy?</h3> <p>Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites
3
Antworten
Ich bin mit: Modul: Anfrage -- Vereinfachtes HTTP-request-Methode zu kratzen, eine Webseite mit Umlauten á é ó ú ê ã etc. Hab ich auch schon versucht encoding: utf-8 ohne Erfolg. Ich bin noch immer dieser ��� Zeichen
4
Antworten
Ich verschrotten möchten eine Webseite mit einer Liste der Benutzer mit Adressen, E-Mail etc. Webseite enthält Liste der Benutzer mit der Paginierung, d.h. die Seite enthält 10 Benutzer, wenn ich auf Seite 2 link geladen werden, die
3
Antworten
Ich habe eine CasperJS Skript, das kratzt Bewertungen und Daten von einer Webseite. Ich will jetzt kratzen die gleichen Daten von mehreren Seiten unter der gleichen website. Wie kann ich eine Schleife durch die verschiedenen Unterseiten angesichts
9
Antworten
Höre ich die Leute schreiben diese Programme die ganze Zeit und ich weiß, was Sie tun, sondern wie Sie es tatsächlich tun? Ich bin auf der Suche nach Allgemeinen Konzepten. InformationsquelleAutor der Frage |
5
Antworten
Ich erhalte eine Fehlermeldung beim öffnen von Firefox mit Selenium in ipython notebook. Ich habe umgeschaut und habe ähnliche Fehler, aber nichts, was genau die Fehler, die ich immer bin. Weiß jemand was das problem sein könnte
2
Antworten
Möchte ich die folgenden Aktionen ausführen auf server-Seite: 1) Kratzen einer Webseite 2) Simulieren Sie einen auf die entsprechende Seite klicken und navigieren Sie dann zu der neuen Seite. 3) Kratzen Sie die neue Seite 4) Simulieren
2
Antworten
Ich habe gelesen, eine Menge Antworten über web-scraping, dass reden über BeautifulSoup, Scrapy e.t.c. zum durchführen von web-scraping. Gibt es eine Möglichkeit zu tun, das entspricht dem speichern einer Seite die Quelle von einem web-brower? Ist, gibt
3
Antworten
Disclaimer: ich habe gesehen, zahlreiche ähnliche Beiträge auf StackOverflow und versucht, es zu tun die gleiche Weise, aber Sie scheinen nicht zu funktionieren auf dieser website. Ich bin mit Python-Scrapy für das abrufen von Daten aus koovs.com.
2
Antworten
Meine Webseite ist so etwas wie das - <p> <strong class="offender">YOB:</strong> 1987<br /> <strong class="offender">RACE:</strong> WHITE<br /> <strong class="offender">GENDER:</strong> FEMALE<br /> <strong class="offender">HEIGHT:</strong> 5'05''<br /> <strong class="offender">WEIGHT:</strong> 118<br /> <strong class="offender">EYE COLOR:</strong> GREEN<br /> <strong class="offender">HAIR COLOR:</strong>
4
Antworten
Ich versuche, mich zu kratzen, die links von einer Seite, dass die Inhalte dynamisch generiert, da der Benutzer nach unten scrollen (infinite scrolling). Ich habe versucht, verschiedene Dinge zu tun mit Phantomjs, aber nicht in der Lage
3
Antworten
Ziel: extrahieren Sie den text aus dem anchor-tag innerhalb aller Zeilen in models und steckte es in eine csv-Datei. Ich versuche diesen code: with open('Sprint_data.csv', 'ab') as csvfile: spamwriter = csv.writer(csvfile) models = soup.find_all('li' , {"class" :
4
Antworten
Ich bin ein bisschen neu, um jQuery so verzeihen Sie mir für sein dichten. Ich will alle wählen <td> Elemente auf einer bestimmten Seite per Chrome JS-Konsole: $('td') Doch wenn ich dies mache, bekomme ich die folgende
2
Antworten
Die beiden Beiträge unten sind gute Beispiele für die unterschiedlichen Ansätze der Extraktion von Daten aus Webseiten und analysieren es in R. Schaben html-Tabellen in R-Daten-frames unter Verwendung der XML-Paket Wie kann ich R (Rcurl/XML-Pakete ?!) kratzen
1
Antworten
Ist dies die besten Weg, um eine Webseite bei Schaben? HttpWebRequest oReq = (HttpWebRequest)WebRequest.Create(url); HttpWebResponse resp = (HttpWebResponse)oReq.GetResponse(); var doc = new HtmlAgilityPack.HtmlDocument(); doc.Load(resp.GetResponseStream()); var element = doc.GetElementbyId("//start-left"); var element2 = doc.DocumentNode.SelectSingleNode("//body"); string html = doc.DocumentNode.OuterHtml; Habe
1
Antworten
Wenn ich versuche zu Schrott diese Website mit Phantomjs, standardmäßig, Phantomjs senden Sie die folgende Header server: "name":"User-Agent", "value":"Mozilla/5.0 (Unknown; Linux i686) AppleWebKit/534.34 (KHTML, like Gecko) PhantomJS/1.9.1 Safari/534.34"} Und ich bekomme eine status 405 "Not Allowed" Antwort.
8
Antworten
Ist es wunderbar funktioniert über HTTP, aber wenn ich versuchen und verwenden Sie eine HTTPS Quelle wirft es die folgende Ausnahme: 10-12 13:22:11.169: WARN/System.err(332): javax.net.ssl.SSLHandshakeException: java.security.cert.CertPathValidatorException: Trust anchor for certification path not found. 10-12 13:22:11.179: WARN/System.err(332): at
1
Antworten
Ich weiß, es gibt bestimmte web-Seiten PhantomJS/CasperJS nicht öffnen kann und ich Frage mich, ob dieser einem war einer von Ihnen: https://maizepages.umich.edu. CasperJS gibt einen Fehler: PhantomJS Fehler beim öffnen der Seite status=fail. Versuchte ich zu ignorieren,
4
Antworten
Was ist der aktuelle Zustand der Bibliotheken zum Schaben websites mit Haskell? Ich versuche, mich mehr von dem tun, meine schnell-oneoff Aufgaben in Haskell, um zu helfen erhöhen meine Komfort-Ebene mit der Sprache. In Python, ich Neige
4
Antworten
Ich versuche zu tun, einige webscraping über Selen. Meine Frage ist ganz einfach: Wie finden Sie einen link und dann wie Sie, klicken Sie auf es? Zum Beispiel: Der folgende Code ist der HTML-Code, den ich versuche,
2
Antworten
Hallo ich habe Scrapy Python auf meinem mac installiert und ich habe versucht zu Folgen, die very ersten Beispiel auf Ihrer web. Waren Sie versuchen, den Befehl ausführen: scrapy crawl mininova.org -o scraped_data.json -t json Ich verstehe
6
Antworten
Ich bin Planung ein webservice für meinen eigenen Gebrauch intern, ein argument, eine URL, und gibt html-Vertretung der gelöst DOM von dieser URL. Von aufgelöst, ich meine, dass der webservice wird zunächst die Seite an, die URL,
3
Antworten
Code ich eine Menge von Parsern. Bis jetzt war ich mit HtmlUnit headless browser für die Analyse und browser-Automatisierung. Nun, ich möchte trennen die Aufgaben. Als 80% meiner Arbeit umfasst nur analysieren, ich möchte an einem Licht-HTML-parser,
8
Antworten
Weiß ich die URL eines Bildes im Internet. z.B. http://www.digimouth.com/news/media/2011/09/google-logo.jpgenthält, die das logo von Google. Nun, wie kann ich downloaden Sie dieses Bild mit Python, ohne tatsächlich öffnen Sie die URL in einen browser, und speichern Sie
5
Antworten
Ich versuche zu konvertieren ein html-block, um den text mit Python. Eingang: <div class="body"><p><strong></strong></p> <p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a>
6
Antworten
Brauche ich, um wählen Sie ein element aus einem drop-down-Menü. Öffnen Sie zum Beispiel dieses: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> Also erstmal muss ich drauf klicken. Ich mache Folgendes:
8
Antworten
Ich bin ein Neuling von scrapy und es ist erstaunlich, crawler-framework kenne ich! In meinem Projekt, ich habe mehr als 90 000 Anfragen, aber es gibt einige von Ihnen scheiterten. Ich habe die log-level INFO, und ich
10
Antworten
Bitte beraten, wie kratzen AJAX-Seiten. InformationsquelleAutor der Frage xxxxxxx | 2008-11-04
6
Antworten
Ich bin neu Scrapy und ich bin auf der Suche nach einem Weg, um von einem Python-Skript. Ich fand die 2 Quellen, die erklären, diese: http://tryolabs.com/Blog/2011/09/27/calling-scrapy-python-script/ http://snipplr.com/view/67006/using-scrapy-from-a-script/ Ich kann nicht herausfinden, wo ich meine spider-code und wie
5
Antworten
Ich möchte in der Lage sein zu wählen/markieren Sie ein element auf der Seite und finden Sie Ihren Selektor wie: div.firstRow div.priceAvail>div>div.PriceCompare>div.BodyS Ich weiß, Sie können sehen, die Auswahl, die Sie auf der Unterseite nach einem element
3
Antworten
Ich würde gerne liefert Ergebnisse von Google mit Hilfe von curl zu erkennen, mögliche duplicate content. Ist es ein hohes Risiko gebannt zu werden durch Google? InformationsquelleAutor der Frage ML_ | 2014-03-26
5
Antworten
Brauche ich einige Informationen von einer website, die nicht von mir, um diese Informationen zu erhalten, brauche ich zur Anmeldung auf der website um die Informationen zu sammeln, dies geschieht über ein HTML-Formular. Wie kann ich dies
4
Antworten
Brauche ich eine leistungsstarke web-scraper Bibliothek für den Bergbau Inhalte aus dem web. Dass gezahlt werden kann oder kostenlos, beides gut für mich. Bitte schlagen Sie mich in einer Bibliothek oder einem besseren Weg, für den Bergbau,
5
Antworten
Fragte ich einen Frage auf die Realisierung einer Allgemeinen Idee zu Crawlen und speichern von Webseiten. Ein Teil der ursprünglichen Frage ist: wie kriechen und sparen eine Menge "Über" - Seiten aus dem Internet. Mit einigen weiteren
12
Antworten
Ich versuche zu entwickeln, die eine einfache web-scraper. Ich möchte zum extrahieren von text ohne HTML-code. In der Tat, ich, dieses Ziel zu erreichen, aber ich habe gesehen, dass einige Seiten, wo JavaScript geladen wird habe ich
2
Antworten
Verbringe ich viel Zeit mit der Suche zu diesem. Am Ende des Tages habe ich kombiniert eine Reihe von Antworten und es funktioniert. Ich Teile meine Antwort und ich werde es schätzen, wenn jemand es Bearbeiten oder
10
Antworten
Gut, ich bin ziemlich viel versucht, um herauszufinden, wie zum abrufen von Informationen aus einer Webseite und bringen Sie es in mein Programm (in Java). Zum Beispiel, wenn ich weiß die genaue Seite möchte ich Informationen aus,
3
Antworten
Ich versuche, mich zu kratzen, eine web-Seite mit python und schöne Suppe. Ich habe festgestellt, dass in einigen Websites, die Bild-links, obwohl man auf der browser ist nicht sichtbar in den Quellcode. Aber auf die Chrome verwenden,
3
Antworten
Ich bin (war) ein Python-Entwickler, der eine GUI-web-scraping-Anwendung. Vor kurzem habe ich beschlossen, zu migrieren .NET framework und schreiben Sie die gleiche Anwendung in C# (diese Entscheidung war nicht von mir). In Python, habe ich die Mechanize-Bibliothek.
9
Antworten
Gegeben, einen news-Artikel Webseite (von jeder großen news-Quellen wie der times oder bloomberg), ich möchte, um die wichtigsten Artikel auf dieser Seite und werfen die andere misc Elemente wie Werbung, Menüs, Seitenleisten, user-Kommentare. Was ist eine generische
8
Antworten
Ich versuche zu erreichen, Web-Scraping durch einen hintergrund IntentService, der in regelmäßigen Abständen kratzen eine website ohne einen Blick Anzeige von auf den Benutzer Telefon. Da habe ich zu tun, rufen Sie einige javascript-Code auf der geladenen
4
Antworten
Ich möchte den Inhalt der nachfolgenden Internetseite. Wenn ich einen browser verwenden, wie Firefox oder Chrome, ich könnte das Reale website Seite, die ich möchte, aber wenn ich mit der Python-requests-Paket (oder wget - Befehl), um es
2
Antworten
Wie verwenden Sie Scrapy zu kratzen web-requests, der JSON zurückgeben? Zum Beispiel das JSON sieht so aus: { "firstName": "John", "lastName": "Smith", "age": 25, "address": { "streetAddress": "21 2nd Street", "city": "New York", "state": "NY", "postalCode": "10021"
3
Antworten
Ich bin mit Scrapy, um das Crawlen einer Webseite. Einige der Informationen, die ich brauche öffnet sich nur, wenn Sie auf eine bestimmte Taste (natürlich erscheint auch in den HTML-code nach dem Klick). Fand ich heraus, dass
1
Antworten
Ich versuche zu kratzen Produkt-Informationen auf einer Webseite, mit scrapy. Meine to-be-geschabt Webseite sieht wie folgt aus: beginnt mit einem product_list Seite mit 10 Produkten einem Klick auf "weiter" - button lädt die nächsten 10 Produkte (url
8
Antworten
Will ich laden Sie alle Bilder von google-Bilder-Suche mit python . Der code, den ich verwende, scheint ein problem, einige Male .Mein code ist import os import sys import time from urllib import FancyURLopener import urllib2 import
2
Antworten
Ich bin interessiert bei der Beschaffung von Daten aus verschiedenen subreddits reddit. Weiß jemand, ob es einen reddit/andere api, die ähnlich wie twitter funktioniert zum Crawlen aller Seiten? InformationsquelleAutor der Frage Budhapest | 2013-01-14
6
Antworten
Arbeite ich an einem web-Schaben-Projekt. Eine der websites, mit der ich arbeite, hat die Daten aus Javascript. Es wurde ein Vorschlag auf einer meiner früheren Fragen , kann ich auch direkt aufrufen, Javascript von Python, aber ich