Tag: scrapy

Scrapy ist eine schnelle open-source high-level screen scraping und web-crawling-framework, geschrieben in Python, verwendet zum Crawlen von websites und extrahieren strukturierter Daten aus Ihren Seiten. Es kann verwendet werden für eine Vielzahl von Zwecken, von data-mining-überwachung und automatisiertes testen.

Nicht sicher, wie XPath auf einen bestimmten website-element

Anzahl der Antworten 2 Antworten
Ich bin derzeit versuchen zu verwenden, Scrapy, durch zu gehen der Elite Gefährlich subreddit und sammeln post-Titel, urls und Stimme zählt. Ich habe die ersten beiden gut, aber bin unsicher, wie schreiben Sie einen XPath-Ausdruck für den

vorbei an Selen Antwort-url zu scrapy

Anzahl der Antworten 2 Antworten
Ich Lerne Python und versuche, mich zu kratzen, diese Seite für einen bestimmten Wert auf das dropdown-Menü. Nach, dass ich auf jedes Element, auf das angeführte Tabelle abrufen, die spezifische Informationen. Ich bin in der Lage, um

Umgang mit Scrapy Div Class

Anzahl der Antworten 1 Antworten
Ich bin neu Scrapy und wirklich python als gut. Ich bin versucht zu schreiben, ein scraper, der Extrakt Artikel-Titel, link-und Artikel-Beschreibung FAST wie ein RSS-feed von einer Webseite zu helfen, mich mit meiner Diplomarbeit. Ich habe das

Scrapy Python kann nicht extrahieren von text aus Klasse

Anzahl der Antworten 1 Antworten
Schauen Sie bitte diesen html-code: <header class="online"> <img src="http://static.flv.com/themes/h5/img/iconos/online.png"> <span>online</span> <img src="http://static.flv.com/themes/h5/img/iconos/ojo16.png"> 428 <p>xxfantasia</p> </header> Möchte ich, um den text hinein (428, in diesem Fall). Ich habe diese: def parse(self, response): sel = Selector(response) cams = sel.css('header.online')

Scrapy - Wählen Sie link-text

Anzahl der Antworten 3 Antworten
Diese sollte einfach sein, aber ich bin stecken. <div class="paginationControl"> <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link Text 2</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=3&amp;powerunit=2">Link Text 3</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=4&amp;powerunit=2">Link Text 4</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=5&amp;powerunit=2">Link Text 5</a> | <!-- Next page link --> <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link

Scrapy mit Selen das Crawlen aber nicht kratzen

Anzahl der Antworten 1 Antworten
Ich gelesen habe, alle threads auf mit scrapy für die AJAX-Seiten und installiert Selen webdrive um die Aufgabe zu vereinfachen, meine Spinne kann teilweise kriechen, aber bekomme keine Daten in meine Artikel. Meine Ziele sind: Kriechen aus

Scrapy wiederholen oder umleiten von middleware

Anzahl der Antworten 2 Antworten
Beim Crawlen durch eine Website mit scrapy, ich bekommen umgeleitet, wenn der Benutzer die gesperrte Seite ungefähr 1/5th der Zeit. Verliere ich die Seiten, die ich bekommen umgeleitet von, wenn das passiert. Ich weiß nicht, welche middleware

Download eine ganze Seite mit scrapy

Anzahl der Antworten 1 Antworten
Ich möchte das herunterladen des Inhalts einer ganzen Seite mit scrapy. Mit Selen-das ist ganz einfach: import os,sys reload(sys) sys.setdefaultencoding('utf8') from selenium import webdriver url = 'https://es.wikipedia.org/wiki/Python' driver = webdriver.Firefox() driver.get(url) content = driver.page_source with open('source','w') as

Wie zu verwenden Scrapy

Anzahl der Antworten 2 Antworten
Ich würde gerne wissen, wie kann ich einen crawler auf Basis Scrapy. Ich installierte das tool mit apt-get installieren, und ich habe versucht zu laufen, ein Beispiel: /usr/share/doc/scrapy/Beispiele/googledir/googledir$ scrapy Liste directory.google.com /usr/share/doc/scrapy/Beispiele/googledir/googledir$ scrapy crawl Ich hackte den

Scrapy BaseSpider: Wie funktioniert es?

Anzahl der Antworten 1 Antworten
Dies ist die BaseSpider Beispiel aus dem Scrapy-tutorial: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): domain_name = "dmoz.org" start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response)

Scrapy : Wie übergeben Sie die Liste der Argumente durch Eingabeaufforderung zu spider?

Anzahl der Antworten 1 Antworten
Erstellen einer Spachtel für fantasy-team. Auf der Suche nach einem Weg, um pass eine Liste der Spieler-Namen als Argumente, und dann für jede player_name in player_list führen Sie die parsing-code. Momentan habe ich so etwas class statsspider(BaseSpider):

Scrapy Kroch 0 Seiten (auf 0 Seiten/min)

Anzahl der Antworten 2 Antworten
Ich habe ein probleme mit scrapy, es ist keine Rückgabe keine Ergebnisse, ich weiß nicht, wo die probleme Ich benutze Python Version : 2.7.3 ( Windows 8.1 64-bit ) mein Projekt erstellt wurde, indem Sie diesen Befehl

Scrapy SgmlLinkExtractor Frage

Anzahl der Antworten 4 Antworten
Ich versuche, die SgmlLinkExtractor zu arbeiten. Dies ist die Signatur: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) Habe ich nur allow=() So, ich geben Sie rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),) So, die erste

Erstellen eines generischen scrapy spider

Anzahl der Antworten 5 Antworten
Meine Frage ist wirklich, wie das gleiche zu tun, wie in einer vorhergehenden Frage, aber in Scrapy 0.14. Mit einem Scrapy Spinne für mehrere websites Grundsätzlich habe ich GUI, Parameter wie domain, keywords, tag-Namen, etc. und ich

Ausführen Mehrerer Scrapy Spinnen (der einfache Weg) Python

Anzahl der Antworten 3 Antworten
Scrapy ist ziemlich cool, allerdings fand ich die Dokumentation sehr nackten Knochen, und einige einfache Fragen waren schwer zu beantworten. Nach der Zusammenstellung verschiedener Techniken aus verschiedenen stackoverflows habe ich endlich eine einfache und nicht allzu technischen

Kann nicht installieren von lxml unter windows fatal error C1083: Cannot open include file: 'libxml/xmlversion.h'

Anzahl der Antworten 2 Antworten
Python noob, bitte Geduld mit mir. Ich verwendete python-installer v3.5.1 von www.python.org. Meine Absicht war Scrapy laufen einige Skripte. pip installieren, scrapy, scheiterten, da habe easy_install scrapy und andere. Ich verfolgte den Fehler auf eine fehlerhafte Installation

Wie Sie kratzen Sie alle Inhalte von jedem link mit scrapy?

Anzahl der Antworten 2 Antworten
Ich bin neu mit scrapy ich möchte alle extrahieren Sie den Inhalt jedes werben von dieser website. Also ich habe Folgendes versucht: from scrapy.spiders import Spider from craigslist_sample.items import CraigslistSampleItem from scrapy.selector import Selector class MySpider(Spider): name

Wie setzen Sie verschiedene scrapy-Einstellungen für verschiedene Spinnen?

Anzahl der Antworten 5 Antworten
Möchte ich ermöglichen, einige http-proxy für einige Spinnen, und deaktivieren Sie für andere Spinnen. Kann ich so etwas tun? # settings.py proxy_spiders = ['a1' , b2'] if spider in proxy_spider: #how to get spider name ??? HTTP_PROXY

Läuft Scrapy Aufgaben in Python

Anzahl der Antworten 4 Antworten
Scrapy mein script scheint zu funktionieren gut, wenn ich es im 'one-off' - Szenarien aus der Kommandozeile, aber wenn ich versuche den code ausgeführt wird zweimal in der gleichen python-session bekomme ich diesen Fehler: "ReactorNotRestartable" Warum? Den

Die überprüfung einer url einen 404-Fehler scrapy

Anzahl der Antworten 2 Antworten
Werde ich durch eine Reihe von Seiten, und ich bin mir nicht sicher, wie viele es sind, aber die aktuelle Seite ist vertreten durch eine einfache Zahl in der url vorhanden sind (z.B. "http://www.website.com/page/1") Ich würde gerne

Scrapy-Shell - Wie ändern USER_AGENT

Anzahl der Antworten 2 Antworten
Ich habe einen voll funktionsfähigen scrapy-Skript zum extrahieren von Daten aus einer website. Während der Einrichtung, die Ziel-site verboten, mich und meine USER_AGENT Informationen. Ich habe nachträglich eine RotateUserAgentMiddleware zum drehen der BENUTZERAGENT zufällig. Dies funktioniert Super.

PYTHON - scrapy startproject Befehl nicht erkannt

Anzahl der Antworten 2 Antworten
UMGEBUNG Windows 7 (64) Python 2.7.3 (32) pip installieren scrapy Habe ich meine Pfade gesetzt C:\Python27;C:\Python27\Scripts Nach der Installation alle Abhängigkeiten libs (lxml, openssl, pywin32, verdreht, zope) nicht mehr ich bekomme Fehler wenn ich pip installieren, scrapy,

unterdrücken Scrapy Artikel gedruckt in den Protokollen nach-pipeline

Anzahl der Antworten 6 Antworten
Ich habe einen scrapy-Projekt, wo das Element, das letztlich geht meiner pipeline ist relativ groß und speichert viele von Metadaten und Inhalten. Alles ist ordnungsgemäß in meinem spider und Rohrleitungen. Die Protokolle sind jedoch der Ausdruck des

PyopenSSL und scrapy Installation schlägt fehl, in Python 27, Win 64 Bit

Anzahl der Antworten 1 Antworten
Mein Paket installieren (mit PIP & Easyinstall) nicht jedes mal wenn ich installieren PyopenSSL und Scrapy auf Python 2.7. OS: Win 8.1 64 Bit. Den Fehler details sind unten: C:\Users\<Benutzername>\AppData\Local\Programs\Common\Microsoft\Visual C++ für Python\9.0\VC\Bin\amd64\cl.exe /c /nologo /Ox /MD

Probleme bei der Installation von libxml2 auf Mac OS X

Anzahl der Antworten 4 Antworten
Ich versuche zu installieren libxml2 auf meinem Mac (OS 10.6.4). Ich bin wirklich versucht, führen Sie einfach einen Scrapy-Skript in Python, der hat von mir verlangt zu installieren, Verdreht, Zope, und jetzt libxml2. Ich habe die neueste

Die Installation von pip mit ArcGIS installiert Python 2.7

Anzahl der Antworten 3 Antworten
Bin ich versucht zu installieren, Scrapy Python 2.7 auf Windows 8.1, und ich verstehe, dass ich muss zuerst pip installiert werden. Da habe ich Python installiert, über ArcGIS 10.2, ich denke, dass ich brauchen, um pip installieren

Scrapy-Crawler in python nicht Folgen, links?

Anzahl der Antworten 1 Antworten
Schrieb ich einen crawler in python mit dem tool scrapy python. Der folgende python-Quelltext: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector #from scrapy.item import Item from a11ypi.items import AYpiItem class AYpiSpider(CrawlSpider):

AttributeError: 'module' Objekt hat kein Attribut 'Spider'

Anzahl der Antworten 3 Antworten
Ich habe gerade angefangen zu lernen, scrapy. Also folgte ich der scrapy-Dokumentation. Ich habe gerade geschrieben, der erste spider erwähnt, dass Website. import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

Scrapy-Shell und Scrapy Splash

Anzahl der Antworten 3 Antworten
Wir haben mit scrapy-splash middleware zu übergeben, der geriebene HTML-Quelltext durch die Splash javascript-engine läuft innerhalb eines docker-container. Wenn wir wollen Spritzer in die Spinne, konfigurieren wir mehrere erforderlichen Projekt-Einstellungen und ergeben eine Request angeben von bestimmten

Nicht bekommen kann einfachsten pipeline-Beispiel funktioniert im scrapy

Anzahl der Antworten 3 Antworten
Dies ist mein simpler code und ich bin nicht immer Sie arbeiten. Ich bin Unterklassen von initspider Dies ist mein code class MytestSpider(InitSpider): name = 'mytest' allowed_domains = ['example.com'] login_page = 'http://www.example.com' start_urls = ["http://www.example.com/ist.php"] def init_request(self):

Ruby alternative zu Scrapy?

Anzahl der Antworten 2 Antworten
Was sind einige Ruby-basierte tools, die mir helfen können erreichen was ähnliches wie Scrapy tut für python? http://doc.scrapy.org/intro/overview.html Möchten Sie vielleicht nur geben, scrapy ein Schuss. Es scheint hervorragende Dokumentation und eine sehr freundliche API. Wenn Sie

Wie, um das setup und starten Sie eine Scrapy spider programmgesteuert (urls und Einstellungen)

Anzahl der Antworten 4 Antworten
Ich habe eine schriftliche Arbeit crawler mit scrapy, ich will jetzt die Kontrolle über eine Django-webapp, das heißt: Satz 1 oder mehrere start_urls Satz 1 oder mehrere allowed_domains Set settings Werte Starten die Spinne Stop /pause /resume

Scrapy crawl alle sitemap links

Anzahl der Antworten 2 Antworten
Will ich kriechen alle er-links in der sitemap.xml von einem festen Standort. Habe ich stieß Scrapy ist SitemapSpider. Bisher habe ich extrahiert alle urls in der sitemap. Jetzt will ich kriechen durch jeden link der sitemap. Jede

scrapy item loader return Liste nicht einen einzigen Wert

Anzahl der Antworten 1 Antworten
Ich bin mit scrapy 0.20. Ich möchte, um das Element zu verwenden loader dies ist mein code: l = XPathItemLoader(item=MyItemClass(), response=response) l.add_value('url', response.url) l.add_xpath('title',"my xpath") l.add_xpath('developer', "my xpath") return l.load_item() Bekam ich das Ergebnis im json-Datei. die

Wie kann ich das schreiben von Daten in text-Datei in python Scrapy

Anzahl der Antworten 1 Antworten
Dies ist mein spider-code class DmozSpider(BaseSpider): 5 name = "dmoz" 6 allowed_domains = ["dmoz.org"] 7 start_urls = [ 8 "file:///home/ubuntu/xxx/test.html", 9 ] 10 def parse(self, response): 11 hxs = HtmlXPathSelector(response) 12 sites = hxs.select("//li") 13 items =

ReactorNotRestartable Fehler in der while-Schleife mit scrapy

Anzahl der Antworten 3 Antworten
Bekomme ich twisted.internet.error.ReactorNotRestartable Fehlermeldung, wenn ich ausführen folgenden code: from time import sleep from scrapy import signals from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from scrapy.xlib.pydispatch import dispatcher result = None def set_result(item): result = item

How to bypass cloudflare bot/ddos-Schutz in Scrapy?

Anzahl der Antworten 2 Antworten
Ich verwendet, um zu kratzen, e-commerce-Webseite gelegentlich, um Produkt-Preise-Informationen. Ich habe nicht verwendet die Spachtel gebaut mit Scrapy in eine Weile, und gestern war versucht, es zu benutzen - ich laufen in ein problem mit dem bot-Schutz.

kratzen Sie die Datei mit html gespeichert auf dem lokalen system

Anzahl der Antworten 5 Antworten
Zum Beispiel hatte ich eine Website "www.example.com" Eigentlich will ich mich kratzen Sie den html-von dieser Website durch die Speicherung auf dem lokalen system. so zum testen habe ich gespeichert, dass die Seite auf meinem desktop als

scrapy python nicht arbeiten - "ImportError: No module named Einstellungen"

Anzahl der Antworten 3 Antworten
scrappy lib in /usr/lib/python2.7/site-packages/scrapy mein Projekt Katalog: .../projects/scrapy .../projects/parser_module ....../projects/parser_module/parser ....../projects/parser_module/parser ........../projects/parser_module/parser/spiders/..... ........../projects/parser_module/parser/<files etc> ....../projects/parser_module/scrapy.cfg Im Verzeichnis .../projects/parser_module/ ich bin set-Befehl scrapy crawl parser und bekommen Ergebnis: Traceback (most recent call last): File "/usr/bin/scrapy", line 4, in

HTTP 403-Antworten bei der Verwendung von Scrapy Python

Anzahl der Antworten 2 Antworten
Ich bin mit Python.org version 2.7 64-bit unter Windows Vista 64-bit. Ich habe getestet, die folgenden Scrapy-code rekursiv kratzen alle Seiten in der site www.whoscored.com für Fußball-Statistiken: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from

scrapy ausführen vom script spider

Anzahl der Antworten 4 Antworten
Möchte ich meinen spider aus einem Skript statt einer scrap crawl Ich diese Seite gefunden http://doc.scrapy.org/en/latest/topics/practices.html aber eigentlich nicht sagen, wo das Skript. jede Hilfe bitte? Vermutlich, setzen Sie den code in das Skript, das Sie verwenden

Immer Fehler: DLL load failed: Das Betriebssystem kann nicht ausführen %1 - Python 2.7; Scrapy-Modul; Import Kryptographie

Anzahl der Antworten 9 Antworten
Kann ich nicht erfolgreich führen Sie den ersten Befehl in der Scrapy-tutorial (http://doc.scrapy.org/en/latest/intro/tutorial.html). Den code kopieren eingefügt, unten ist das Ergebnis (mit der Fehlermeldung am Ende). Python 2.7 installiert ist, und ich folgte den Anweisungen zur installation

Warum nicht meine Scrapy CrawlSpider Regeln funktionieren?

Anzahl der Antworten 1 Antworten
Ich habe es geschafft, code eine sehr einfache crawler mit Scrapy, mit diesen gegebenen Einschränkungen: Store-link alle Infos (z.B.: Anker-text, Seite, Titel), daher die 2 Rückrufe Verwenden CrawlSpider nutzen Regeln, damit keine BaseSpider Es läuft auch gut,

Newbie: Wie überwinden Javascript "onclick" - Taste, um kratzen web-Seite?

Anzahl der Antworten 2 Antworten
Dies ist der link, den ich will, zu kratzen: http://www.prudential.com.hk/PruServlet?module=fund&Zweck=searchHistFund&fundCd=MMFU_U Die "englische Version" - Reiter auf der oberen rechten Ecke, um zu zeigen, der englischen version von der web-Seite. Gibt es einen button, den ich drücken, um

Scrapy - Parsen einer Seite zu extrahieren Elemente - dann Folgen und Shop Artikel-url Inhalt

Anzahl der Antworten 2 Antworten
Ich habe eine Frage, wie dies zu tun, was in scrapy. Ich habe eine Spinne, die krabbelt zur Auflistung der Seiten Elemente. Jedes mal, wenn eine Seite mit der Liste gefunden, mit den Elementen, es gibt die

So senden Sie ein cookie mit scrapy CrawlSpider Anfragen?

Anzahl der Antworten 4 Antworten
Ich versuche diese zu erstellen Reddit scrapper mit Python Scrapy Rahmen. Habe ich die CrawSpider kriechen durch Reddit und sein subreddits. Aber, wenn ich über Seiten, die Inhalte für Erwachsene, fragt die Webseite, für die ein cookie

Versuchen, um Scrapy in ein Projekt zu laufen, Kriechen Befehl

Anzahl der Antworten 2 Antworten
Ich bin neu in Python und Scrapy und ich bin zu Fuß durch die Scrapy tutorial. Ich habe in der Lage zu erstellen, die mein Projekt mit DOS-Oberfläche und der Eingabe: scrapy startproject dmoz Tutorial später bezieht

python-lxml installieren auf mac os 10.10.1

Anzahl der Antworten 2 Antworten
Kaufte ich ein neues macbook und ich bin so neu in mac os. Aber ich lese viel im internet über das installieren von Schrott Habe ich alles, aber ich habe ein problem mit der Installation von lxml

Unsymmetrische Klammer Fehler mit Regex

Anzahl der Antworten 3 Antworten
Ich bin mit dem folgenden regex an, um alle Daten von einer website, die Javascript-Daten Quelle enthalten die folgenden Charakter-Muster [); Den code, den ich verwende, ist dies: regex = r'\[\[.*?\]]);' match2 = re.findall(regex, response.body, re.S) print

Strip \n \t \r scrapy

Anzahl der Antworten 3 Antworten
Ich versuche, Streifen \r \n \t-Zeichen mit einem scrapy spider, machen dann eine json-Datei. Ich habe eine "Beschreibung" Objekt ist voll von neuen Linien, und Sie werden nicht tun, was ich will: passend zu jeder Beschreibung einen