Tag: scrapy-spider
Spinnen sind Klassen, die definieren, wie eine bestimmte Website (oder Gruppe von Seiten) wird geschabt, darunter, wie die kriechen (ie. links Folgen) und, wie zu extrahieren strukturierter Daten aus Ihren Seiten (dh. Schaben Elemente).
2
Antworten
Ich bin neu mit scrapy ich möchte alle extrahieren Sie den Inhalt jedes werben von dieser website. Also ich habe Folgendes versucht: from scrapy.spiders import Spider from craigslist_sample.items import CraigslistSampleItem from scrapy.selector import Selector class MySpider(Spider): name
3
Antworten
Ich habe gerade angefangen zu lernen, scrapy. Also folgte ich der scrapy-Dokumentation. Ich habe gerade geschrieben, der erste spider erwähnt, dass Website. import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
1
Antworten
Ich bin neu scrapy und meine Aufgabe ist einfach: E-commerce-website: Crawlen aller Seiten suchen Sie nach Produkten Seite Wenn die URL zeigen Sie auf eine Produkt-Seite, Erstellen Sie ein Element Prozess das Element, um es zu speichern
1
Antworten
import Scrapy class NgaSpider(Scrapy.Spider): name = "NgaSpider" host = "http://bbs.ngacn.cc/" start_urls = [ "http://bbs.ngacn.cc/thread.php?fid=406", ] def parse(self, response): print ("response.body") Fehler: ModuleNotFoundError: Kein Modul mit dem Namen 'Scrapy' Was Los ist, um dieses Problem zu beheben? Welches
3
Antworten
Möchte ich, um alle externen links, die von einer bestimmten website mit Scrapy. Mit dem folgenden code die Spinne krabbelt externe links: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor from myproject.items import someItem class someSpider(CrawlSpider):
1
Antworten
Ich habe diesen code für scrapy framework: # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.spiders import Rule from scrapy.linkextractors import LinkExtractor from lxml import html class Scrapy1Spider(scrapy.Spider): name = "scrapy1" allowed_domains = ["sfbay.craigslist.org"] start_urls = (
2
Antworten
Ich bin ein neuer Lernender von Scrapy. Ich installierte python 2.7 und alle anderen Motoren benötigt. Dann habe ich versucht, den Aufbau einer Scrapy Projekt nach dem tutorial http://doc.scrapy.org/en/latest/intro/tutorial.html. In der Krabbelstube Schritt, nachdem ich tippte scrapy
2
Antworten
Ich bin neu scrapy und ich bin versucht zu kratzen, die Ikea website Webseite. Der basic-Seite mit der Liste der Standorte als gegeben hier. Meine items.py Datei wird unten gegeben: import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field()
2
Antworten
Ich erfolgreich versucht zu exportieren, die meine Artikel in eine csv-Datei von der Befehlszeile aus wie: scrapy crawl spiderName -o filename.csv Meine Frage ist: Was ist die einfachste Lösung, das gleiche zu tun in den code? Ich
3
Antworten
Ich bin mit scrapy in einem python-Skript def setup_crawler(domain): dispatcher.connect(stop_reactor, signal=signals.spider_closed) spider = ArgosSpider(domain=domain) settings = get_project_settings() crawler = Crawler(settings) crawler.configure() crawler.crawl(spider) crawler.start() reactor.run() erfolgreich ausgeführt und beendet, aber wo ist das Ergebnis ? Ich möchte das
2
Antworten
Dies ist meine erste Frage auf stack overflow. Vor kurzem habe ich nutzen wollen linked-in-Spachtelso dass ich heruntergeladen und weisen "scrapy crawl linkedin.com" und bekomme die folgende Fehlermeldung. Für Ihre Informationen, ich benutze anaconda 2.3.0 und 2.7.11