Tag: scrapy-spider

Spinnen sind Klassen, die definieren, wie eine bestimmte Website (oder Gruppe von Seiten) wird geschabt, darunter, wie die kriechen (ie. links Folgen) und, wie zu extrahieren strukturierter Daten aus Ihren Seiten (dh. Schaben Elemente).

Wie Sie kratzen Sie alle Inhalte von jedem link mit scrapy?

Anzahl der Antworten 2 Antworten
Ich bin neu mit scrapy ich möchte alle extrahieren Sie den Inhalt jedes werben von dieser website. Also ich habe Folgendes versucht: from scrapy.spiders import Spider from craigslist_sample.items import CraigslistSampleItem from scrapy.selector import Selector class MySpider(Spider): name

AttributeError: 'module' Objekt hat kein Attribut 'Spider'

Anzahl der Antworten 3 Antworten
Ich habe gerade angefangen zu lernen, scrapy. Also folgte ich der scrapy-Dokumentation. Ich habe gerade geschrieben, der erste spider erwähnt, dass Website. import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

Scrapy: Verwendung von Gegenständen in spider und senden von Elementen zu den pipelines?

Anzahl der Antworten 1 Antworten
Ich bin neu scrapy und meine Aufgabe ist einfach: E-commerce-website: Crawlen aller Seiten suchen Sie nach Produkten Seite Wenn die URL zeigen Sie auf eine Produkt-Seite, Erstellen Sie ein Element Prozess das Element, um es zu speichern

ModuleNotFoundError: Kein Modul mit dem Namen 'Scrapy'

Anzahl der Antworten 1 Antworten
import Scrapy class NgaSpider(Scrapy.Spider): name = "NgaSpider" host = "http://bbs.ngacn.cc/" start_urls = [ "http://bbs.ngacn.cc/thread.php?fid=406", ] def parse(self, response): print ("response.body") Fehler: ModuleNotFoundError: Kein Modul mit dem Namen 'Scrapy' Was Los ist, um dieses Problem zu beheben? Welches

Scrapy, Folgen nur internen URLS, die aber alle extrahieren links gefunden

Anzahl der Antworten 3 Antworten
Möchte ich, um alle externen links, die von einer bestimmten website mit Scrapy. Mit dem folgenden code die Spinne krabbelt externe links: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor from myproject.items import someItem class someSpider(CrawlSpider):

Scrapy crawl mit der nächsten Seite

Anzahl der Antworten 1 Antworten
Ich habe diesen code für scrapy framework: # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.spiders import Rule from scrapy.linkextractors import LinkExtractor from lxml import html class Scrapy1Spider(scrapy.Spider): name = "scrapy1" allowed_domains = ["sfbay.craigslist.org"] start_urls = (

ImportError: No module named win32api während der Verwendung von Scrapy

Anzahl der Antworten 2 Antworten
Ich bin ein neuer Lernender von Scrapy. Ich installierte python 2.7 und alle anderen Motoren benötigt. Dann habe ich versucht, den Aufbau einer Scrapy Projekt nach dem tutorial http://doc.scrapy.org/en/latest/intro/tutorial.html. In der Krabbelstube Schritt, nachdem ich tippte scrapy

Scrapy: Extrahieren Sie links und text

Anzahl der Antworten 2 Antworten
Ich bin neu scrapy und ich bin versucht zu kratzen, die Ikea website Webseite. Der basic-Seite mit der Liste der Standorte als gegeben hier. Meine items.py Datei wird unten gegeben: import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field()

Export csv-Datei von scrapy (nicht via command-line)

Anzahl der Antworten 2 Antworten
Ich erfolgreich versucht zu exportieren, die meine Artikel in eine csv-Datei von der Befehlszeile aus wie: scrapy crawl spiderName -o filename.csv Meine Frage ist: Was ist die einfachste Lösung, das gleiche zu tun in den code? Ich

scrapy von Skript-Ausgabe in json

Anzahl der Antworten 3 Antworten
Ich bin mit scrapy in einem python-Skript def setup_crawler(domain): dispatcher.connect(stop_reactor, signal=signals.spider_closed) spider = ArgosSpider(domain=domain) settings = get_project_settings() crawler = Crawler(settings) crawler.configure() crawler.crawl(spider) crawler.start() reactor.run() erfolgreich ausgeführt und beendet, aber wo ist das Ergebnis ? Ich möchte das

Scrapy: AttributeError: 'list' - Objekt hat kein Attribut 'iteritems'

Anzahl der Antworten 2 Antworten
Dies ist meine erste Frage auf stack overflow. Vor kurzem habe ich nutzen wollen linked-in-Spachtelso dass ich heruntergeladen und weisen "scrapy crawl linkedin.com" und bekomme die folgende Fehlermeldung. Für Ihre Informationen, ich benutze anaconda 2.3.0 und 2.7.11