kratzen Sie die Datei mit html gespeichert auf dem lokalen system

Zum Beispiel hatte ich eine Website "www.example.com"
Eigentlich will ich mich kratzen Sie den html-von dieser Website durch die Speicherung auf dem lokalen system.
so zum testen habe ich gespeichert, dass die Seite auf meinem desktop als example.html

Nun ich hatte geschrieben das spider-code für diese wie unten

class ExampleSpider(BaseSpider):
   name = "example"
   start_urls = ["example.html"]

   def parse(self, response):
       print response
       hxs = HtmlXPathSelector(response)

Aber wenn ich den oben stehenden code ausführen, erhalte ich diese Fehlermeldung, wie unten

ValueError: Missing scheme in request url: example.html

Endlich meine intension ist es, zu kratzen, die example.html - Datei besteht aus www.example.com html-code, gespeichert in meinem lokalen system

Kann irgend jemand mir empfehlen, wie zu ordnen, dass example.html Datei in start_urls

Vielen Dank im Voraus

  • Sie könnten aktivieren Sie den HTTP-Cache der middleware zu speichern auf Ihrer Festplatte. Grundsätzlich können Sie die Wiedergabe einer früheren kratzen ausführen, je nach dem timeout, die Sie für die HTTP-Cache-middleware.
  • Trekhaak: vielen Dank für u r die Antwort, kann u geben Sie mir ein Beispiel, so dass seine weitere hilfreiche
  • ich bin mir nicht sicher, aber Sie können versuchen: start_urls = ["file:///home/local/cname/username/project/scrapy_project_modules/example/exampl‌​e.html"]
  • ich schon genau das gleiche und bekam die Antwort
Schreibe einen Kommentar