kratzen Sie die Datei mit html gespeichert auf dem lokalen system

Zum Beispiel hatte ich eine Website "www.example.com"
Eigentlich will ich mich kratzen Sie den html-von dieser Website durch die Speicherung auf dem lokalen system.
so zum testen habe ich gespeichert, dass die Seite auf meinem desktop als example.html

Nun ich hatte geschrieben das spider-code für diese wie unten

class ExampleSpider(BaseSpider):
   name = "example"
   start_urls = ["example.html"]

   def parse(self, response):
       print response
       hxs = HtmlXPathSelector(response)

Aber wenn ich den oben stehenden code ausführen, erhalte ich diese Fehlermeldung, wie unten

ValueError: Missing scheme in request url: example.html

Endlich meine intension ist es, zu kratzen, die example.html - Datei besteht aus www.example.com html-code, gespeichert in meinem lokalen system

Kann irgend jemand mir empfehlen, wie zu ordnen, dass example.html Datei in start_urls

Vielen Dank im Voraus

Sie könnten aktivieren Sie den HTTP-Cache der middleware zu speichern auf Ihrer Festplatte. Grundsätzlich können Sie die Wiedergabe einer früheren kratzen ausführen, je nach dem timeout, die Sie für die HTTP-Cache-middleware.
Trekhaak: vielen Dank für u r die Antwort, kann u geben Sie mir ein Beispiel, so dass seine weitere hilfreiche
ich bin mir nicht sicher, aber Sie können versuchen: start_urls = ["file:///home/local/cname/username/project/scrapy_project_modules/example/exampl‌e.html"]
ich schon genau das gleiche und bekam die Antwort

InformationsquelleAutor Shiva Krishna Bavandla | 2012-06-05

python scrapy

22

Den Sie Crawlen können Sie eine lokale Datei über eine url in der folgenden form:
```
 file:///127.0.0.1/path/to/file.html
```
Es nicht erforderlich, einen http-server auf Ihrem Rechner installiert sein.
- es funktioniert nicht, aber file:///path/to/file.html - tut
- Sie brauchen nicht die 127.0.0.1 es sei denn, Sie sind servieren Sie die Datei über http, die dann benötigt http://127.0.0.1/... statt file:///...
InformationsquelleAutor iodbh
9

Können Sie die HTTPCacheMiddleware, die Ihnen die Fähigkeit der Spinne führen Sie aus dem cache. Der doc für die HTTPCacheMiddleware Einstellungen befinden sich hier.

Grundsätzlich hinzufügen die folgenden Einstellungen, um Ihre settings.py wird es funktionieren:
```
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0 # Set to 0 to never expire
```
Diese jedoch benötigt, um eine erste Spinne über das web ausgeführt werden, um den cache füllen.

InformationsquelleAutor Sjaak Trekhaak

In scrapy, können Sie kratzen die lokale Datei mit:

class ExampleSpider(BaseSpider):
   name = "example"
   start_urls = ["file:///path_of_directory/example.html"]

   def parse(self, response):
       print response
       hxs = HtmlXPathSelector(response)

Ich schlage vor, Sie überprüfen Sie es mit scrapy shell 'file:///path_of_directory/example.html'

InformationsquelleAutor Gautam Kumar

0
```
scrapy shell "file:E:\folder\to\your\script\Scrapy\teste1\teste1.html"
```
dieser funktioniert bei mir heute auf Windows 10.
Ich habe um den vollständigen Pfad ohne"////.

InformationsquelleAutor Rhuan Barros
-5

Wenn Sie view source code von scrapy Anfrage zum Beispiel github . Können Sie verstehen, was scrapy senden Anfrage an den http-server und erhalten benötigte Seite in der Antwort vom server. Ihr Dateisystem ist kein http-server. Für Testzwecke mit scrapy müssen Sie setup http-server. Und dann kann man zuordnen von urls zu scrapy wie
```
http://127.0.0.1/example.html
```
- Mit file:///path/to/file.html funktioniert wie von Scrapy 1.5.0
- Können Sie 'Datei::///' - schema in scrapy stattdessen mit einem anderen http-server. Ehrlich gesagt, mit web-server nicht eine gute Praxis.
InformationsquelleAutor Denis

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.