Scrapy, Folgen nur internen URLS, die aber alle extrahieren links gefunden

Möchte ich, um alle externen links, die von einer bestimmten website mit Scrapy. Mit dem folgenden code die Spinne krabbelt externe links:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from myproject.items import someItem

class someSpider(CrawlSpider):
  name = 'crawltest'
  allowed_domains = ['someurl.com']
  start_urls = ['http://www.someurl.com/']

  rules = (Rule (LinkExtractor(), callback="parse_obj", follow=True),
  )

  def parse_obj(self,response):
    item = someItem()
    item['url'] = response.url
    return item

Was bin ich? Nicht "allowed_domains" verhindern, dass die externen links gecrawlt werden? Wenn ich "allow_domains" für LinkExtractor es nicht extrahieren Sie die externen links. Nur zur Klarstellung: ich wan ' T crawl-interne links, aber extrahieren externer links. Jede Hilfe appriciated!

Wenn ich Sie aktivieren die OffsiteMiddleware die links nicht gecrawlt, aber auch nicht extrahiert. Zumindest kann ich dann sehen "Gefiltert externe Anfrage 'www.externaldomain'. Sicher bin ich etwas fehlt hier trivial?
nur um zu verstehen: wollen Sie die Liste aller externen links für eine bestimmte website ?
Ja, dass ist richtig!!!!

InformationsquelleAutor sboss | 2015-01-15

Können Sie auch die link-Extraktor ziehen Sie alle verbindungen, wenn man einmal Parsen auf jeder Seite.

Den link extractor filtert die links für Sie. In diesem Beispiel wird der link extractor zu leugnen, links in der domain erlaubt, so wird es nur noch außen links.

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LxmlLinkExtractor
from myproject.items import someItem

class someSpider(CrawlSpider):
  name = 'crawltest'
  allowed_domains = ['someurl.com']
  start_urls = ['http://www.someurl.com/']

  rules = (Rule(LxmlLinkExtractor(allow=()), callback='parse_obj', follow=True),)


  def parse_obj(self,response):
    for link in LxmlLinkExtractor(allow=(),deny = self.allowed_domains).extract_links(response):
        item = someItem()
        item['url'] = link.url

InformationsquelleAutor 12Ryan12

Einen aktualisierten code, basierend auf 12Ryan12 Antwort,

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor
from scrapy.item import Item, Field

class MyItem(Item):
    url= Field()


class someSpider(CrawlSpider):
    name = 'crawltest'
    allowed_domains = ['someurl.com']
    start_urls = ['http://www.someurl.com/']
    rules = (Rule(LxmlLinkExtractor(allow=()), callback='parse_obj', follow=True),)

    def parse_obj(self,response):
        item = MyItem()
        item['url'] = []
        for link in LxmlLinkExtractor(allow=(),deny = self.allowed_domains).extract_links(response):
            item['url'].append(link.url)
        return item

InformationsquelleAutor Ohad Zadok

Eine Lösung wäre, stellen Sie die Nutzung ein process_link Funktion in der SgmlLinkExtractor
Dokumentation hier http://doc.scrapy.org/en/latest/topics/link-extractors.html

class testSpider(CrawlSpider):
    name = "test"
    bot_name = 'test'
    allowed_domains = ["news.google.com"]
    start_urls = ["https://news.google.com/"]
    rules = (
    Rule(SgmlLinkExtractor(allow_domains=()), callback='parse_items',process_links="filter_links",follow= True) ,
     )

    def filter_links(self, links):
        for link in links:
            if self.allowed_domains[0] not in link.url:
                print link.url

        return links

    def parse_items(self, response):
        ### ...

Ich habe bemerkt, dass Sie akzeptiert und nach herabgestuft meiner vorgeschlagenen Lösung. Der code funktioniert Prima, haben Sie bemerkt, jedes andere Thema ?
Hi aberna, sorry für die Herabstufung. Ich fand 12Ryan12:s Antwort mehr elegant, wie es mir ermöglicht mit dem eingebauten doppelten Filter etc. Ich appriciate die Antwort aber!

InformationsquelleAutor aberna

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.