Wie Sie kratzen Sie alle Inhalte von jedem link mit scrapy?

Ich bin neu mit scrapy ich möchte alle extrahieren Sie den Inhalt jedes werben von dieser website. Also ich habe Folgendes versucht:

from scrapy.spiders import Spider
from craigslist_sample.items import CraigslistSampleItem

from scrapy.selector import Selector
class MySpider(Spider):
    name = "craig"
    allowed_domains = ["craigslist.org"]
    start_urls = ["http://sfbay.craigslist.org/search/npo"]

    def parse(self, response):
        links = response.selector.xpath(".//*[@id='sortable-results']//ul//li//p")
        for link in links:
            content = link.xpath(".//*[@id='titletextonly']").extract()
            title = link.xpath("a/@href").extract()
            print(title,content)

Elemente:

# Define here the models for your scraped items

from scrapy.item import Item, Field

class CraigslistSampleItem(Item):
    title = Field()
    link = Field()

Jedoch, wenn ich den crawler habe ich nichts:

$ scrapy crawl --nolog craig
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]

So, meine Frage ist: Wie kann ich zu Fuss über jede url, die man in jeden link und Crawlen den Inhalt und den Titel?, und was ist der beste Weg, dies zu tun?.

Wie kamen Sie mit dem XPath-Ausdrücken? .//*[@id='sortable-results']//ul//li//p ok aussieht, sollte es geben Ihnen die <p class="result-info"> auf der Seite. Aber in diesen <p class="result-info"> ich nicht sehen können, etwas passendes .//*[@id='titletextonly']. Sie können testen Sie Ihre XPaths mit scrapy shell
Beispiele von scrapy Nutzung oder der XPath? Ich glaube docs.scrapy.org/en/latest/intro/... ist ähnlich zu den use-case.
Jede website ist anders, und die Daten, die Sie nach Ihrem Anwendungsfall. Vielleicht möchten Sie auch einen Kurs über XPath und diesem blog-post dienen kann, als ein gutes intro.
Ich werde akzeptieren, dass die Frage, wer mehr haben upvotes, beide waren Super.

InformationsquelleAutor student | 2016-11-08

Wenn Sie kriechen wollen, möchten Sie vielleicht einen Blick auf CrawlSpider.

Gerüst zu einer grundlegenden scrapy Projekt, das Sie verwenden können, die Befehl:

scrapy startproject craig

Dann fügen Sie die Spinne und Elemente:

craig/spiders/spider.py

from scrapy.spiders import CrawlSpider, Rule
from craig.items import CraigslistSampleItem
from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor
from scrapy.selector import Selector

class MySpider(CrawlSpider):
    name = "craig"
    allowed_domains = ["craigslist.org"]
    start_urls = ["http://sfbay.craigslist.org/search/npo"]

    rules = (

        Rule(LxmlLinkExtractor(
            restrict_xpaths=(".//*[@id='sortable-results']//li//a")),
            follow=False,
            callback='parse_item'
        ),

      )

    def parse_item(self, response):

        sel = Selector(response)

        item = CraigslistSampleItem()

        item['title'] = sel.xpath('//*[@id="titletextonly"]').extract_first()
        item['body'] = sel.xpath('//*[@id="postingbody"]').extract_first()
        item['link'] = response.url

        yield item

craig/items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

from scrapy.item import Item, Field

class CraigslistSampleItem(Item):
    title = Field()
    body = Field()
    link = Field()

craig/settings.py

# -*- coding: utf-8 -*-

BOT_NAME = 'craig'

SPIDER_MODULES = ['craig.spiders']
NEWSPIDER_MODULE = 'craig.spiders'

ITEM_PIPELINES = {
   'craig.pipelines.CraigPipeline': 300,
}

craig/pipelines.py

from scrapy import signals
from scrapy.xlib.pydispatch import dispatcher
from scrapy.exporters import CsvItemExporter

class CraigPipeline(object):

    def __init__(self):
        dispatcher.connect(self.spider_opened, signals.spider_opened)
        dispatcher.connect(self.spider_closed, signals.spider_closed)
        self.files = {}

    def spider_opened(self, spider):
        file = open('%s_ads.csv' % spider.name, 'w+b')
        self.files[spider] = file
        self.exporter = CsvItemExporter(file)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        file = self.files.pop(spider)
        file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

Führen Sie die Spinne durch ausführen der Befehl:

scrapy runspider scraper/spiders/spider.py

Aus der Wurzel des Projekts.

Es sollte eine craig_ads.csv im Stammverzeichnis Ihres Projekts.

Vielen Dank für die Hilfe Ivan. In der Tat, es wäre hilfreich für die community ein weiteres Beispiel dafür, wie man es über eine pipeline, könnten Sie uns ein Beispiel, wie es zu tun?
Sicher!!! Was ist das format benötigen Sie den Ausgang? CSV? JSON? Eine Excel-Datei?
Sagen wir mal ich brauche eine CSV
Auch habe ich versucht zu scrapy crawl myspider -o items.csv und die Datei ist leer... keine Idee warum dies passiert ist?
Es ist, weil wir nicht nachgeben werden die Ergebnisse am Ende der parse_item() (wir waren nur zu drucken die Artikel für den sake des Beispiels). Ich fügte hinzu, die yield, und auch Hinzugefügt, die pipeline an export - CSV - Dateien. Bitte, lassen Sie mich wissen, ob das hilft.
Ich runned es wie: scrapy runspider craig/spiders/test.py und ich habe nicht die Datei, wieso ist das so?.
Könnte für ein paar von Gründen. Hast du das update craig/settings.py wie angegeben? Nach dem ausführen der Spinne, die Sie normalerweise bekommen Sie einen kleinen Bericht. Auf diesen Bericht, haben Sie eine Linie, die sagt 'item_scraped_count': 101,? Haben Sie sich für die Datei auf dem gleichen Pfad, wo haben Sie standardmäßig die Datei scrapy.cfg?
Ohhh!... sicher!!! lassen Sie mich überprüfen
Lassen Sie uns weiter, diese Diskussion im chat.

InformationsquelleAutor Ivan Chaer

4

Ich versuche, Ihre Frage zu beantworten.

Erste von allen, weil von Ihr falscher XPath-Abfrage, haben Sie leere Ergebnisse. Von einem XPath - ".//*[@id='sortable-results']//ul//li//p" Sie sich relevante <p> Knoten korrekt, aber ich weiß nicht, wie Sie Ihre query-Ausdruck. Allerdings habe ich keine Idee von den folgenden XPath-Ausdruck ".//*[@id='titletextonly']" und "a/@href" konnten Sie nicht finden, link und Titel wie erwartet. Vielleicht dein Sinn ist zu, suchen Sie den text, der Titel und der Link der Titel. Wenn ja, ich glaube, Sie müssen lernen, Xpath, und beginnen Sie bitte mit HTML-DOM.

Ich will dich anweisen, wie zu tun XPath-Abfrage, da es viele Ressourcen online. Erwähnen möchte ich einige Funktionen von Scrapy XPath-Selektor:
1. Scrapy XPath-Selektor ist eine verbesserte wrapper der standard XPath-Abfrage.
In standard-XPath-Abfrage, es gibt ein array von DOM-Knoten abgefragt. Sie können die open-development-Modus in Ihrem browser(F12), verwenden Sie console-Befehl $x(x_exp) zu testen. Ich sehr empfehlen, die testen Sie Ihr XPath-Ausdruck, durch diese Weise. Es wird Ihnen sofortige Ergebnisse und eine Menge Zeit sparen. Wenn Sie Zeit haben, vertraut sein mit web-Entwicklungs-tools in Ihrem browser, die Sie haben, werden schnell verstehen, web-Seiten-Struktur und suchen Sie den Eintrag, den Sie suchen.

Während, Scrapy response.xpath(x_exp) gibt ein array von Selector entsprechenden Objekte zu tatsächlichen XPath-Abfrage, die eigentlich eine SelectorList Objekt. Dies bedeutet XPath-Ergebnisse ist reprented von SelectorsList. Und beide Selector und SelectorList - Klasse stellt einige nützliche Funktionen zur Bedienung die Ergebnisse:
- extract, zurückgeben einer Liste von serialisierte Dokument-nodes (unicode strings)
- extract_first, return Skalar, first des extract Ergebnisse
- re - , Rückgabe einer Liste re des extract Ergebnisse
- re_first, return Skalar, first des re Ergebnisse.
Diese Funktionen machen Ihre Programmierung viel bequemer. Ein Beispiel dafür ist, dass Sie rufen xpath Funktion direkt auf SelectorList Objekt. Wenn Sie versucht lxml vor, Sie würden sehen, dass dies ist super nützlich: wenn Sie uns anrufen wollen xpath Funktion auf die Ergebnisse einer früheren xpath Ergebnisse in lxml haben Sie zur Iteration über die früheren Ergebnisse. Ein weiteres Beispiel ist, dass, wenn Sie definitiv wissen, dass es höchstens ein element in dieser Liste können Sie mit extract_first einen skalaren Wert, anstatt mit list-index-Methode (z.B. rlist[0]) die Ursache wäre aus der index-Ausnahme aus, wenn kein element zugeordnet. Denken Sie daran, dass es immer Ausnahmen, wenn Sie analysieren die web-Seite, seien Sie vorsichtig und robuster Ihrer Programmierung.
1. Absolute XPath-vs. relative XPath
Beachten Sie, dass, wenn Sie nisten XPathSelectors, und verwenden Sie einen XPath, beginnt mit /, dass XPath wird absolut zum document und nicht in Bezug auf die XPathSelector Sie fordern es von sich.

Wenn Sie das tun Betrieb node.xpath(x_expr), wenn x_expr beginnt mit /, es ist eine absolute Abfrage XPath-Suche von root; else if x_expr beginnt mit ., ist es eine relativ Abfrage. Dies ist auch darauf hingewiesen, in Normen 2.5 Abgekürzte Syntax

. wählt den Kontextknoten

.//para selektiert die para element die Nachkommen des Kontextknotens

.. - wählt die parent des Kontext-node

../@lang wählt das Attribut lang des parent des Kontext-node
1. Wie man die nächste Seite und am Ende des folgenden.
Für Ihre Anwendung ist, müssen Sie wahrscheinlich nach der nächsten Seite. Hier, auf der nächsten Seite Knoten ist leicht zu finden-es gibt weiter-Tasten. Allerdings müssen Sie auch aufpassen, die Zeit zu stoppen, folgende. Achten Sie auf Ihre URL-query-parameter sagen Sie dem URL-Muster Ihrer Anwendung. Hier, um zu bestimmen, Wann zu stoppen, Folgen Sie der nächsten Seite können Sie vergleichen Sie aktuelle Artikel-Reihe mit der Gesamtanzahl der Elemente.

Neu Bearbeitet

War ich ein wenig verwirrt mit der Bedeutung von Inhalt des Links. Jetzt habe ich es, dass @student verkriechen wollte, die Verbindung zu extrahieren, die AD-Inhalte als auch. Das folgende ist eine Lösung.
1. Anfrage senden und befestigen Sie den parser
Wie Sie vielleicht bemerken, dass ich mit Scrapy Request Klasse zu Folgen auf der nächsten Seite. Tatsächlich, die Leistung von Anfrage - Klasse ist darüber hinaus, dass-Sie können anfügen die gewünschte Funktion parse für jede Anforderung durch Einstellung des Parameters callback.

callback (callable) – die Funktion, die aufgerufen wird, mit der Antwort dieser Anfrage (sobald Ihr heruntergeladen) als ersten parameter. Weitere Informationen finden Sie unter Übergeben von zusätzlichen Daten zu callback-Funktionen unten. Wenn eine Anfrage nicht angeben, einen Rückruf, der spider parse () - Methode verwendet werden. Beachten Sie, dass, wenn Ausnahmen ausgelöst werden, die während der Verarbeitung, errback aufgerufen wird, statt.

In Schritt 3 habe ich nicht gesetzt callback beim senden der nächsten Seite-Anfragen, diese Anfrage umgegangen werden soll, die standardmäßig parse Funktion. Jetzt kommt zu der angegebenen AD-Seite, eine andere Seite als die vorherigen AD-Listen-Seite. Somit müssen wir definieren eine neue Seite parser-Funktion, sagen wir mal parse_ad, wenn wir senden jede ANZEIGE Seite verlangen, bringen Sie diese parse_ad - Funktion, mit der Anfragen.

Weiter geht es mit dem überarbeiteten Beispiel-code, das funktioniert für mich:

items.py
```
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ScrapydemoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()


class AdItem(scrapy.Item):
    title = scrapy.Field()
    description = scrapy.Field()
```
Die Spinne
```
# -*- coding: utf-8 -*-
from scrapy.spiders import Spider
from scrapy.http import Request
from scrapydemo.items import ScrapydemoItem
from scrapydemo.items import AdItem
try:
    from urllib.parse import urljoin
except ImportError:
    from urlparse import urljoin


class MySpider(Spider):
    name = "demo"
    allowed_domains = ["craigslist.org"]
    start_urls = ["http://sfbay.craigslist.org/search/npo"]

    def parse(self, response):
        # locate list of each item
        s_links = response.xpath("//*[@id='sortable-results']/ul/li")
        # locate next page and extract it
        next_page = response.xpath(
            '//a[@title="next page"]/@href').extract_first()
        next_page = urljoin(response.url, next_page)
        to = response.xpath(
            '//span[@class="rangeTo"]/text()').extract_first()
        total = response.xpath(
            '//span[@class="totalcount"]/text()').extract_first()
        # test end of following
        if int(to) < int(total):
            # important, send request of next page
            # default parsing function is 'parse'
            yield Request(next_page)

        for s_link in s_links:
            # locate and extract
            title = s_link.xpath("./p/a/text()").extract_first().strip()
            link = s_link.xpath("./p/a/@href").extract_first()
            link = urljoin(response.url, link)
            if title is None or link is None:
                print('Warning: no title or link found: %s', response.url)
            else:
                yield ScrapydemoItem(title=title, link=link)
                # important, send request of ad page
                # parsing function is 'parse_ad'
                yield Request(link, callback=self.parse_ad)

    def parse_ad(self, response):
        ad_title = response.xpath(
            '//span[@id="titletextonly"]/text()').extract_first().strip()
        ad_description = ''.join(response.xpath(
            '//section[@id="postingbody"]//text()').extract())
        if ad_title is not None and ad_description is not None:
            yield AdItem(title=ad_title, description=ad_description)
        else:
            print('Waring: no title or description found %s', response.url)
```
Key-Note -
- Zwei parse-Funktion parse für die Anforderungen der AD-Liste-Seite und parse_ad für die Anforderung der angegebenen AD-Seite.
- Zu extrahieren Inhalt der ANZEIGE zu posten, müssen Sie einige tricks. Sehen Wie kann ich mich auf den plain-text aus einer Webseite mit Scrapy
Einen Schnappschuss der Ausgabe:
```
2016-11-10 21:25:14 [scrapy] DEBUG: Scraped from <200 http://sfbay.craigslist.org/eby/npo/5869108363.html>
{'description': '\n'
                '        \n'
                '            QR Code Link to This Post\n'
                '            \n'
                '        \n'
                'Agency History:\n' ........
 'title': 'Staff Accountant'}
2016-11-10 21:25:14 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 39259,
 'downloader/request_count': 117,
 'downloader/request_method_count/GET': 117,
 'downloader/response_bytes': 711320,
 'downloader/response_count': 117,
 'downloader/response_status_count/200': 117,
 'finish_reason': 'shutdown',
 'finish_time': datetime.datetime(2016, 11, 11, 2, 25, 14, 878628),
 'item_scraped_count': 314,
 'log_count/DEBUG': 432,
 'log_count/INFO': 8,
 'request_depth_max': 2,
 'response_received_count': 117,
 'scheduler/dequeued': 116,
 'scheduler/dequeued/memory': 116,
 'scheduler/enqueued': 203,
 'scheduler/enqueued/memory': 203,
 'start_time': datetime.datetime(2016, 11, 11, 2, 24, 59, 242456)}
2016-11-10 21:25:14 [scrapy] INFO: Spider closed (shutdown)
```
Dank. Hoffe, dass dies hilfreich wäre und Spaß haben.
- Vielen Dank für die Hilfe. Was ich noch nicht verstehe ist, wie extrahieren Sie die Inhalte von jedem link.
- was meinst du mit extrahieren von Inhalt oder ein link. Möchten Sie go, um das link-und crawl-Inhalte?
- der vollständige Inhalt der Erklärung (D. H. den text und die Beschreibung der Werbung )
- Der gesamte Inhalt der einzelnen link.
- Alle Recht. Nun, ich verstehe, Sie wollen, um die Werbe-Seite. Es ist nicht schwierig, einfach Anfrage senden der url, die Sie bereits zu extrahieren und fügen Sie eine neue parse für diese Anfrage. Werde ich ändern mein code. Warten und sehen.
- Ich aktualisierte die Antwort. Überprüfen, um zu sehen, ob die Arbeit für Sie.
- Lassen Sie uns weiter, diese Diskussion im chat.
- Nur die Antwort akzeptieren, könnten Sie das items.py?, Ich bekomme einen nicht aufgelösten Verweis-Fehler, und dies zum Vorteil der Gemeinschaft.
- Natürlich. Items.py ist ganz einfach. Ich fügte hinzu, für Sie.
- Danke, wenn ich scrapy crawl demo -o file.csv ich nicht in eine csv-Datei die Werbe-Inhalte... warum?
- Sie müssen Ihre eigenen handler-Funktion in pipelines.py zum speichern der Elemente.
InformationsquelleAutor rojeeer

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.