vorbei an Selen Antwort-url zu scrapy

Ich Lerne Python und versuche, mich zu kratzen, diese Seite für einen bestimmten Wert auf das dropdown-Menü. Nach, dass ich auf jedes Element, auf das angeführte Tabelle abrufen, die spezifische Informationen. Ich bin in der Lage, um das Element auszuwählen, und rufen Sie die Informationen auf dem webdriver. Aber ich weiß nicht, wie das passieren der Antwort die url zu der crawlspider.

driver = webdriver.Firefox()
driver.get('http://www.cppcc.gov.cn/CMS/icms/project1/cppcc/wylibary/wjWeiYuanList.jsp')
more_btn = WebDriverWait(driver, 20).until(
     EC.visibility_of_element_located((By.ID, '_button_select'))
            )  
more_btn.click()

## select specific value from the dropdown
driver.find_element_by_css_selector("select#tabJcwyxt_jiebie >     option[value='teyaoxgrs']").click()
driver.find_element_by_css_selector("select#tabJcwyxt_jieci > option[value='d11jie']").click()
search2 = driver.find_element_by_class_name('input_a2')
search2.click()
time.sleep(5)

## convert html to "nice format"
text_html=driver.page_source.encode('utf-8')
html_str=str(text_html)

## this is a hack that initiates a "TextResponse" object (taken from the Scrapy module)
resp_for_scrapy=TextResponse('none',200,{},html_str,[],None)

## convert html to "nice format"
text_html=driver.page_source.encode('utf-8')
html_str=str(text_html)

resp_for_scrapy=TextResponse('none',200,{},html_str,[],None)

Also das ist, wo ich geblieben bin. Ich war in der Lage, Abfrage mit dem oben genannten code. Aber Wie kann ich pass resp_for_scrapy der crawlspider? Ich legte resp_for_scrapy statt Element aber das hat nicht funktioniert.

## spider 
class ProfileSpider(CrawlSpider):
name = 'pccprofile2'
allowed_domains = ['cppcc.gov.cn']
start_urls = ['http://www.cppcc.gov.cn/CMS/icms/project1/cppcc/wylibary/wjWeiYuanList.jsp']    

def parse(self, resp_for_scrapy):

    hxs = HtmlXPathSelector(resp_for_scrapy)
    for post in resp_for_scrapy.xpath('//div[@class="table"]//ul//li'):
        items = []
        item = Ppcprofile2Item()
        item ["name"] = hxs.select("//h1/text()").extract()
        item ["title"] = hxs.select("//div[@id='contentbody']//tr//td//text()").extract()
        items.append(item)

    ##click next page      
    while True:
        next = self.driver.findElement(By.linkText("下一页"))
        try:
            next.click()
        except:
            break

    return(items)

Anregungen würde sehr geschätzt werden!!!!

BEARBEITUNGEN ich Teil einer middleware-Klasse wählen Sie aus der dropdown-bevor die spider Klasse. Aber jetzt gibt es keine Fehlermeldung und kein Ergebnis.

class JSMiddleware(object):
    def process_request(self, request, spider):
        driver = webdriver.PhantomJS()
         driver.get('http://www.cppcc.gov.cn/CMS/icms/project1/cppcc/wylibary/wjWeiYuanList.jsp')


    # select from the dropdown
        more_btn = WebDriverWait(driver, 20).until(
        EC.visibility_of_element_located((By.ID, '_button_select'))
                )
        more_btn.click()


        driver.find_element_by_css_selector("select#tabJcwyxt_jiebie > option[value='teyaoxgrs']").click()
        driver.find_element_by_css_selector("select#tabJcwyxt_jieci > option[value='d11jie']").click()
        search2 = driver.find_element_by_class_name('input_a2')
        search2.click()
        time.sleep(5)

        #get the response 
        body = driver.page_source
        return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)



class ProfileSpider(CrawlSpider):
    name = 'pccprofile2'
    rules = [Rule(SgmlLinkExtractor(allow=(),restrict_xpaths=("//div[@class='table']")), callback='parse_item')]  

    def parse_item(self, response):
    hxs = HtmlXPathSelector(response)
    items = []
    item = Ppcprofile2Item()
    item ["name"] = hxs.select("//h1/text()").extract()
    item ["title"] = hxs.select("//div[@id='contentbody']//tr//td//text()").extract()
    items.append(item)

    #click next page      
    while True:
        next = response.findElement(By.linkText("下一页"))
        try:
            next.click()
        except:
            break

    return(items)

InformationsquelleAutor Onyi Lam | 2015-07-02

20

Verwenden Downloader-Middleware zu fangen Selen-Bedarf Seiten vor Sie Bearbeiten Sie regelmäßig mit Scrapy:

Den downloader middleware ist ein Rahmen, der Haken in Scrapy ' s request/response-Verarbeitung. Es ist ein Licht, low-level-system für Global verändern Scrapy-Anfragen und-Antworten.

Hier ist ein sehr einfaches Beispiel mit PhantomJS:
```
from scrapy.http import HtmlResponse
from selenium import webdriver

class JSMiddleware(object):
    def process_request(self, request, spider):
        driver = webdriver.PhantomJS()
        driver.get(request.url)

        body = driver.page_source
        return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)
```
Sobald Sie zurückkehren, dass HtmlResponse (oder ein TextResponse wenn das, was Sie wirklich wollen), Scrapy aufhören Verarbeitung-Downloader-und-drop in die Spinne parse Methode:

Wenn es gibt ein Response-Objekt, Scrapy nicht stört Aufruf anderer
process_request() oder process_exception () - Methoden, oder die entsprechende
download-Funktion; es wird, dass die Rückkehr Antwort. Die process_response()
Methoden der installierten middleware wird immer dann aufgerufen, auf jede Antwort.

In diesem Fall können Sie weiterhin verwenden Sie Ihre Spinne parse - Methode, wie Sie normalerweise würde, mit HTML, außer dass die JS auf der Seite bereits ausgeführt.

Tipp: Da der Downloader Middleware ist process_request - Methode akzeptiert die Spinne als argument, können Sie eine bedingte in der Spinne zu prüfen, ob Sie brauchen, um zu verarbeiten, JS überhaupt, und dass wir Sie behandeln sowohl JS, als auch non-JS-Seiten mit der exakt selben Spinne. Klasse.
- Hi Joe, danke für die Anregung. Ich Tat was Sie vorgeschlagen, durch eine JSMiddleware Klasse vor dem CrawlSpider Klasse. Und innerhalb der middleware-Klasse, ich habe den code eingefügt, von denen ich wählen Sie aus der Dropdownliste, und klicken Sie auf. Es gab kein Ergebnis und keine Fehlermeldung zurückgegeben. Bitte sehen Sie die änderungen vor.
- Edit-keine return - Anweisung. Stellen Sie sicher, dass die Rücksendung einer Antwort von der middleware ab.
- Ich hatte die return - Anweisung. ich erkannte nur jetzt habe ich ein Fehler from scrapy.http import HttpResponse ImportError: cannot import name HttpResponse ich werde sehen, ob dies das Problem ist...
- AH, das ist meine Schuld! Es sollte HtmlResponse, nicht HttpResponse. Werde ich machen, die Sie Bearbeiten.
- immer noch kein Glück. keine Fehler und Ergebnis. Dies ist die Ausgabe in der Konsole: ` 2015-07-02 10:33:28-0700 [scrapy] INFO: Aktiviert downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 2015-07-02 10:33:28-0700 [scrapy] INFO: Aktiviert spider-middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware`
- ich hätte immer verwirrt mit der middlewares Struktur. Ich nach einer anderen Frage. ich danke Ihnen sehr!
InformationsquelleAutor JoeLinux

Hier ist eine middleware für Scrapy und Selen

from scrapy.http import HtmlResponse
from scrapy.utils.python import to_bytes
from selenium import webdriver
from scrapy import signals


class SeleniumMiddleware(object):

    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls()
        crawler.signals.connect(middleware.spider_opened, signals.spider_opened)
        crawler.signals.connect(middleware.spider_closed, signals.spider_closed)
        return middleware

    def process_request(self, request, spider):
        request.meta['driver'] = self.driver  # to access driver from response
        self.driver.get(request.url)
        body = to_bytes(self.driver.page_source)  # body must be of type bytes 
        return HtmlResponse(self.driver.current_url, body=body, encoding='utf-8', request=request)

    def spider_opened(self, spider):
        self.driver = webdriver.Firefox()

    def spider_closed(self, spider):
        self.driver.close()

Müssen auch hinzufügen, in settings.py

DOWNLOADER_MIDDLEWARES = {
    'youproject.middlewares.selenium.SeleniumMiddleware': 200
}

Entscheiden Wetter seine 200 oder etwas anderes basiert auf docs.

Update firefox headless Modus mit scrapy und Selen

Wenn Sie möchten, führen Sie firefox im headless-Modus dann installieren xvfb

sudo apt-get install -y xvfb

und PyVirtualDisplay

sudo pip install pyvirtualdisplay

und nutzen diese middleware

from shutil import which

from pyvirtualdisplay import Display
from scrapy import signals
from scrapy.http import HtmlResponse
from scrapy.utils.project import get_project_settings
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

settings = get_project_settings()

HEADLESS = True


class SeleniumMiddleware(object):

    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls()
        crawler.signals.connect(middleware.spider_opened, signals.spider_opened)
        crawler.signals.connect(middleware.spider_closed, signals.spider_closed)
        return middleware

    def process_request(self, request, spider):
        self.driver.get(request.url)
        request.meta['driver'] = self.driver
        body = str.encode(self.driver.page_source)
        return HtmlResponse(self.driver.current_url, body=body, encoding='utf-8', request=request)

    def spider_opened(self, spider):
        if HEADLESS:
            self.display = Display(visible=0, size=(1280, 1024))
            self.display.start()
        binary = FirefoxBinary(settings.get('FIREFOX_EXE') or which('firefox'))
        self.driver = webdriver.Firefox(firefox_binary=binary)

    def spider_closed(self, spider):
        self.driver.close()
        if HEADLESS:
            self.display.stop()

wo settings.py enthält

FIREFOX_EXE = '/path/to/firefox.exe'

Das problem ist, dass einige Versionen von firefox funktionieren nicht mit Selen.
Um dieses problem zu lösen Sie können download-firefox-version 47.0.1 (diese version funktioniert einwandfrei) aus hier dann entpacken Sie es und legte es in Ihre Selen-Projekt. Danach ändern Sie die firefox-Pfad als

FIREFOX_EXE = '/path/to/your/scrapyproject/firefox/firefox.exe'

was bedeutet die from_crawler Funktion? was bedeutet die cls parameter darstellen, und was ist es, dass die Anweisungen in der Funktion tun?

InformationsquelleAutor Levon

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.