Nehmen Sie screenshot der gesamten Seite mit Selenium-Python mit chromedriver

Nach dem Versuch, verschiedene Ansätze... ich stolperte über diese Seite vollständig zu nutzen,-Seite screenshot mit chromedriver, Selen und python.

Den original-code ist hier. (und ich kopiere den code in diesem posting unten)

Verwendet es PIL und es funktioniert Super! Es gibt jedoch ein Problem... es fängt Feste überschriften und wiederholt für die gesamte Seite und findet auch einige Teile der Seite während Seite ändern. Beispiel-url für einen screenshot:

http://www.w3schools.com/js/default.asp

So vermeiden Sie die wiederholte Kopfzeilen mit diesem code... Oder gibt es eine bessere option, die verwendet python nur... ( ich weiß nicht, java und möchten nicht mit java).

Bitte sehen Sie sich den screenshot von der aktuellen Folge und Beispiel-code unten.

Nehmen Sie screenshot der gesamten Seite mit Selenium-Python mit chromedriver

test.py

"""
This script uses a simplified version of the one here:
https://snipt.net/restrada/python-selenium-workaround-for-full-page-screenshot-using-chromedriver-2x/

It contains the *crucial* correction added in the comments by Jason Coutu.
"""

import sys

from selenium import webdriver
import unittest

import util

class Test(unittest.TestCase):
    """ Demonstration: Get Chrome to generate fullscreen screenshot """

    def setUp(self):
        self.driver = webdriver.Chrome()

    def tearDown(self):
        self.driver.quit()

    def test_fullpage_screenshot(self):
        ''' Generate document-height screenshot '''
        #url = "http://effbot.org/imagingbook/introduction.htm"
        url = "http://www.w3schools.com/js/default.asp"
        self.driver.get(url)
        util.fullpage_screenshot(self.driver, "test.png")


if __name__ == "__main__":
    unittest.main(argv=[sys.argv[0]])

util.py

import os
import time

from PIL import Image

def fullpage_screenshot(driver, file):

        print("Starting chrome full page screenshot workaround ...")

        total_width = driver.execute_script("return document.body.offsetWidth")
        total_height = driver.execute_script("return document.body.parentNode.scrollHeight")
        viewport_width = driver.execute_script("return document.body.clientWidth")
        viewport_height = driver.execute_script("return window.innerHeight")
        print("Total: ({0}, {1}), Viewport: ({2},{3})".format(total_width, total_height,viewport_width,viewport_height))
        rectangles = []

        i = 0
        while i < total_height:
            ii = 0
            top_height = i + viewport_height

            if top_height > total_height:
                top_height = total_height

            while ii < total_width:
                top_width = ii + viewport_width

                if top_width > total_width:
                    top_width = total_width

                print("Appending rectangle ({0},{1},{2},{3})".format(ii, i, top_width, top_height))
                rectangles.append((ii, i, top_width,top_height))

                ii = ii + viewport_width

            i = i + viewport_height

        stitched_image = Image.new('RGB', (total_width, total_height))
        previous = None
        part = 0

        for rectangle in rectangles:
            if not previous is None:
                driver.execute_script("window.scrollTo({0}, {1})".format(rectangle[0], rectangle[1]))
                print("Scrolled To ({0},{1})".format(rectangle[0], rectangle[1]))
                time.sleep(0.2)

            file_name = "part_{0}.png".format(part)
            print("Capturing {0} ...".format(file_name))

            driver.get_screenshot_as_file(file_name)
            screenshot = Image.open(file_name)

            if rectangle[1] + viewport_height > total_height:
                offset = (rectangle[0], total_height - viewport_height)
            else:
                offset = (rectangle[0], rectangle[1])

            print("Adding to stitched image with offset ({0}, {1})".format(offset[0],offset[1]))
            stitched_image.paste(screenshot, offset)

            del screenshot
            os.remove(file_name)
            part = part + 1
            previous = rectangle

        stitched_image.save(file)
        print("Finishing chrome full page screenshot workaround...")
        return True

Ich bin dabei, einen screenshot von einer Seite, erfordert mehrere Schriftrollen/Nähen. Leider, es ist nicht eine öffentliche URL (man kann nur sehen, die Seite, wenn Sie eingeloggt sind). Wissen Sie, warum es hält, indem der header? res.cloudinary.com/mpyr-com/image/upload/v1551372542/...

InformationsquelleAutor ihightower | 2017-01-18

6

Können Sie erreichen dies durch ändern der CSS der header vor dem screenshot:
```
topnav = driver.find_element_by_id("topnav")
driver.execute_script("arguments[0].setAttribute('style', 'position: absolute; top: 0px;')", topnav) 
```
BEARBEITEN: Setzen Sie diese Zeile nach Ihrem Fenster scrollen:
```
driver.execute_script("document.getElementById('topnav').setAttribute('style', 'position: absolute; top: 0px;');")
```
Also in Ihrem util.py wird es sein:
```
driver.execute_script("window.scrollTo({0}, {1})".format(rectangle[0], rectangle[1]))
driver.execute_script("document.getElementById('topnav').setAttribute('style', 'position: absolute; top: 0px;');")
```
Wenn die Website die header tag, Sie es tun können, mit find_element_by_tag_name("header")
- hi danke.. nur das hinzufügen oben auf Skript löst nicht das problem.. aber ich versteh den Sinn.. und hat deaktivieren Sie die topnav.. durch die Verwendung von Inspektor.. und müssen zu Graben, um zu finden, die javascript (nicht css), dass ändert die css.. und geändert, dass zu den absoluten.. manuell. und es hat funktioniert. (aber das Skript screenshot funktioniert immer noch nicht obwohl). Gibt es eine Möglichkeit zur Verbesserung der ur-Skript deaktiviert die javascript-css-änderung.. und für jede neue website.. muss ich Graben, um wieder zu finden die #id der header.. und es ändern.
- Sie können nicht im Voraus wissen, wie jede website implementiert Ihre header. Aber Sie können nehmen Sie eine Vermutung. Ich füge ein Beispiel.
- Ihr code arbeitete, aber mit einigen kleinen glitch.. das ist es inklusive des headers auf manchen Seiten. So, nach dem hinzufügen schlafen 0,2 Sekunden.. es funktionierte perfekt. ich habe im code eingetragen und auch bewertet. Hoffen tun die Bearbeiten deine Antwort ist korrekt für stackoverflow.
InformationsquelleAutor Moshisho
11
```
element = driver.find_element_by_tag_name('body')
element_png = element.screenshot_as_png
with open("test2.png", "wb") as file:
    file.write(element_png)
```
Dies funktioniert für mich. Es speichert die gesamte Seite als screenshot.
Für mehr Informationen, Lesen Sie bitte die api-docs:
http://selenium-python.readthedocs.io/api.html
- Diese Technik hat bei mir für eine Seite, nicht aber für andere. Ich wartete, bis die Seite geladen voll zu. Ich habe ein neuere Antwort, das baut auf diese Antwort und arbeitet ein wenig mehr zuverlässig.
- Dieser Ansatz scheitert für viele Seiten, Beispiel: de.abbott/media-center/press-releases/05-10-2018.html
InformationsquelleAutor Javed Karim
7

Diese Antwort verbessert auf vorherigen Antworten durch am05mhz und Javed Karim.

Es wird davon ausgegangen headless-Modus, und das ein-Fenster-Größe-option wurde zunächst nicht festgelegt. Vor dem Aufruf dieser Funktion sicher die Seite vollständig geladen ist, vollständig oder ausreichend.

Er versucht, zum festlegen der Breite und Höhe sowohl, was notwendig ist. Der screenshot von der gesamten Seite kann manchmal auch einen unnötigen vertikalen Scrollbalken. Ein Weg, um in der Regel vermeiden Sie die Bildlaufleiste, indem Sie ein Bildschirmfoto des body-Elements statt. Nach dem speichern einen screenshot, es wird die Größe auf, was es ursprünglich war, widrigenfalls die Größe für den nächsten screenshot ist möglicherweise nicht richtig eingestellt.

Letztlich diese Technik kann immer noch nicht perfekt funktioniert gut für einige Beispiele.
```
def save_screenshot(driver: webdriver.Chrome, path: str = '/tmp/screenshot.png'):
    # Ref: https://stackoverflow.com/a/52572919/
    original_size = driver.get_window_size()
    required_width = driver.execute_script('return document.body.parentNode.scrollWidth')
    required_height = driver.execute_script('return document.body.parentNode.scrollHeight')
    driver.set_window_size(required_width, required_height)
    # driver.save_screenshot(path)  # has scrollbar
    driver.find_element_by_tag_name('body').screenshot(path)  # avoids scrollbar
    driver.set_window_size(original_size['width'], original_size['height'])
```
Wenn mit Python älter als 3.6, entfernen Sie die Typ-Annotationen aus der definition einer Funktion.
- Die Größe des Fensters in Firefox ist über 74px größer als der viewport, also required_height + 74 funktioniert bei mir jetzt.
InformationsquelleAutor Acumenus
7

Screenshots sind beschränkt auf die viewport-aber Sie können dies umgehen, durch die Erfassung der body element, wie die webdriver erfassen das gesamte element, auch wenn es größer ist als der viewport. So sparen Sie mit viel scrollen und Nähen Bilder, allerdings sehen Sie möglicherweise Probleme mit footer-position (wie in der Abbildung unten).

Getestet auf Windows 8 und Mac High Sierra mit Chrome-Treiber.
```
from selenium import webdriver

url = 'https://stackoverflow.com/'
path = '/path/to/save/in/scrape.png'

driver = webdriver.Chrome()
driver.get(url)
el = driver.find_element_by_tag_name('body')
el.screenshot(path)
driver.quit()
```
Gibt: (volle Größe: https://i.stack.imgur.com/ppDiI.png)
- Genial, es funktioniert in windows 10, wie auch
- beste Antwort für dieses Thema, da es im Grunde eine integrierte Funktion von Selen. Keine Notwendigkeit, über-Ingenieur der Lösung. Absolute madlad.
- Funktioniert nicht bei allen websites
InformationsquelleAutor alexalex

Nach Kenntnis der Ansatz von @Moshisho.

Mein standalone-arbeiten Skript, wird... (mehr-schlafen 0.2 nach jedem scrollen und position)

import sys
from selenium import webdriver
import util
import os
import time
from PIL import Image

def fullpage_screenshot(driver, file):

        print("Starting chrome full page screenshot workaround ...")

        total_width = driver.execute_script("return document.body.offsetWidth")
        total_height = driver.execute_script("return document.body.parentNode.scrollHeight")
        viewport_width = driver.execute_script("return document.body.clientWidth")
        viewport_height = driver.execute_script("return window.innerHeight")
        print("Total: ({0}, {1}), Viewport: ({2},{3})".format(total_width, total_height,viewport_width,viewport_height))
        rectangles = []

        i = 0
        while i < total_height:
            ii = 0
            top_height = i + viewport_height

            if top_height > total_height:
                top_height = total_height

            while ii < total_width:
                top_width = ii + viewport_width

                if top_width > total_width:
                    top_width = total_width

                print("Appending rectangle ({0},{1},{2},{3})".format(ii, i, top_width, top_height))
                rectangles.append((ii, i, top_width,top_height))

                ii = ii + viewport_width

            i = i + viewport_height

        stitched_image = Image.new('RGB', (total_width, total_height))
        previous = None
        part = 0

        for rectangle in rectangles:
            if not previous is None:
                driver.execute_script("window.scrollTo({0}, {1})".format(rectangle[0], rectangle[1]))
                time.sleep(0.2)
                driver.execute_script("document.getElementById('topnav').setAttribute('style', 'position: absolute; top: 0px;');")
                time.sleep(0.2)
                print("Scrolled To ({0},{1})".format(rectangle[0], rectangle[1]))
                time.sleep(0.2)

            file_name = "part_{0}.png".format(part)
            print("Capturing {0} ...".format(file_name))

            driver.get_screenshot_as_file(file_name)
            screenshot = Image.open(file_name)

            if rectangle[1] + viewport_height > total_height:
                offset = (rectangle[0], total_height - viewport_height)
            else:
                offset = (rectangle[0], rectangle[1])

            print("Adding to stitched image with offset ({0}, {1})".format(offset[0],offset[1]))
            stitched_image.paste(screenshot, offset)

            del screenshot
            os.remove(file_name)
            part = part + 1
            previous = rectangle

        stitched_image.save(file)
        print("Finishing chrome full page screenshot workaround...")
        return True


driver = webdriver.Chrome()

''' Generate document-height screenshot '''
url = "http://effbot.org/imagingbook/introduction.htm"
url = "http://www.w3schools.com/js/default.asp"
driver.get(url)
fullpage_screenshot(driver, "test1236.png")

InformationsquelleAutor ihightower

Ich änderte code für Python-3.6, vielleicht wird es hilfreich sein für jemanden:

from selenium import webdriver
from sys import stdout
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import unittest
#from Login_Page import Login_Page
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from io import BytesIO
from PIL import Image

def testdenovoUIavailable(self):
        binary = FirefoxBinary("C:\\Mozilla Firefox\\firefox.exe") 
        self.driver  = webdriver.Firefox(firefox_binary=binary)
        verbose = 0

        #open page
        self.driver.get("http://yandex.ru")

        #hide fixed header        
        #js_hide_header=' var x = document.getElementsByClassName("topnavbar-wrapper ng-scope")[0];x[\'style\'] = \'display:none\';'
        #self.driver.execute_script(js_hide_header)

        #get total height of page
        js = 'return Math.max( document.body.scrollHeight, document.body.offsetHeight,  document.documentElement.clientHeight,  document.documentElement.scrollHeight,  document.documentElement.offsetHeight);'

        scrollheight = self.driver.execute_script(js)
        if verbose > 0:
            print(scrollheight)

        slices = []
        offset = 0
        offset_arr=[]

        #separate full screen in parts and make printscreens
        while offset < scrollheight:
            if verbose > 0: 
                print(offset)

            #scroll to size of page 
            if (scrollheight-offset)<offset:
                #if part of screen is the last one, we need to scroll just on rest of page
                self.driver.execute_script("window.scrollTo(0, %s);" % (scrollheight-offset))
                offset_arr.append(scrollheight-offset)
            else:
                self.driver.execute_script("window.scrollTo(0, %s);" % offset)
                offset_arr.append(offset)

            #create image (in Python 3.6 use BytesIO)
            img = Image.open(BytesIO(self.driver.get_screenshot_as_png()))


            offset += img.size[1]
            #append new printscreen to array
            slices.append(img)


            if verbose > 0:
                self.driver.get_screenshot_as_file('screen_%s.jpg' % (offset))
                print(scrollheight)

        #create image with 
        screenshot = Image.new('RGB', (slices[0].size[0], scrollheight))
        offset = 0
        offset2= 0
        #now glue all images together
        for img in slices:
            screenshot.paste(img, (0, offset_arr[offset2])) 
            offset += img.size[1]
            offset2+= 1      

        screenshot.save('test.png')

Keine Ahnung warum auf eine sehr lange Seite, es hält scrollen an einem bestimmten Punkt und geht wieder umkehren? Ich verwendete otto.de/technik/audio/kopfhoerer als ein Beispiel, und alles geht gut, bis wir rund 5000 Pixel und dann ist das scrollen geht wieder rauf statt runter.

InformationsquelleAutor A.Minachev

Nicht sicher, ob die Menschen immer noch das Problem.
Ich habe ein kleinen hack, der funktioniert ziemlich gut und spielt schön mit den dynamischen Zonen. Hoffe es hilft

# 1. get dimensions
browser = webdriver.Chrome(chrome_options=options)
browser.set_window_size(default_width, default_height)
browser.get(url)
time.sleep(sometime)
total_height = browser.execute_script("return document.body.parentNode.scrollHeight")
browser.quit()

# 2. get screenshot
browser = webdriver.Chrome(chrome_options=options)
browser.set_window_size(default_width, total_height)
browser.get(url)  
browser.save_screenshot(screenshot_path)

Diese unnötig lädt die Seite zweimal, und schlägt fehl, zum definieren der Breite. Ich habe jetzt eine neuere Antwort, die diese Probleme behebt.

InformationsquelleAutor jeremie

2

Warum nicht nur immer die Breite und Höhe der Seite, und ändern Sie dann die Größe der Treiber? So etwas wie dieses
```
total_width = driver.execute_script("return document.body.offsetWidth")
total_height = driver.execute_script("return document.body.scrollHeight")
driver.set_window_size(total_width, total_height)
driver.save_screenshot("SomeName.png")
```
Dies ist machen Sie einen screenshot der gesamten Seite, ohne die Notwendigkeit zu verschmelzen unterschiedliche Stücke.
- Ist es eigentlich scrollen Sie nach unten und nehmen Sie screenshots von einer sehr langen Seite?
- Soweit ich weiß und getestet, ja.
InformationsquelleAutor Vali

element=driver.find_element_by_tag_name('body')
element_png = element.screenshot_as_png
with open("test2.png", "wb") as file:
    file.write(element_png)

Es wurde ein Fehler in der code, der zuvor in Zeile 2. Hier ist die korrigierte man. Ein noob hier, nicht in der Lage, zu Bearbeiten, meinen eigenen Beitrag noch.

Manchmal die baove nicht Holen Sie sich die besten Ergebnisse. So kann eine andere Methode verwenden, um die Höhe aller Elemente und die Summe zu stellen, um das capture-Höhe unten:

element=driver.find_elements_by_xpath("/html/child::*/child::*")
    eheight=set()
    for e in element:
        eheight.add(round(e.size["height"]))
    print (eheight)
    total_height = sum(eheight)
    driver.execute_script("document.getElementsByTagName('html')[0].setAttribute('style', 'height:"+str(total_height)+"px')")
    element=driver.find_element_by_tag_name('body')
    element_png = element.screenshot_as_png
    with open(fname, "wb") as file:
        file.write(element_png)

BTW, es funktioniert auf FF.

InformationsquelleAutor Javed Karim

Etwas ändern @ihightower und @A. Minachev code, und in der mac-retina:

import time
from PIL import Image
from io import BytesIO

def fullpage_screenshot(driver, file, scroll_delay=0.3):
    device_pixel_ratio = driver.execute_script('return window.devicePixelRatio')

    total_height = driver.execute_script('return document.body.parentNode.scrollHeight')
    viewport_height = driver.execute_script('return window.innerHeight')
    total_width = driver.execute_script('return document.body.offsetWidth')
    viewport_width = driver.execute_script("return document.body.clientWidth")

    # this implementation assume (viewport_width == total_width)
    assert(viewport_width == total_width)

    # scroll the page, take screenshots and save screenshots to slices
    offset = 0  # height
    slices = {}
    while offset < total_height:
        if offset + viewport_height > total_height:
            offset = total_height - viewport_height

        driver.execute_script('window.scrollTo({0}, {1})'.format(0, offset))
        time.sleep(scroll_delay)

        img = Image.open(BytesIO(driver.get_screenshot_as_png()))
        slices[offset] = img

        offset = offset + viewport_height

    # combine image slices
    stitched_image = Image.new('RGB', (total_width * device_pixel_ratio, total_height * device_pixel_ratio))
    for offset, image in slices.items():
        stitched_image.paste(image, (0, offset * device_pixel_ratio))
    stitched_image.save(file)

fullpage_screenshot(driver, 'test.png')

InformationsquelleAutor Charlie Chen

Habe ich geändert die jeremie-Initiative-s " Antwort, so dass es nur die url nur einmal.

browser = webdriver.Chrome(chrome_options=options)
browser.set_window_size(default_width, default_height)
browser.get(url)
height = browser.execute_script("return document.body.parentNode.scrollHeight")

# 2. get screenshot
browser.set_window_size(default_width, height)
browser.save_screenshot(screenshot_path)

browser.quit()

Dies nicht definieren default_width oder was es war, oder sollte habe. Ich habe jetzt eine neuere Antwort, die behebt dieses Problem.

InformationsquelleAutor am05mhz

0

Können Sie Splinter

Splinter ist eine Abstraktionsschicht auf der Oberseite des bestehenden browser-automation-tools wie Selen

Es ist ein neues feature browser.screenshot(..., full=True) in der neuen version 0.10.0.

full=True option full screen-capture für Sie.

InformationsquelleAutor Sergei

Habe es!!! funktioniert wie ein Charme

Für NodeJS, aber das Konzept ist das gleiche:

await driver.executeScript(`
      document.documentElement.style.display = "table";
      document.documentElement.style.width = "100%";
      document.body.style.display = "table-row";
`);

await driver.findElement(By.css('body')).takeScreenshot();

InformationsquelleAutor Moshe Quantz

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.