web-scraping (football Quote)

Ich bin neu in web-scraping und Recht jetzt ich versuche, es zu verstehen, um die Automatisierung, der ein Wetten-Wettbewerb mit Freunden über die Deutsche bundesliga. (Die Plattform, die wir verwenden, ist kicktipp.de). Ich habe es schon geschafft, zur Anmeldung auf der website und post-Fußball-Ergebnisse mit python. Leider sind nur poisson-verteilt randoms Zahl so weit. Um diese zu verbessern, meine Idee ist die download-Quote von bwin. Je genauer ich versuche zu downloaden die Quoten für die genauen Ergebnisse. Hier beginnt das Problem. So weit ich war nicht in der Lage, diese zu extrahieren mit BeautifulSoup. Verwendung von google chrome, die ich versuche zu verstehen, welcher Teil der html-code, den ich brauche. Aber für einige Gründe, warum ich nicht finden können, diejenigen Teile, die mit BeautifulSoup.
web-scraping (football Quote)
Mein code im moment nicht so Aussehen:

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = "https://sports.bwin.com/de/sports/4/wetten/fußball#categoryIds=192&eventId=&leagueIds=43&marketGroupId=&page=0&sportId=4&templateIds=0.8649061927316986"

# opening up connection, grabbing the page
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

# html parsing
page_soup = soup(page_html, "html.parser")
containers1 = page_soup.findAll("div", {"class": "marketboard-event-
group__item--sub-group"})
print(len(containers1))
containers2 = page_soup.findAll("table", {"class": "marketboard-event-with-
header__markets-list"})
print(len(containers2))

Aus der Länge der Behälter kann ich bereits erkennen, dass entweder Sie enthalten mehr Elemente, dann ich erwartet hatte oder Sie leer sind, aus unbekannten Gründen... Hoffe, dass u kann mich. Vielen Dank im Voraus!

Tut es zeigt alle Tabellen, wie Sie erwarten, wenn Sie drucken page_soup.prettify()? Auch haben Sie betrachtet mit Anfragen anstatt das urllib.Anfrage?

InformationsquelleAutor HighwayJohn | 2017-08-25

Können Sie Selen zusammen mit ChromeDriver zu kratzen, eine Seite, die generiert JavaScript-Inhalte, denn dies ist hier der Fall.

from selenium import webdriver
from bs4 import BeautifulSoup

url = "https://sports.bwin.com/de/sports/4/wetten/fußball#categoryIds=192&eventId=&leagueIds=43&marketGroupId=&page=0&sportId=4&templateIds=0.8649061927316986"
driver = webdriver.Chrome()
driver.get(url)
soup = BeautifulSoup(driver.page_source, 'html.parser')

containers = soup.findAll("table", {"class": "marketboard-event-with-header__markets-list"})

Nun containers hat wirklich, was wir wollen, ist, dass die Tabellen-Elemente, Inspektion mehr, es ist leicht zu sehen, dass unsere gewünschten Texte in wechselnden <div> - tags, so können wir zip und iter zu erstellen, die eine Liste von Tupeln von Ergebnis und Quoten zusammen, abwechselnd die divs Liste Elemente:

resultAndOdds = []    
for container in containers:
    divs = container.findAll('div')
    texts = [div.text for div in divs]
    it = iter(texts)
    resultAndOdds.append(list(zip(it, it)))

Demo:

>>> resultAndOdds[0]
[('1:0', '9.25'), ('0:0', '7.25'), ('0:1', '7.50'), ('2:0', '16.00'), ('1:1', '6.25'), ('0:2', '10.00'), ('2:1', '11.50'), ('2:2', '15.00'), ('1:2', '9.25'), ('3:0', '36.00'), ('3:3', '51.00'), ('0:3', '19.50'), ('3:1', '26.00'), ('4:4', '251.00'), ('1:3', '17.00'), ('3:2', '36.00'), ('2:3', '29.00'), ('4:0', '126.00'), ('0:4', '51.00'), ('4:1', '101.00'), ('1:4', '41.00'), ('4:2', '151.00'), ('2:4', '81.00'), ('4:3', '251.00'), ('3:4', '251.00'), ('Jedes andere Ergebnis', '29.00')]
>>> resultAndOdds[1]
[('1:0', '5.00'), ('0:0', '2.65'), ('0:1', '4.10'), ('2:0', '15.50'), ('1:1', '7.25'), ('0:2', '10.50'), ('2:1', '21.00'), ('2:2', '67.00'), ('1:2', '18.00'), ('3:0', '81.00'), ('3:3', '251.00'), ('0:3', '36.00'), ('3:1', '126.00'), ('4:4', '251.00'), ('1:3', '81.00'), ('3:2', '251.00'), ('2:3', '251.00'), ('4:0', '251.00'), ('0:4', '201.00'), ('4:1', '251.00'), ('1:4', '251.00'), ('4:2', '251.00'), ('2:4', '251.00'), ('4:3', '251.00'), ('3:4', '251.00'), ('Jedes andere Ergebnis', '251.00')]
>>> len(resultAndOdds)
24

Je nachdem, wie Sie möchten, dass Ihre Daten möchten, können Sie auch Holen die Titel jeder Tabelle mit so etwas wie:

titlesElements = soup.findAll("div", {"class":"marketboard-event-with-header__market-name"})
titlesTexts = [title.text for title in titlesElements]

Es ist zweifellos eine der besseren Ideen, das kommt selten zusammen. Btw, wo soll der Fahrer.quit-Befehl gesetzt werden? Danke.
Sie können driver.quit() oder similars. Und das wäre, sobald soup erstellt.
Ich bearbeitet, sobald Sie realisiert, sorry dafür! =)
Ich bin froh, zu helfen!

InformationsquelleAutor Vinícius Aguiar

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.