Gewusst wie: extrahieren von meta-Beschreibung von urls mit python?
Möchte ich zum extrahieren der Titel und die Beschreibung aus der folgenden website:
view-source:http://www.virginaustralia.com/au/en/bookings/flights/make-a-booking/
mit den folgenden Ausschnitt des Quellcode:
<title>Book a Virgin Australia Flight | Virgin Australia
</title>
<meta name="keywords" content="" />
<meta name="description" content="Search for and book Virgin Australia and partner flights to Australian and international destinations." />
Ich will den Titel und meta-Inhalte.
Benutzte ich Gans, aber es nicht tun, einen guten job zu extrahieren. Hier ist mein code:
website_title = [g.extract(url).title for url in clean_url_data]
und
website_meta_description=[g.extract(urlw).meta_description for urlw in clean_url_data]
Das Ergebnis leer ist
- Was ist mit BeautifulSoup? - crummy.com/software/BeautifulSoup
InformationsquelleAutor Technologic27 | 2016-06-24
Schreibe einen Kommentar Antworten abbrechen
Du musst angemeldet sein, um einen Kommentar abzugeben.
Bitte überprüfen Sie BeautifulSoup als Lösung.
Zur oben genannten Frage, können Sie verwenden Sie den folgenden code zu extrahieren "Beschreibung" info:
Ausgabe:
[ meta.attrs['content'] for meta in metas if 'name' in meta.attrs and 'content' in meta.attrs and meta.attrs['name'] == 'description' ]
wissen Sie, html xpath?
verwenden lxml lib mit xpath zu extrahieren, html-element ist eine schnelle Art.