ZERLEGUNG von HTML -, link-text und Ziel -

Gegeben, einen HTML-link wie

<a href="urltxt" class="someclass" close="true">texttxt</a>

wie kann ich isolieren Sie die url und den text?

Updates

Ich bin mit der Schönen Suppe, und bin nicht in der Lage, herauszufinden, wie zu tun.

Habe ich

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))

links = soup.findAll('a')

for link in links:
    print "link content:", link.content," and attr:",link.attrs

bekomme ich

*link content: None  and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root    /support.asp')]*  ...
...

Warum bin ich fehlt der Inhalt?

edit: erarbeitet auf 'hängen', wie empfohlen 🙂

Sind die Chancen es gibt ein problem mit das urllib.urlopen(url). Drucken Sie, und sehen, was Sie erhalten. Es sollte die direkt HTML-Code der web-Seite.
Auch "stuck!" ist nicht sehr aussagekräftig. Zeig mehr code, und was genau falsch läuft.
Danke für die zusätzliche info, das machte es viel einfacher zu sehen, was passiert.

InformationsquelleAutor sundeep | 2008-11-13

Schreibe einen Kommentar