Web Scraping Rap-lyrics auf Rap Genius w/ Python

Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein Ziel ist es, die Daten in einem string-format. Hier ist was ich habe, so weit:

from bs4 import BeautifulSoup
from urllib2 import urlopen

artist_url = "http://rapgenius.com/artists/Andre-3000"

def get_song_links(url):
    html = urlopen(url).read()
    # print html 
    soup = BeautifulSoup(html, "lxml")
    container = soup.find("div", "container")
    song_links = [BASE_URL + dd.a["href"] for dd in container.findAll("dd")]

    print song_links

get_song_links(artist_url)
for link in soup.find_all('a'):
    print(link.get('href'))

Also ich brauche Hilfe mit dem rest des Codes. Wie bekomme ich seine Texte in string-format? und dann, wie verwende ich das Natural Language Toolkit (NLTK) zu token, Sätze und Wörter.

  • dies ist eine wunderbare Idee. Du gehst zu generieren, neue Texte Recht? Ich überlege, das gleiche zu tun für Tupac. Muss es ein tool gibt, generieren Ihre Stimmen, basierend auf Ihren vorhandenen songs. Ich meine, wenn es am Wort-Ebene werden dann alle neu generierten Texte enthalten Worte, die gesungen worden, bevor Sie von der Künstlerin so wäre es eine Frage der Probenahme und Verzerrung der Schallwellen, um die erzeugte Stimme zu klingen, wie Sie wollen.
InformationsquelleAutor Ibrewster | 2014-07-21
Schreibe einen Kommentar