Web Scraping Rap-lyrics auf Rap Genius w/ Python

Ich bin etwas von einem coding-Anfänger, und ich habe versucht zu kratzen, Andre 3000 die lyrics aus Rap genius, http://genius.com/artists/Andre-3000, durch die Verwendung von Schönen Suppe (Eine Python-Bibliothek für das abrufen von Daten aus HTML-und XML-Dateien). Mein Ziel ist es, die Daten in einem string-format. Hier ist was ich habe, so weit:

from bs4 import BeautifulSoup
from urllib2 import urlopen

artist_url = "http://rapgenius.com/artists/Andre-3000"

def get_song_links(url):
    html = urlopen(url).read()
    # print html 
    soup = BeautifulSoup(html, "lxml")
    container = soup.find("div", "container")
    song_links = [BASE_URL + dd.a["href"] for dd in container.findAll("dd")]

    print song_links

get_song_links(artist_url)
for link in soup.find_all('a'):
    print(link.get('href'))

Also ich brauche Hilfe mit dem rest des Codes. Wie bekomme ich seine Texte in string-format? und dann, wie verwende ich das Natural Language Toolkit (NLTK) zu token, Sätze und Wörter.

dies ist eine wunderbare Idee. Du gehst zu generieren, neue Texte Recht? Ich überlege, das gleiche zu tun für Tupac. Muss es ein tool gibt, generieren Ihre Stimmen, basierend auf Ihren vorhandenen songs. Ich meine, wenn es am Wort-Ebene werden dann alle neu generierten Texte enthalten Worte, die gesungen worden, bevor Sie von der Künstlerin so wäre es eine Frage der Probenahme und Verzerrung der Schallwellen, um die erzeugte Stimme zu klingen, wie Sie wollen.

InformationsquelleAutor Ibrewster | 2014-07-21

4

Hier ist ein Beispiel, wie Sie greifen alle das Lied links auf der Seite, Folgen Sie Ihnen und Sie bekommen die Texte zu den Songs:
```
from urlparse import urljoin
from bs4 import BeautifulSoup
import requests


BASE_URL = "http://genius.com"
artist_url = "http://genius.com/artists/Andre-3000/"

response = requests.get(artist_url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36'})

soup = BeautifulSoup(response.text, "lxml")
for song_link in soup.select('ul.song_list > li > a'):
    link = urljoin(BASE_URL, song_link['href'])
    response = requests.get(link)
    soup = BeautifulSoup(response.text)
    lyrics = soup.find('div', class_='lyrics').text.strip()

    # tokenize `lyrics` with nltk
```
Beachten Sie, dass Anfragen Modul hier verwendet wird. Beachten Sie auch, dass User-Agent - header ist erforderlich, da die Seite zurück 403 - Forbidden ohne es.
- das ist großartig, aber ich bekomme diese Fehlermeldung, wenn ich versuche, um Sie auszuführen "ImportError: No module named bs4"
- zu installieren, müssen Sie beautifulsoup4: laufen pip install beautifulsoup4.
- ja, ich hatte auch schon bs4 installiert, und es nicht funktioniert. also habe ich versucht es erneut zu installieren und es funktioniert immer noch nicht.
- Weil Sie mit Python 3. In diesem Fall verwenden Sie pip3 installieren beautifulsoup4
InformationsquelleAutor alecxe
1

Ersten, für jeden link, den Sie herunterladen müssen, die Seite und analysiert mit BeautifulSoup. Dann schauen Sie, für ein auszeichnendes Attribut, dass die Seite trennt, die Texte von anderen Inhalten der Seite. Ich fand <a data-editorial-state="angenommen" Daten-Klassifikation="angenommen" data-group="0"> um nützlich zu sein. Führen Sie dann ein .find_all auf der lyrics-Seite, die Inhalte, um alle lyrischen Linien. Für jede Zeile, die Sie anrufen können .get_text() auf, um den text aus jeder lyrics Zeile.

Als für NLTK, sobald es installiert ist, können Sie es importieren und analysieren Sätze wie:
```
from nltk.tokenize import word_tokenize, sent_tokenize
words = [word_tokenize(t) for t in sent_tokenize(lyric_text)]
```
Dies wird Ihnen eine Liste aller Wörter, in jedem Satz.

InformationsquelleAutor Andrew Johnson

GitHub /jashanj0tsingh /LyricsScraper.py bietet grundlegende Schaben von Texten aus genius.com in eine text-Datei, wo jede Zeile steht für ein Lied. Es nimmt den Namen des Künstlers als Eingabe. Die erzeugte text-Datei, dann kann leicht gefüttert werden, um Ihre benutzerdefinierten nltk oder der Allgemeine parser, um Dinge zu tun, die Sie wollen.

Den code ist unten:

# A simple script to scrape lyrics from the genius.com based on atrtist name.

import re
import requests
import time
import codecs

from bs4 import BeautifulSoup
from selenium import webdriver

mybrowser = webdriver.Chrome("path\to\chromedriver\binary") # Browser and path to Web driver you wish to automate your tests cases.

user_input = input("Enter Artist Name = ").replace(" ","+") # User_Input = Artist Name
base_url = "https://genius.com/search?q="+user_input # Append User_Input to search query
mybrowser.get(base_url) # Open in browser

t_sec = time.time() + 60*20 # seconds*minutes
while(time.time()<t_sec): # Reach the bottom of the page as per time for now TODO: Better condition to check end of page.
    mybrowser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    html = mybrowser.page_source
    soup = BeautifulSoup(html, "html.parser")
    time.sleep(5)

pattern = re.compile("[\S]+-lyrics$") # Filter http links that end with "lyrics".
pattern2 = re.compile("\[(.*?)\]") # Remove unnecessary text from the lyrics such as [Intro], [Chorus] etc..

with codecs.open('lyrics.txt','a','utf-8-sig') as myfile:
    for link in soup.find_all('a',href=True):
            if pattern.match(link['href']):
                f = requests.get(link['href'])
                lyricsoup = BeautifulSoup(f.content,"html.parser")
                #lyrics = lyricsoup.find("lyrics").get_text().replace("\n","") # Each song in one line.
                lyrics = lyricsoup.find("lyrics").get_text() # Line by Line
                lyrics = re.sub(pattern2, "", lyrics)
                myfile.write(lyrics+"\n")
mybrowser.close()
myfile.close()

Versuchen Sie, einige Rahmen auf deine Antwort

InformationsquelleAutor pythonlearn

Hoffe, das ist noch relevant! Ich mache die gleiche Sache mit Eminem ' s lyrics, aber von lyrics.com. Muss es sein, von Rap Genius? Ich fand lyrics.com um es einfacher zu kratzen.

Bekommen Andre 3000 ist nur ändern Sie den code entsprechend.

Hier ist mein code; es wird song-links und dann kratzt Sie diese Seiten, um Text und fügt die Texte einer Liste:

import re
import requests
import nltk
from bs4 import BeautifulSoup

url = 'http://www.lyrics.com/eminem'
r = requests.get(url)
soup = BeautifulSoup(r.content)
gdata = soup.find_all('div',{'class':'row'})

eminemLyrics = []

for item in gdata:
    title = item.find_all('a',{'itemprop':'name'})[0].text
    lyricsdotcom = 'http://www.lyrics.com'
    for link in item('a'):
        try:
            lyriclink = lyricsdotcom+link.get('href')
            req = requests.get(lyriclink)
            lyricsoup = BeautifulSoup(req.content)
            lyricdata = lyricsoup.find_all('div',{'id':re.compile('lyric_space|lyrics')})[0].text
            eminemLyrics.append([title,lyricdata])
            print title
            print lyricdata
            print
        except:
            pass

Dadurch erhalten Sie die Texte in einer Liste an. Zum drucken aller Titel:

titles = [i[0] for i in eminemLyrics]
print titles

Zu bekommen ein bestimmtes Lied:

titles.index('Cleaning out My Closet')
120

Für die tokenisierung der song, Stecker, Wert (120) in:

song = nltk.word_tokenize(eminemLyrics[120][1])
nltk.pos_tag(song)

InformationsquelleAutor tmthyjames

Selbst wenn Sie kratzen, die Website, bedeutet nicht, dass Sie sollten, stattdessen können Sie die API von genius , gerade das access-token aus der Genius-API-Website

import lyricsgenius as genius #calling the API
api=genius.Genius('youraccesstokenhere12345678901234567890isreallylongiknow')
artist=api.search_artist('The artist name here')
aux=artist.save_lyrics(format='json', filename='artist.txt',overwrite=True, skip_duplicates=True,verbose=True)#you can change parameters acording to your needs,i dont recommend using this file directly because it saves a lot of data that you might not need and will take more time to clean it

titles=[song['title'] for song in aux['songs']]#in this case for example i just want title and lyrics
lyrics=[song['lyrics'] for song in aux['songs']]
thingstosave=[]
for i in range(0,128):
    thingstosave.append(titles[i])
    thingstosave.append(lyrics[i])
with open("C:/whateverfolder/alllyrics.txt","w") as output:
    output.write(str(thingstosave))

InformationsquelleAutor Julian Abril

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.