Entfernen von Stop-Wörter aus NLTK

Ich versuche zu Lesen ein text-Datei (foo1.txt), entfernen Sie alle nltk definierten Stoppwörter und schreiben in eine andere Datei (foo2.txt). Code ist wie folgt:
Erforderlich importieren: from nltk.corpus import Stoppwörter

def stop_words_removal(): 
    with open("foo1.txt") as f:
            reading_file_line = f.readlines() #entire content, return  list 
            #print reading_file_line #list
            reading_file_info = [item.rstrip('\n') for item in reading_file_line]
            #print reading_file_info #List and strip \n
            #print ' '.join(reading_file_info)
            '''-----------------------------------------'''
            #Filtering & converting to lower letter
            for i in reading_file_info:
                words_filtered = [e.lower() for e in i.split() if len(e) >= 4]                
                print words_filtered

            '''-----------------------------------------'''
            '''removing the strop words from the file'''
            word_list = words_filtered[:] 
            #print word_list
            for word in words_filtered:
                        if word in nltk.corpus.stopwords.words('english'): 
                            print word
                            print word_list.remove(word)

            '''-----------------------------------------'''
            '''write the output in a file'''
            z = ' '.join(words_filtered)
            out_file = open("foo2.txt", "w")
            out_file.write(z)
            out_file.close()  

Das problem ist der 2. Teil des Codes "entfernen der Streichriemen Wörter aus der Datei" funktioniert nicht. Jeder Vorschlag wird sehr geschätzt. Danke.

Example Input File: 
'I a Love this car there', 'positive',
'This a view is amazing there', 'positive',
'He is my best friend there', 'negative'

Example Output:
['love', "car',", "'positive',"]
['view', "amazing',", "'positive',"]
['best', "friend',", "'negative'"]

Ich versuchte, so schlug er in diesem link, aber keiner von Ihnen arbeiten

  • Sind Sie sicher, dies ist die Ausgabe, die Sie wollen? Brauchst du die Satzzeichen?
  • Vielen Dank für die Antwort. Eigentlich ich brauche den eckigen Klammern, aber ich brauche klare Trennung der einzelnen Zeile. Der folgende code, den Sie geschrieben ist nur für die Letzte Zeile der Datei. Ich möchte zum entfernen der Stopp-Wörter in jeder Zeile des Textes.
  • ok ich bearbeitet meine Antwort
  • Danke Kumpel. Der folgende code, den Sie schrieb arbeiten wie ein Charme. Wie Sie erwähnen, die ich gerade importiert Zukunft und string, da bin ich mit python 2.7. Vielen Dank nochmal 🙂
InformationsquelleAutor J4cK | 2013-05-17
Schreibe einen Kommentar