Stoppwort-Entfernung mit NLTK

Ich versuche zu verarbeiten, die ein Benutzer eingegebenen text durch entfernen von Stoppwörtern mit nltk-toolkit, aber mit stoppwort-Entfernung der Wörter wie 'und', 'oder', 'nicht' wieder entfernt werden. Ich möchte diese Worte werden nach stopword Entfernung Prozess, wie Sie sind Operatoren, die erforderlich sind für die spätere Verarbeitung von text als Abfrage. Ich weiß nicht, welches sind die Worte, die sein können Operatoren in text-Abfrage, und ich will auch entfernen Sie unnötige Wörter aus meinem text.

InformationsquelleAutor der Frage Grahesh Parkar | 2013-10-02

53

Ich schlage vor, Sie erstellen Ihre eigene Liste von operator Worten, dass Sie aus der stoppwort-Liste. Sets können bequem abgezogen, also:
```
operators = set(('and', 'or', 'not'))
stop = set(stopwords...) - operators
```
Dann können Sie einfach testen, ob ein Wort in oder not in den Satz, ohne sich auf Sie, ob Ihre Mitarbeiter sind Teil der stoppwort-Liste. Sie können dann später zu einem anderen wechseln stoppwort-Liste oder fügen Sie einen operator aus.
```
if word.lower() not in stop:
    # use word
```
InformationsquelleAutor der Antwort otus

126

Es ist ein in-built stoppwort-Liste in NLTK aus 2.400 Stoppwörter für 11 Sprachen (Porter et al), siehe http://nltk.org/book/ch02.html

>>> from nltk import word_tokenize
>>> from nltk.corpus import stopwords
>>> stop = set(stopwords.words('english'))
>>> sentence = "this is a foo bar sentence"
>>> print([i for i in sentence.lower().split() if i not in stop])
['foo', 'bar', 'sentence']
>>> [i for i in word_tokenize(sentence.lower()) if i not in stop] 
['foo', 'bar', 'sentence']

Empfehle ich auf der Suche bei Verwendung von tf-idf, um Stoppwörter zu entfernen, siehe Auswirkungen der Wortstamm auf den Begriff Frequenz?

InformationsquelleAutor der Antwort alvas

25

@alvas Antwort macht den job, aber es kann getan werden, viel schneller. Angenommen, Sie haben documents: eine Liste von strings.
```
from nltk.corpus import stopwords
from nltk.tokenize import wordpunct_tokenize

stop_words = set(stopwords.words('english'))
stop_words.update(['.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}']) # remove it if you need punctuation 

for doc in documents:
    list_of_words = [i.lower() for i in wordpunct_tokenize(doc) if i.lower() not in stop_words]
```
Beachten Sie, dass aufgrund der Tatsache, dass Sie hier sind, suchen in einer Menge (nicht eine Liste) die Geschwindigkeit wäre theoretisch len(stop_words)/2 mal schneller, das ist wichtig, wenn Sie funktionieren müssen, sind durch viele Dokumente.

Für 5000 Dokumente, die von etwa 300 Wörter pro der Unterschied ist zwischen 1,8 Sekunden für mein Beispiel und 20 Sekunden für @alvas.

P. S. in den meisten Fällen müssen Sie teilen den text in Wörter, um eine andere Klassifizierung Aufgaben, für die tf-idf verwendet. So sind die meisten wahrscheinlich, es wäre besser, verwenden stemmer:
```
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
```
und zu verwenden [porter.stem(i.lower()) for i in wordpunct_tokenize(doc) if i.lower() not in stop_words] innerhalb einer Schleife.

InformationsquelleAutor der Antwort Salvador Dali
9

@alvas hat eine gute Antwort. Aber wieder, es hängt von der Art der Aufgabe, z.B. in der Anwendung, die Sie wollen zu berücksichtigen, alle conjunction z.B. und, oder, aber, wenn, während und alle determiner z.B. die, eine, einige, die meisten, alle, keine als Stopp-Wörter unter Berücksichtigung aller anderen Teile der Rede, wie legitim, dann möchten Sie vielleicht einen Blick in diese Lösung, welche use-Part-of-Speech-Tagset zu verwerfen Worte, Überprüfen Sie Tabelle 5.1:
```
import nltk

STOP_TYPES = ['DET', 'CNJ']

text = "some data here "
tokens = nltk.pos_tag(nltk.word_tokenize(text))
good_words = [w for w, wtype in tokens if wtype not in STOP_TYPES]
```
InformationsquelleAutor der Antwort Aamir Adnan

Können Sie string.Satzzeichen mit built-in NLTK Stoppwörter-Liste:

from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from string import punctuation

words = tokenize(text)
wordsWOStopwords = removeStopWords(words)

def tokenize(text):
        sents = sent_tokenize(text)
        return [word_tokenize(sent) for sent in sents]

def removeStopWords(words):
        customStopWords = set(stopwords.words('english')+list(punctuation))
        return [word for word in words if word not in customStopWords]

NLTK Stoppwörter komplette Liste

InformationsquelleAutor der Antwort UsmanZ

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.