Erkennen, die englischen Zeitformen mit NLTK
Ich Suche eine Möglichkeit gegeben, einen englischen text zählen-verb-Sätze in Vergangenheit, Gegenwart und Zukunft spannt. Für jetzt bin ich mit NLTK, eine POS (Part-Of-Speech) tagging, und dann zählen Sie sagen, 'VBD' to get past tenses. Dies ist nicht genau genug, obwohl, so dass ich glaube, ich muss gehen Sie weiter und nutzen die Segmentierung, um Sie dann zu analysieren VP-Stücke für bestimmte angespannt Muster. Gibt es alles bestehenden, die das tut? Weitergehende Lektüre, die hilfreich sein könnten? Die NLTK-Buch konzentriert sich hauptsächlich auf die NP-chunks und ich finde Recht wenig Infos auf der VP-chunks.
- Es ist ein Fehler in deiner Logik. Wenn ein chunker erkennen kann NP, dann muss es in der Lage sein, zu erkennen VP.
- Natürlich, aber ich bin hauptsächlich daran interessiert, weitere VP-Analyse - wie Sie einen Unterschied machen zwischen verschiedenen Zeitformen.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Dir genaue Antwort hängt davon ab, welche chunker, die Sie verwenden möchten, aber die Liste Verstehens werden Sie ergreifen, ein langer Weg. Dies wird Ihnen die Anzahl der verb-Phrasen mit einer nicht-existenten, chunker.
Können Sie eine besser abgestimmte Herangehensweise an zahlen erkennen von Zeitformen.
Hierzu können Sie entweder die Berkeley Parser oder Der Stanford Parser. Aber ich weiß nicht, ob es eine Python-Schnittstelle zur Verfügung, die entweder für.
tagger = nltk.tag.stanford.POSTagger('models/german-fast.tagger', 'stanford-postagger.jar')
Sie können codieren, die strings in UTF-8 in der ersten (zumindest für das Deutsche Modell).