Erkennen, die englischen Zeitformen mit NLTK

Ich Suche eine Möglichkeit gegeben, einen englischen text zählen-verb-Sätze in Vergangenheit, Gegenwart und Zukunft spannt. Für jetzt bin ich mit NLTK, eine POS (Part-Of-Speech) tagging, und dann zählen Sie sagen, 'VBD' to get past tenses. Dies ist nicht genau genug, obwohl, so dass ich glaube, ich muss gehen Sie weiter und nutzen die Segmentierung, um Sie dann zu analysieren VP-Stücke für bestimmte angespannt Muster. Gibt es alles bestehenden, die das tut? Weitergehende Lektüre, die hilfreich sein könnten? Die NLTK-Buch konzentriert sich hauptsächlich auf die NP-chunks und ich finde Recht wenig Infos auf der VP-chunks.

Es ist ein Fehler in deiner Logik. Wenn ein chunker erkennen kann NP, dann muss es in der Lage sein, zu erkennen VP.
Natürlich, aber ich bin hauptsächlich daran interessiert, weitere VP-Analyse - wie Sie einen Unterschied machen zwischen verschiedenen Zeitformen.

InformationsquelleAutor Michael Pliskin | 2010-08-08

10

Dir genaue Antwort hängt davon ab, welche chunker, die Sie verwenden möchten, aber die Liste Verstehens werden Sie ergreifen, ein langer Weg. Dies wird Ihnen die Anzahl der verb-Phrasen mit einer nicht-existenten, chunker.
```
len([phrase for phrase in nltk.Chunker(sentence) if phrase[1] == 'VP'])
```
Können Sie eine besser abgestimmte Herangehensweise an zahlen erkennen von Zeitformen.
- Danke für den Zeiger, das ist, was ich bin gonna verwenden - meine nächste Frage ist, ob es etwas vorhandenes zu erkennen angespannt Muster. Für jede VP würde ich gerne wissen was angespannt ist es in.
- Habe ich es tatsächlich geschafft mein problem zu lösen mit diesem Ansatz, so dass dieser tagging als Antwort akzeptiert. Der folgende Artikel ist wirklich hilfreich: streamhacker.com/2009/02/23/chunk-extraction-with-nltk
- Hallo Michael, schön zu hören, dass alles funktioniert gut für Sie!
InformationsquelleAutor Tim McNamara
1

Hierzu können Sie entweder die Berkeley Parser oder Der Stanford Parser. Aber ich weiß nicht, ob es eine Python-Schnittstelle zur Verfügung, die entweder für.
- Vielen Dank, das könnte eine option sein - jedoch als ich bin stark mit NLTK schon, könnte es ziemlich viel Arbeit zu wechseln. Aussehen obwohl.
- Es ist eine Schnittstelle für den Stanford-Parser in das NLTK. Sie können es verwenden, wie folgt: tagger = nltk.tag.stanford.POSTagger('models/german-fast.tagger', 'stanford-postagger.jar') Sie können codieren, die strings in UTF-8 in der ersten (zumindest für das Deutsche Modell).
- Berkeley war falsch geschrieben oben. Ich kann nicht empfehlen typo fixes für die Antwort.
InformationsquelleAutor ars

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.