Wie zu brechen ein Absatz von Sätzen in Python
Muss ich analysieren Sätze aus einem Absatz in Python. Gibt es ein vorhandenes Paket zu tun, oder sollte ich versuchen regex hier?
- Gibt es doppelte Leerzeichen nach dem Satzende?
- Ihr problem Erklärung nicht ausreichende Informationen, die uns die Arbeit mit.
- Es gibt hier einige Antworten: stackoverflow.com/questions/116494/...
- "Rein syntaktische Ansätze mit regexps sound problematisch... man denke nur an die 5,5 Weise, Prof. Smith aus den USA erzählte uns, Perioden verwendet werden kann."
- Diese Dinge sind in der Regel durch engagierte Satz-splitter-tools / Bibliothek-Module. Versuchen zu tun, mit regexes alleine nicht ausreicht, gute Ergebnisse zu erzielen. Der bessere Splitter ausgebildet wurden.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Den
nltk.die tokenisierung
- Modul ist konzipiert für dieses und Griffe Grenzfälle. Zum Beispiel:Hier ist, wie ich immer bin, die ersten n Sätze:
Referenz: http://www.daniweb.com/software-development/python/threads/303844