Lemmatize französischer text

Habe ich einige text in Französisch, die ich verarbeiten muss, in gewisser Weise. Dafür brauche ich:

  • Ersten, die tokenisierung wird der text in Worte
  • Dann lemmatize diese Worte zu vermeiden, die Bearbeitung der gleichen Wurzel mehr als einmal

Soweit ich sehen kann, die wordnet lemmatizer in das NLTK funktioniert nur mit der englischen Sprache. Ich will etwas zurückgeben kann "vouloir", wenn ich es geben "voudrais" und so weiter. Ich kann auch nicht die tokenisierung richtig, weil die Apostrophe. Alle Zeiger wäre sehr dankbar. 🙂

InformationsquelleAutor yelsayed | 2012-10-29
Schreibe einen Kommentar