Lemmatize französischer text

Habe ich einige text in Französisch, die ich verarbeiten muss, in gewisser Weise. Dafür brauche ich:

Ersten, die tokenisierung wird der text in Worte
Dann lemmatize diese Worte zu vermeiden, die Bearbeitung der gleichen Wurzel mehr als einmal

Soweit ich sehen kann, die wordnet lemmatizer in das NLTK funktioniert nur mit der englischen Sprache. Ich will etwas zurückgeben kann "vouloir", wenn ich es geben "voudrais" und so weiter. Ich kann auch nicht die tokenisierung richtig, weil die Apostrophe. Alle Zeiger wäre sehr dankbar. 🙂

InformationsquelleAutor yelsayed | 2012-10-29

15

Hier's eine alte, aber relevant Kommentar von einem nltk dev. Sieht aus wie die meisten fortgeschrittenen Wortstammerkennung in nltk alle Englisch besonderes:
Das nltk.Stamm-Modul enthält derzeit 3 Wortstammerkennung: der Portier
stemmer, der Lancaster stemmer und einem Regulären Ausdruck basiert
stemmer. Der Porter-stemmer und der Lancaster stemmer sind sowohl Englisch-
spezifische. Die regular-expression-basierte stemmer angepasst werden können
verwenden Sie beliebige reguläre Ausdrücke, die Sie wünschen. So sollten Sie in der Lage sein zu schreiben
einfache stemmer für nicht-englische Sprachen, die mit den regexp-stemmer.
Zum Beispiel für Französisch:
```
from nltk import stem
stemmer = stem.Regexp('s$|es$|era$|erez$|ions$| <etc> ')
```
Aber würden Sie brauchen, um mit der Sprache-spezifische regelmäßigen
Ausdruck selbst. Für eine erweiterte stemmer, wäre es wahrscheinlich
notwendig sein, ein neues Modul hinzufügen. (Dies könnte ein guter student sein
Projekt.)

Weitere Informationen auf den regexp-stemmer:

http://nltk.org/doc/api/nltk.stem.regexp.Regexp-class.html

-Edward
Hinweis: den link gibt er tot ist, sehen hier für die aktuelle regexstemmer Dokumentation.

Den zuletzt hinzugefügten snowball stemmer zu sein scheint in der Lage, Stammzellen Französisch obwohl. Lassen Sie uns ihn auf die Probe:
```
>>> from nltk.stem.snowball import FrenchStemmer
>>> stemmer = FrenchStemmer()
>>> stemmer.stem('voudrais')
u'voudr'
>>> stemmer.stem('animaux')
u'animal'
>>> stemmer.stem('yeux')
u'yeux'
>>> stemmer.stem('dors')
u'dor'
>>> stemmer.stem('couvre')
u'couvr'
```
Wie Sie sehen können, einige Ergebnisse sind ein bisschen zweifelhaft.

Nicht ganz das, was Sie erhofft hatten, aber ich denke, es ist ein Anfang.
- ja es ist enttäuschend, es ist kein stemmer für nicht-englische Sprachen. was ich am Ende dabei ist eigentlich, dass ich in Token aufgeteilt, die Worte auf Satzzeichen, dann entfernte ich alle Rest-ein-Buchstaben-Artikel (wie die übrigen l in "l ' Ensemble", zum Beispiel). Ich habe dann eine Liste von Wörtern und der entsprechenden lemmata, insbesondere die ein Gastgeber im limsi.fr/Individu/anne/OLDlexique.txt, die auf die verwiesen wurde, durch mehrere Beiträge online, es hat den trick. Der snowball stemmer sieht aus wie es funktioniert, auch Dank Junuxx. 🙂
InformationsquelleAutor Junuxx

die beste Lösung, die ich gefunden haben, ist spacig, es scheint, die Arbeit zu tun

import spacy
nlp = spacy.load('fr')

doc = nlp(u"voudrais non animaux yeux dors couvre.")
for token in doc:
    print(token, token.lemma_)

Ergebnis:

voudrais vouloir
non non
animaux animal
yeux oeil
dors dor
couvre couvrir

Kasse die Dokumentation für weitere details: https://spacy.io/models/fr && https://spacy.io/usage

InformationsquelleAutor ksayeh

2

Vielleicht mit TreeTagger ? Ich habe noch nicht ausprobiert, aber diese app kann auch in Französisch

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

http://txm.sourceforge.net/installtreetagger_fr.html
- gosh, treetaggers geben unbeaufsichtigt Lemmata, würde ich dir raten, zu bleiben Weg von es, wenn möglich.
- Kann ich bitte wissen wie verwenden Sie treetagger für die Worte? von dem, was ich verstanden mit treetagger wir können nur pos-tag Worte.
InformationsquelleAutor Klemm
1

Wenn Sie die Durchführung Machine Learning algorithmen auf Ihre Texte, die Sie verwenden können n-Gramme anstelle von Wort-Token. Es ist nicht unbedingt lemmatization aber es erkennt eine Reihe von n gleichen Buchstaben und es ist supprisingly mächtig zu sammeln Wörter mit der gleichen Bedeutung.

Benutze ich sklearn die Funktion CountVectorizer(analyzer='char_wb') und für einige spezifische text, es ist viel effizienter als die Beutel von Worten.

InformationsquelleAutor Brice
0

Wenn du eine text-mining-Projekt in einer französischen bank, ich empfehle das Paket cltk.

install cltk
from cltk.lemmatize.french.lemma import LemmaReplacer

mehr details in cltk

InformationsquelleAutor Z.LI

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.