Mithilfe von WordNet, um zu bestimmen, semantische ähnlichkeit zwischen zwei Texten?
Wie können Sie bestimmen die semantische ähnlichkeit zwischen zwei Texten in python mithilfe von WordNet?
Die offensichtliche preproccessing wäre entfernen der Stoppwörter und stemming, aber was dann?
Nur so kann ich mir vorstellen, wäre die Berechnung der WordNet-Pfad Abstand zwischen den einzelnen Wörtern in den beiden Texten. Dies ist standard für unigrams. Aber diese sind groß (400 word -) Texte, die Natürliche Sprache der Dokumente, mit Worten, die nicht in einer bestimmten Reihenfolge oder Struktur (andere als diejenigen, die von der englischen Grammatik). Also, welche Worte würden Sie Vergleiche zwischen den Texten? Wie würden Sie tun dies in python?
- Ich würde iterieren über alle Worten und vergleichen, die dem gleichen index in den anderen text mit einer levenshtein-Distanz und versuchen zu minimieren
- Die beiden Texte sind nicht organisiert, durch einen ähnlichen index. Es wäre eine wikipedia-Seite über Hunde und andere Katzen, zum Beispiel.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Eine Sache, die Sie tun können, ist:
Gibt es einen anderen Weg. Compute Satz Bäume aus den Sätzen in jeder doc. Dann vergleichen Sie die beiden Wälder. Ich habe einige ähnliche Arbeit für einen Kurs, der vor langer Zeit. Hier ist der code (denken Sie daran, dies war vor langer Zeit und es war Klasse. Also der code ist extrem hacky, um das Mindeste zu sagen).
Hoffe, das hilft