Mithilfe von WordNet, um zu bestimmen, semantische ähnlichkeit zwischen zwei Texten?

Wie können Sie bestimmen die semantische ähnlichkeit zwischen zwei Texten in python mithilfe von WordNet?

Die offensichtliche preproccessing wäre entfernen der Stoppwörter und stemming, aber was dann?

Nur so kann ich mir vorstellen, wäre die Berechnung der WordNet-Pfad Abstand zwischen den einzelnen Wörtern in den beiden Texten. Dies ist standard für unigrams. Aber diese sind groß (400 word -) Texte, die Natürliche Sprache der Dokumente, mit Worten, die nicht in einer bestimmten Reihenfolge oder Struktur (andere als diejenigen, die von der englischen Grammatik). Also, welche Worte würden Sie Vergleiche zwischen den Texten? Wie würden Sie tun dies in python?

Ich würde iterieren über alle Worten und vergleichen, die dem gleichen index in den anderen text mit einer levenshtein-Distanz und versuchen zu minimieren
Die beiden Texte sind nicht organisiert, durch einen ähnlichen index. Es wäre eine wikipedia-Seite über Hunde und andere Katzen, zum Beispiel.

InformationsquelleAutor Zach | 2012-07-13

9

Eine Sache, die Sie tun können, ist:
1. Töten, die stop-Wörter
2. Finden Sie so viele Wörter wie möglich, die maximale Kreuzungen der Synonyme und Antonyme mit anderen Worten in der gleichen doc. Nennen wir diese "wichtige Wörter"
3. Überprüfen, um zu sehen, ob der Satz die wichtigsten Aussagen der einzelnen Dokumente ist die gleiche. Je näher Sie zusammen sind, desto mehr semantisch ähnlichen Dokumenten.
Gibt es einen anderen Weg. Compute Satz Bäume aus den Sätzen in jeder doc. Dann vergleichen Sie die beiden Wälder. Ich habe einige ähnliche Arbeit für einen Kurs, der vor langer Zeit. Hier ist der code (denken Sie daran, dies war vor langer Zeit und es war Klasse. Also der code ist extrem hacky, um das Mindeste zu sagen).

Hoffe, das hilft
- +1 Gute Ideen. Im Blick auf deinen code, aber ich sehe nicht, wie Sie zu vergleichen, Satz Bäumen. Vermutlich sollte es nur nehmen Sie etwa 15 Zeilen code mit NLTK in python, nicht wahr?
- Ich habe nie zu diesem Punkt. Aber es sollte einen geraden Schuss die Ausgabe von meinem code
- Hängt davon ab, wie Sie wollen, vergleichen Sie Satz Bäumen. Aber es sollte nicht zu viel code.
InformationsquelleAutor DrG4dget

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.