Mithilfe von WordNet, um zu bestimmen, semantische ähnlichkeit zwischen zwei Texten?

Wie können Sie bestimmen die semantische ähnlichkeit zwischen zwei Texten in python mithilfe von WordNet?

Die offensichtliche preproccessing wäre entfernen der Stoppwörter und stemming, aber was dann?

Nur so kann ich mir vorstellen, wäre die Berechnung der WordNet-Pfad Abstand zwischen den einzelnen Wörtern in den beiden Texten. Dies ist standard für unigrams. Aber diese sind groß (400 word -) Texte, die Natürliche Sprache der Dokumente, mit Worten, die nicht in einer bestimmten Reihenfolge oder Struktur (andere als diejenigen, die von der englischen Grammatik). Also, welche Worte würden Sie Vergleiche zwischen den Texten? Wie würden Sie tun dies in python?

  • Ich würde iterieren über alle Worten und vergleichen, die dem gleichen index in den anderen text mit einer levenshtein-Distanz und versuchen zu minimieren
  • Die beiden Texte sind nicht organisiert, durch einen ähnlichen index. Es wäre eine wikipedia-Seite über Hunde und andere Katzen, zum Beispiel.
InformationsquelleAutor Zach | 2012-07-13
Schreibe einen Kommentar