Alle Latent Semantic Indexing?
Gibt es eine open-source-Implementierung von LSI in Java? Ich will, dass die Bibliothek für mein Projekt. Ich habe gesehen, jLSI, aber es implementiert einige andere Modelle von LSI. Ich möchte ein standard-Modell.
- Vielen Dank für das hinzufügen der Kommentare über jLSI.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Haben Sie als LDA (Latent Dirichlet allocation)? Ich habe nicht wirklich, aber ich hatte das gleiche problem mit der LSI vor kurzem (Patente). Von dem, was ich verstehe, LDA ist ein Zusammenhang/leistungsfähigere Technik. http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation hat offenbar einige links zu open-source-Implementierungen.
Einer google-Suche nach java-LSI führt zu eine ähnliche Frage empfiehlt SemanticVectors. Ein Paket, das auf Basis von Lucene, die 'ähnliche' zu LSI. Ich weiß nicht, ob es ist näher als die jLSI Umsetzung.
Diesem thread auch erwähnt, dass die LSI ist patentiert und es gibt nicht eine Menge von Implementierungen der es. Also, wenn Sie brauchen eine standard-Implementierung haben Sie eventuell die Verwendung einer anderen Sprache als java.
Den S-Space-Paket hat eine open-source-version der LSA, mit Bindungen für die LSI-Dokument-Vektoren. (Beide Ansätze arbeiten nach dem gleichen term-Dokument-matrix und gleichwertig sind, außer in der Ausgabe.) Es ist ein ziemlich skalierbaren Ansatz, der verwendet die thin-SVD. Ich habe es zu laufen LSI auf alle von Wikipedia mit kein Problem (nach dem entfernen der seltenen Begriffe mit weniger als 5 vorkommen).
Als Scott Ray erwähnt, die SemanticVectors-Paket hat auch einen guten LSI-Implementierung, die vor kurzem eingeschaltet, um mit der gleichen thin-SVD (SVDLIBJ), so dass Sie vielleicht zu prüfen, ob aus, als hätte man Sie nicht vor.
eine google-Suche für die NLP-tools ermöglichen das Folien, die ich denke, hilft ...
Ich glaube, dass LSA/LSI wurde patentiert im Jahr 1989, was bedeutet, dass das patent haben sollte, gerade abgelaufen. Hoffentlich sehen wir einige nette open-source-Anwendungen, bald.
Haben Sie versucht, die Semantische Vektor-Paket?
http://code.google.com/p/semanticvectors/