Python-NLTK vs. zugehörigen Java-Bibliotheken?
Ich verwendet habe, LingPipe, Stanford NER, RiTa und verschiedene Satz ähnlichkeit Bibliotheken für meine bisherigen Java-Projekte, die sich auf text (vor -) Verarbeitung (Indexierung, xml-tagging, topic detection, etc.) große Mengen der englische text (rund 10.000 Dokumente Summen - > 1 GB text). Vielleicht bin ich eine schlechte Java-Programmierer, aber ich finde mich bei der Eingabe eine Menge code, und verwenden Sie eine Menge von Bibliotheken, wenn ich schalte auf einen anderen Korpus. Insgesamt habe ich das Gefühl, dass dort vielleicht ein besseres Werkzeug für den job.
Ich denke, meine Frage ist, werde ich ein Umstieg auf Python und NLTK für information retrieval /language processing? Oder gibt es genug vor-und Nachteile zu machen, sehr subjektiv? Ist NLTK intuitiv genug, um gelernt werden schnell?
Ich würde mir meine Hände schmutzig, aber ich gewann ' T haben Zugang zu einer persönlichen Maschine für die nächsten Tage.
Du musst angemeldet sein, um einen Kommentar abzugeben.
NLTK ist gut für die Verarbeitung natürlicher Sprache. Ich habe es benutzt um meinen data-mining-Projekt. Sie trainieren können, Ihre eigenen analyzer. Die Lernkurve ist nicht steil.
NLTK hat riesige Korpus für das training der analyzer. Sie können auch Ihre eigenen Daten, zum Beispiel eine Zeitschrift, die ein part-of-speech-tagged.
Weil python sehr gut für die Verarbeitung von text, können Sie es versuchen. Plus, es hat eine online - tutorial
Bitte vergessen Sie nicht die Verwendung von python 2.x-version. Versuchen Sie python 2.6.
NLTK kann nicht gut mit python 3.x
Wenn Sie bereits wissen, die Grundlagen von NLP, ich denke NLTK sollte Recht einfach zu Holen. Es hat ein Bündel von Unterlagen, 2 Bücher, und ich habe geschrieben, eine Reihe von Artikeln & tutorials auf streamhacker.com. Und wenn es etwas gibt, die von der Java-Pakete, die Sie nicht verlieren wollen, könnten Sie theoretisch kombinieren Sie es mit NLTK mit Jython (und vielleicht execnet).
Eventuell möchten Sie auch einen Blick auf die Muster Bibliothek.