Parse text die Eigennamen (Namen und Organisationen) - python nltk
Ich versuche zu extrahieren Substantive wie Namen und Organisation Namen von sehr kleine Stücke von Text, wie sms, die basic-Parser zur Verfügung, mit nltk Suche nach Eigennamen mit NLTK WordNet sind in der Lage, die Substantive aber das problem ist, wenn wir Eigennamen nicht beginnen mit einem Großbuchstaben , für Texte wie dieser, die Namen wie sumit nicht erkannt und als Eigennamen
>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]
- Sie könnten versuchen, truecasing vor der Anwendung der named entity recognizer.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Möchten Sie vielleicht einen Blick auf python-nameparser.
Er versucht zu erraten, Großschreibung Namen auch. Sorry für die unvollständige Antwort, aber ich habe nicht viel Erfahrung mit python-nameparser.
Viel Glück!
Gibt es einen besseren Weg, um zu extrahieren, Namen von Personen und Organisationen
Jedoch alle Named Entity Recognizers Begehen Fehler. Wenn Sie wirklich nicht wollen, verpassen keine richtigen Namen, man könnte ein dict von Eigennamen und überprüfen Sie, ob der name enthalten ist in dem dict.
versuchen, diesen code
Können Sie bekommen Namen von person, Organisation, Standorte mit Hilfe dieser ne_chunk () - Funktion. Hoffe, es hilft. Thankz