Parse text die Eigennamen (Namen und Organisationen) - python nltk

Ich versuche zu extrahieren Substantive wie Namen und Organisation Namen von sehr kleine Stücke von Text, wie sms, die basic-Parser zur Verfügung, mit nltk Suche nach Eigennamen mit NLTK WordNet sind in der Lage, die Substantive aber das problem ist, wenn wir Eigennamen nicht beginnen mit einem Großbuchstaben , für Texte wie dieser, die Namen wie sumit nicht erkannt und als Eigennamen

>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]
  • Sie könnten versuchen, truecasing vor der Anwendung der named entity recognizer.
Schreibe einen Kommentar