Immer eine Große Liste von Substantiven (oder Adjektive) in Python NLTK; oder Python Mad Libs

Wie diese Frage, ich bin daran interessiert, eine große Liste von Wörtern, die von Wortart (eine lange Liste von Substantiven; eine Liste der Adjektive) verwendet werden programmgesteuert anderswo. Diese Antwort hat eine Lösung mit Hilfe der WordNet-Datenbank (in SQL) - format.

Gibt es einen Weg, um an eine solche Liste mit Hilfe der Korpora/tools integriert in das Python NLTK. Ich könnte eine große Menge von text, analysieren Sie diese und speichern Sie dann die Nomen und Adjektiven. Aber angesichts der Wörterbücher und andere Hilfsmittel eingebaut, ist es ein intelligenter Weg zu extrahieren Sie einfach die Wörter, die bereits in der NLTK-datasets, kodiert als Substantive/Adjektive (was auch immer)?

Dank.

InformationsquelleAutor cforster | 2013-07-19

9

Es ist erwähnenswert, dass Wordnet ist tatsächlich eine der Korpora enthalten in der NLTK-downloader standardmäßig. So könnte man unter Umständen verwenden Sie einfach die Lösung, die Sie bereits gefunden, ohne neu zu erfinden keine Räder.

Beispielsweise könnten Sie nur so etwas wie dies tun, um alle Nomen-synsets:
```
from nltk.corpora import wordnet as wn

for synset in list(wn.all_synsets('n')):
    print synset

# Or, equivalently
for synset in list(wn.all_synsets(wn.NOUN)):
    print synset
```
Dass Beispiel geben Sie jedes Substantiv, das Sie wollen, und es wird auch Sie in die Gruppe Ihrer synsets, so Sie versuchen können, um sicher zu sein, dass Sie in den richtigen Kontext.
- Ausgezeichnet. Ich werde versuchen, diese. Ich wusste, dass wordnet war Teil von NLTK, aber ich wusste nicht grok die api ausreichend. Danke.
- Keine Sorge, glücklich zu helfen.
- Sollte dies ...list(wn.all_synsets(wn.NOUN))...? wn.SUBSTANTIV ist eine Konstante auf 'n', aber es ist besser lesbar
- wohl mehr lesbar, ich werde den Hinweis aber, danke für bringing it up!
- Liste(wn.wordnet.all_synsets(wn.wordnet.SUBSTANTIV)) für python 3, 'ADJ', 'ADJ_SAT', 'ADV', 'VERB' sind auch möglich
InformationsquelleAutor Slater Victoroff
1

Sollten Sie die Moby Wortarten-Projekt Daten. Seien Sie nicht fixiert auf nur mit, was direkt in NLTK standardmäßig. Es wäre wenig Arbeit, um die Dateien herunterzuladen für diese und ziemlich leicht zu analysieren, Sie mit NLTK einmal geladen.

InformationsquelleAutor ely
1

Sah ich eine ähnliche Frage früher in dieser Woche (kann nicht finden den link), aber wie ich dann gesagt habe, ich glaube nicht, dass die Aufrechterhaltung einer Liste von Substantiven/Adjektiven/was auch immer, ist eine tolle Idee. Dies ist in Erster Linie, weil das gleiche Wort kann verschiedene Teile der Sprache, je nach Kontext.

Allerdings, wenn Sie sind immer noch tot-set auf die Verwendung dieser Listen, dann ist hier, wie ich es tun würde (ich habe nicht eine Arbeit NLTK installiert auf dieser Maschine, aber ich erinnere mich an die Grundlagen):
```
nouns = set()
for sentence in my_corpus.sents():
    # each sentence is either a list of words or a list of (word, POS tag) tuples
    for word, pos in nltk.pos_tag(sentence): # remove the call to nltk.pos_tag if `sentence` is a list of tuples as described above

        if pos in ['NN', "NNP"]: # feel free to add any other noun tags
            nouns.add(word)
```
Hoffe, das hilft
- AH, warum pos_tag einem anderen Korpus, wenn Sie nur könnten haben eine bereits eine gebaut? Ich glaube, das würde extrem lange Zeit für einen großen Korpus.
- Je nach Anwendungsfall ist die Tatsache, dass dasselbe "Wort" (sagen wir mal "string", um nicht die Linguisten böse) existieren können, da mehrere Teile der Rede, ist kein problem. Wenn Sie schreiben eine Mad-Lib completer, die Tatsache, dass scratch ist sowohl Substantiv und verb, ist kein problem, oder? Ich mag, dass diese Lösung erfordert keine herunterladen/Parsen einer anderen Datei.
- Ich wollte damit nicht sagen, dass die OP sollte pos-tag einen neuen Korpus. Vielmehr wollte ich vermitteln, dass einem der Korpora, die kommt mit NLTK sollten markiert werden. Wenn ich mich richtig erinnere, wenn der Korpus ist bereits markiert, pos_tag führt keine neuen tagging, sondern nur die Renditen der bereits strukturierten Daten
- Ooh, ich sehe. Mein Fehler, das macht viel mehr Sinn.
InformationsquelleAutor inspectorG4dget

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.