NLTK Kontext-Freie Grammatik Genaration

Arbeite ich an einem nicht-Englisch-parser mit Unicode-Zeichen. Für dass ich mich entschieden habe, NLTK.

Aber es erfordert einen vordefinierten Kontext-freie Grammatik wie folgt:

  S -> NP VP
  VP -> V NP | V NP PP
  PP -> P NP
  V -> "saw" | "ate" | "walked"
  NP -> "John" | "Mary" | "Bob" | Det N | Det N PP
  Det -> "a" | "an" | "the" | "my"
  N -> "man" | "dog" | "cat" | "telescope" | "park"
  P -> "in" | "on" | "by" | "with"

In meiner app, ich soll zu minimieren, hard-Codierung mit dem Einsatz von Regel-basierten Grammatik.
Zum Beispiel kann ich davon ausgehen, jedes Wort endet mit -ed oder -ing als verb. Daher sollte es für jeden gegebenen Kontext.

Wie kann ich füttern Grammatik-Regeln zu NLTK? Oder generieren Sie dynamisch mittels Finite-State-Maschine?

Sie können gerne Lesen diese Antwort denn Sie schreiben CFG.
Danke. Ich schaute, aber konnte es nicht verstehen. Gibt es eine Möglichkeit, ich kann füttern, python Variablen CFG ?
Wenn Sie wollen, um automatisch zu lernen CFG-Regeln, können Sie versuchen, die Umsetzung dieser www.aclweb.org/anthology/O06-1004 =)

InformationsquelleAutor ChamingaD | 2013-07-17

2

Vielleicht suchen Sie ja CFG.fromstring() (ehemals parse_cfg())?

Vom Kapitel 7 des NLTK Buchs (aktualisiert NLTK 3.0):
```
> grammar = nltk.CFG.fromstring("""
 S -> NP VP
 VP -> V NP | V NP PP
 V -> "saw" | "ate"
 NP -> "John" | "Mary" | "Bob" | Det N | Det N PP
 Det -> "a" | "an" | "the" | "my"
 N -> "dog" | "cat" | "cookie" | "park"
 PP -> P NP
 P -> "in" | "on" | "by" | "with"
 """)

> sent = "Mary saw Bob".split()
> rd_parser = nltk.RecursiveDescentParser(grammar)
> for p in rd_parser.parse(sent):
      print p
(S (NP Mary) (VP (V saw) (NP Bob)))
```
- Danke. Aber es ist immer noch schwer code Verben und Substantive richtig ? Gibt es trotzdem passieren string-Wert in der CFG ? wie V = variable_a
- Ich bin sicher, Sie könnten verketten von Zeichenfolgen und geben Sie dann in! stackoverflow.com/questions/12169839
- tatsächlich, von dem, was ich verstehe, in deiner ursprünglichen Frage, eine andere Sache, um zu versuchen (nicht ganz sicher, ob es möglich ist) zu tun, die teilweise POS-tagging nur auf die Worte, die Endung -ing oder -ed, und markieren Sie diese als V, so dass Sie nicht haben, um sorgen über die V-Regel der CFG.
InformationsquelleAutor arturomp
7

Wenn Sie einen parser, dann haben einen Schritt hinzufügen von pos-Tags vor dem eigentlichen parsing-es gibt keinen Weg, um erfolgreich zu bestimmen, die POS-Tags eines Wortes aus dem Kontext. Für Beispiel, 'geschlossen' werden können, ein Adjektiv oder ein verb; ein POS-tagger wird herauszufinden, der richtige tag für Sie, aus dem Kontext des Wortes. Dann können Sie die Ausgabe des POS-tagger erstellen Sie Ihre CFG.

Können Sie eines der vielen vorhandenen POS-tagger. In NLTK, können Sie einfach etwas wie:
```
import nltk
input_sentence = "Dogs chase cats"
text = nltk.word_tokenize(input_sentence)
list_of_tokens = nltk.pos_tag(text)
print list_of_tokens
```
Ist die Ausgabe:
```
[('Dogs', 'NN'), ('chase', 'VB'), ('cats', 'NN')]
```
die Sie verwenden können, um eine Grammatik string und füttern nltk.parse_cfg().
- Danke. Wird diese für die Arbeit nicht-Englisch-parser ?
- Nein, aber NLTK können Sie trainieren Sie Ihren eigenen tagger in einer sehr einfachen Art und Weise. Um jedoch zu tun, dass Sie gehen zu müssen einige tagged corpus der Sprache ist für die Ausbildung des statistischen Modell. Sie haben Zugang zu solchen Ressourcen? Was ist die Sprache, in der Sie arbeiten?
- Ich brauche, Regel-basiert, Grammatik-generation-Methode. Zum Beispiel Wörter mit der Endung-ed oder -ing, wie ein verb (in meinem app werde ich die Verwendung der unicode-Zeichen). Gibt es trotzdem zu tun, dass mit NLTK ?
- Ich denke mal, dass das bedeutet, dass Sie don ' T haben keine tagged-corpora in Ihrer Sprache? Jedenfalls, wenn Sie wollen eine voll regelbasierte tagger Sie haben zu erstellen it yourself (schreiben Sie selbst Regeln, wie, dass "wenn das Wort beginnt und endet, und das Vorherige Wort ist, dann wird dieses Wort ist ein Adjektiv). Ich glaube nicht, dass NLTK hat einen Mechanismus für, die. Es ist jedoch noch nicht klar ist mir, was Sie genau möchten Sie tun und warum müssen Sie explizit die Regel-basierte Systeme. Sie sind willkommen, natürlich auch, um uns eine detaillierte Beschreibung Ihrer Anforderungen.
- Dankbar für Ihre Hilfe. Ja, ich werde nicht getaggten Korpus. Aber ich brauche eine Methode, um festzustellen, POS-mithilfe von Regeln, mit minimalen hard-Codierung.
InformationsquelleAutor dkar
1

Können Sie NLTK RegexTagger, die reguläre Ausdrücke Fähigkeit zu entscheiden, token. Dies ist genau das, du musst in deinem Fall. Als token mit der Endung 'ing' wird markiert als gerunds und token (mit der Endung 'ed' wird markiert mit verb Vergangenheit. siehe das Beispiel unten.
```
patterns = [
    (r'.*ing$', 'VBG'), # gerunds
    (r'.*ed$', 'VBD'), # simple past
    (r'.*es$', 'VBZ'), # 3rd singular present
    (r'.*ould$', 'MD'), # modals
    (r'.*\'s$', 'NN$'), # possessive nouns
    (r'.*s$', 'NNS') # plural nouns
 ]
```
Beachten Sie, dass diese in der Reihenfolge ausgeführt, und die erste, die passt, wird angewendet. Jetzt
können wir einen tagger und es verwenden, um tag ein Satz. Nach diesem Schritt, ist es richtig, über einen
Fünftel der Zeit.
```
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.tag(your_sent)
```
können Sie Kombination Tagger für die Verwendung gemeinsam mehrere tagger in einer Sequenz.

InformationsquelleAutor Sanjiv
0

Können Sie nicht schreiben, diese Art von Regeln in nltk jetzt ohne jede Anstrengung, aber Sie können ein paar tricks.

Beispielsweise transkribieren Ihre Strafe in einer Art word-informative Etiketten und schreiben Sie Ihre Grammatik-Regeln entsprechend.

Beispiel (mit POS-Tags als Aufkleber):
```
Dogs eat bones. 
```
wird:
```
NN V NN.
```
Und Grammatik terminal-Regeln Beispiel:
```
V -> 'V'
```
Wenn das nicht genug ist, sollten Sie einen Blick für eine flexible Formalismus Umsetzung.

InformationsquelleAutor ermath

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.