Wie generieren bi - /tri-Gramm mit spacig/nltk

Die Eingabe von text sind immer auf der Liste der dish-Namen, wo es 1~3 Adjektiven und einem Substantiv

Eingänge

thai iced tea
spicy fried chicken
sweet chili pork
thai chicken curry

Ausgänge:

thai tea, iced tea
spicy chicken, fried chicken
sweet pork, chili pork
thai chicken, chicken curry, thai curry

Grundsätzlich bin ich auf der Suche, um eine Analyse der Satz-Baum und versuchen zu generieren bi-Gramm durch die Kombination eines Adjektivs mit dem Substantiv.

Und ich möchte erreichen, das mit spacigen oder nltk

Siehe stackoverflow.com/a/34742540/610569 und stackoverflow.com/questions/17531684/...

InformationsquelleAutor samol | 2016-08-31

Ich verwendet spacig 2.0 mit englischen Modell. Finden Nomen und "nicht-Substantive" zum Parsen der Eingabe und dann habe ich zusammen nicht-Substantive und Substantive zu erstellen, die den gewünschten Ausgang.

Ihre Eingabe:

s = ["thai iced tea",
"spicy fried chicken",
"sweet chili pork",
"thai chicken curry",]

Spacig Lösung:

import spacy
nlp = spacy.load('en') # import spacy, load model

def noun_notnoun(phrase):
    doc = nlp(phrase) # create spacy object
    token_not_noun = []
    notnoun_noun_list = []

    for item in doc:
        if item.pos_ != "NOUN": # separate nouns and not nouns
            token_not_noun.append(item.text)
        if item.pos_ == "NOUN":
            noun = item.text

    for notnoun in token_not_noun:
        notnoun_noun_list.append(notnoun + " " + noun)

    return notnoun_noun_list

Rufen Sie die Funktion:

for phrase in s:
    print(noun_notnoun(phrase))

Ergebnisse:

['thai tea', 'iced tea']
['spicy chicken', 'fried chicken']
['sweet pork', 'chili pork']
['thai chicken', 'curry chicken']

Es wäre gut, wenn Sie könnte, beschreiben Sie Ihren Algorithmus in Worten (nicht nur code). Was soll es tun? Wird es Arbeit für längere Sequenzen? Ich habe bemerkt, dass Ihr Ansatz nicht beibehalten Wort um; zum Beispiel, die Ausgabe enthält "curry-Huhn", obwohl "curry" erscheint nie vor dem "Huhn" in der Eingabe.
Einige Kommentare Hinzugefügt. Yep, tut es nicht - ich habe nicht berücksichtigt, dass als Voraussetzung.

InformationsquelleAutor Petr Matuska

4

Erreichen Sie diese in wenigen Schritten mit NLTK:
1. PoS-tag der Sequenzen
2. erzeugen die gewünschten n-Gramme (in deinen Beispielen gibt es keine Zeichen, aber skip-Gramme, die erzeugt werden können durch die Trigramme und dann Stanzen aus der Mitte token)
3. wirf alle n-Gramme, die nicht dem Muster entsprechen JJ NN.
Beispiel:
```
def jjnn_pairs(phrase):
    '''
    Iterate over pairs of JJ-NN.
    '''
    tagged = nltk.pos_tag(nltk.word_tokenize(phrase))
    for ngram in ngramise(tagged):
        tokens, tags = zip(*ngram)
        if tags == ('JJ', 'NN'):
            yield tokens

def ngramise(sequence):
    '''
    Iterate over bigrams and 1,2-skip-grams.
    '''
    for bigram in nltk.ngrams(sequence, 2):
        yield bigram
    for trigram in nltk.ngrams(sequence, 3):
        yield trigram[0], trigram[2]
```
Verlängern das Muster ('JJ', 'NN') und die gewünschten n-Gramm für Ihre Bedürfnisse.

Ich denke, es gibt keine Notwendigkeit, für die Analyse.
Das große problem dieses Ansatzes ist allerdings, dass die meisten PoS-tagger wird wahrscheinlich nicht tag alles genau so, wie Sie wollen.
Zum Beispiel die Standard-PoS-tagger meiner NLTK installation tagged "chili" als NN, nicht JJ, und "gebraten" habe VBD.
Analyse wird nicht helfen Sie mit, dass, obwohl!

InformationsquelleAutor lenz

Etwas wie dieses:

>>> from nltk import bigrams
>>> text = """thai iced tea
... spicy fried chicken
... sweet chili pork
... thai chicken curry"""
>>> lines = map(str.split, text.split('\n'))
>>> for line in lines:
...     ", ".join([" ".join(bi) for bi in bigrams(line)])
... 
'thai iced, iced tea'
'spicy fried, fried chicken'
'sweet chili, chili pork'
'thai chicken, chicken curry'

Alternativ mit colibricore https://proycon.github.io/colibri-core/doc/#installation ;P

Hey Alvas, ich bin explizit zu vermeiden versucht Adjektiv Adjektiv. z.B. speziell versuchen zu vermeiden, "paniertes"

InformationsquelleAutor alvas

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.