Erzeugung von Zufallszahlen Sätze von benutzerdefinierten text in Python-NLTK?

Ich habe Probleme mit dem NLTK unter Python, speziell die .generate () - Methode.

generieren(self, length=100)

Print random text, generiert mit einem Trigramm Sprachmodell (language model).

Parameter:
   * length (int) - The length of text to generate (default=100)

Hier ist eine vereinfachte version von dem, was ich bin versucht.

import nltk

words = 'The quick brown fox jumps over the lazy dog'
tokens = nltk.word_tokenize(words)
text = nltk.Text(tokens)
print text.generate(3)

Diese wird immer generieren

Building ngram index...
The quick brown
None

Als gegen einen zufälligen Satz aus den Wörtern.

Hier ist meine Ausgabe, wenn ich

print text.generate()

Building ngram index...
The quick brown fox jumps over the lazy dog fox jumps over the lazy
dog dog The quick brown fox jumps over the lazy dog dog brown fox
jumps over the lazy dog over the lazy dog The quick brown fox jumps
over the lazy dog fox jumps over the lazy dog lazy dog The quick brown
fox jumps over the lazy dog the lazy dog The quick brown fox jumps
over the lazy dog jumps over the lazy dog over the lazy dog brown fox
jumps over the lazy dog quick brown fox jumps over the lazy dog The
None

Wieder angefangen mit dem gleichen text, aber dann variiert werden. Ich habe auch versucht, mit dem ersten Kapitel aus Orwells 1984. Wieder, dass immer beginnt mit dem ersten 3-Token (eines davon ist ein Raum in diesem Fall) und dann geht auf, um nach dem Zufallsprinzip generieren text.

Was mache ich hier falsch?

InformationsquelleAutor James McMahon | 2009-07-19

Generieren zufällige text -, U verwenden müssen Markov-Ketten

code: von hier aus

import random

class Markov(object):

  def __init__(self, open_file):
    self.cache = {}
    self.open_file = open_file
    self.words = self.file_to_words()
    self.word_size = len(self.words)
    self.database()


  def file_to_words(self):
    self.open_file.seek(0)
    data = self.open_file.read()
    words = data.split()
    return words


  def triples(self):
    """ Generates triples from the given data string. So if our string were
    "What a lovely day", we'd generate (What, a, lovely) and then
    (a, lovely, day).
    """

    if len(self.words) < 3:
      return

    for i in range(len(self.words) - 2):
      yield (self.words[i], self.words[i+1], self.words[i+2])

  def database(self):
    for w1, w2, w3 in self.triples():
      key = (w1, w2)
      if key in self.cache:
    self.cache[key].append(w3)
      else:
    self.cache[key] = [w3]

  def generate_markov_text(self, size=25):
    seed = random.randint(0, self.word_size-3)
    seed_word, next_word = self.words[seed], self.words[seed+1]
    w1, w2 = seed_word, next_word
    gen_words = []
    for i in xrange(size):
      gen_words.append(w1)
      w1, w2 = w2, random.choice(self.cache[(w1, w2)])
    gen_words.append(w2)
    return ' '.join(gen_words)

Erklärung:
Generierung von pseudo-random-text mit Markov-Ketten mit Python

InformationsquelleAutor Lakshman Prasad

7

Sollte man sein "training" das Markov-Modell mit mehreren Sequenzen, so dass Sie genau Beispiel die Start-Wahrscheinlichkeiten sowie (genannt "pi" in Markov-sprechen). Wenn Sie eine einzelne Sequenz, dann werden Sie beginnen immer im gleichen Zustand.

Im Fall von Orwell ' s 1984 würden Sie wollen, um Satz tokenisierung erste (NLTK ist sehr gut darin), dann word tokenization (woraus sich eine Liste der Listen von tokens, nicht nur eine Liste von tokens) und dann füttern Sie jeden Satz separat zu den Markov-Modell. Dies wird es ermöglichen, richtig Modell-Sequenz startet, anstatt fest auf eine einzige Art und Weise zu Beginn jeder Sequenz.

InformationsquelleAutor drxzcl
1

Ihre Probe Korpus wird wahrscheinlich zu klein sein. Ich weiß nicht, wie genau nltk baut seine Trigramm-Modell, aber es ist gängige Praxis, dass Anfang und Ende von Sätzen behandelt werden, irgendwie. Da gibt es nur einen Anfang des Satzes in dem Korpus dies könnte der Grund sein, warum jeder Satz hat den gleichen Anfang.
- Nun, das war eine Probe für die Zwecke der SO. Meine eigentliche Probe größer ist. So brauchen Sie Satzzeichen zu offset-Sätze?
- Ich thoght so, aber wenn man schon versucht eine ganze Orwell Kapitel (mit Satzzeichen nehme ich an) ich glaube, ich war falsch.
InformationsquelleAutor Mastermind
-1

Vielleicht können Sie die Sortierung der Token-array zufällig vor der Generierung eines Satzes.
- Das NLTK verwendet den Kontext der Wörter zu bestimmen und Ihre Verwendung. Zum Beispiel, Sie haben den gesamten text von "Moby Dick" in das NLTK zum Beispiel Zwecke. Mit generieren mit generieren Meville klingende Sätze. So, es sei denn, du weißt etwas, das ich nicht, ich gehe davon aus, dass Sie nicht wollen, zu greifen, die Worte, weil der ursprüngliche Zusammenhang ist signifikant.
- du hast Recht. Wenn Sie shuffle die Worte, die Sie verlieren die Informationen, die Trigramme sind alle über.
InformationsquelleAutor Geo
-1

Sind Sie sicher, dass die Verwendung word_tokenize ist der richtige Ansatz?

Diese Google Gruppen Seite hat das Beispiel:
```
>>> import nltk
>>> text = nltk.Text(nltk.corpus.brown.words()) # Get text from brown
>>> text.generate() 
```
Aber ich habe noch nie verwendet, nltk, so kann ich nicht sagen, ob das so funktioniert, wie Sie wollen.
- nltk.corpus.Braun.words() ist nur eine Sammlung von Worten ist, kommt mit NLTK. Ich versuche, die Samen der generator mit meinen eigenen Worten.
- Haben Sie gegenüber Ihrem eigenen tokenlist mit dem brown-Korpus?
InformationsquelleAutor Mark Rushakoff

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.