Finden Sie Frequenz jedes Wortes in der text-Datei in python

Möchte ich finden, der Häufigkeit aller Wörter in meinem text-Datei, so dass ich herausfinden kann, die am häufigsten vorkommenden Wörter aus Ihnen.
Kann mir bitte jemand helfen, den Befehl dazu verwendet werden.

import nltk
text1 = "hello he heloo hello hi " // example text
 fdist1 = FreqDist(text1)

Benutzt habe ich obigen code, aber das problem ist, dass es nicht die Wort-Frequenz,sondern es ist die Frequenz anzeigen von jedem Charakter.
Ich möchte auch wissen, wie Sie die Eingabe von text über text-Datei.

Verwandte: FreqDist mit NLTK

InformationsquelleAutor frooty | 2015-03-14

4

Sah ich Sie mit dem Beispiel und sah die gleiche Sache, die Sie waren zu sehen, um es richtig zu arbeiten, müssen Sie split den string durch Leerzeichen. Wenn Sie dies nicht tun, scheint es zu zählen, jedes Zeichen, welches Sie sahen. Dieser liefert die korrekte zählt jedes Wort, nicht Charakter.
```
import nltk

text1 = 'hello he heloo hello hi '
text1 = text1.split(' ')
fdist1 = nltk.FreqDist(text1)
print (fdist1.most_common(50))
```
Wenn Sie wollen aus einer Datei zu Lesen und das Wort zählen ist, können Sie es ja gerne machen:

input.txt
```
hello he heloo hello hi
my username is heinst
your username is frooty
```
python-code
```
import nltk

with open ("input.txt", "r") as myfile:
    data=myfile.read().replace('\n', ' ')

data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print (fdist1.most_common(50))
```
- print repariert werden muss. Es ist Python ist3.x.
- danke, ich fixe es
- hey danke heinst. Können Sie sagen, wo Sie das in den input-Datei..in den python-Ordner oder sonstwo ?
- hey vielen Dank @heinst Können Sie sagen, wo Sie das in den input-Datei..in den python-Ordner oder sonstwo ?
- Ich bin immer ungültige syntax beim Lesen aus Datei. Können Sie änderungen vorschlagen, zu tun .tia
InformationsquelleAutor heinst
4

Für was es Wert ist, NLTK scheint wie overkill für diese Aufgabe. Im folgenden erhalten Sie word-Frequenzen, die in der Reihenfolge von der höchsten bis zur niedrigsten.
```
from collections import Counter
input_string = [...] # get the input from a file
word_freqs = Counter(input_string.split())
```
- print repariert werden muss. Es ist Python ist3.x.
- hey @Boa bitte sagen wie man die Eingabe aus einer Datei .der code einwandfrei funktioniert vielen Dank .
InformationsquelleAutor Boa

text1 im nltk-Buch ist eine Sammlung von Token (Wörter, Satzzeichen) anders als in deinem code-Beispiel, wo text1 ist ein string (Sammlung von Unicode-codepoints):

>>> from nltk.book import text1
>>> text1
<Text: Moby Dick by Herman Melville 1851>
>>> text1[99] # 100th token in the text
','
>>> from nltk import FreqDist
>>> FreqDist(text1)
FreqDist({',': 18713, 'the': 13721, '.': 6862, 'of': 6536, 'and': 6024,
          'a': 4569, 'to': 4542, ';': 4072, 'in': 3916, 'that': 2982, ...})

Wenn Sie Ihre Eingabe ist in der Tat durch Leerzeichen getrennte Wörter dann finden Sie die Frequenz, verwenden Sie @Boa Antwort:

freq = Counter(text_with_space_separated_words.split())

Hinweis: FreqDist ist ein Counter aber es definiert auch zusätzliche Methoden, wie .plot().

Wenn Sie verwenden möchten nltk tokenizer statt:

#!/usr/bin/env python3
from itertools import chain
from nltk import FreqDist, sent_tokenize, word_tokenize # $ pip install nltk

with open('your_text.txt') as file:
    text = file.read()
words = chain.from_iterable(map(word_tokenize, sent_tokenize(text)))
freq = FreqDist(map(str.casefold, words))
freq.pprint()
# -> FreqDist({'hello': 2, 'hi': 1, 'heloo': 1, 'he': 1})

sent_tokenize() tokenizes der text in Sätze. Dann word_tokenize tokenizes jeder Satz in Wörter. Es gibt viele Möglichkeiten für die tokenisierung text in nltk.

InformationsquelleAutor jfs

Haben, um die Frequenz sowie die Worte, die wie ein Wörterbuch der folgende code nützlich sein wird:

import nltk
from nltk.tokenize import word_tokenize  

for f in word_tokenize(inputSentence):  
     dict[f] = fre[f]                                                  

print dict

InformationsquelleAutor Dibin Joseph

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

input.txt

python-code