So erzeugen Sie eine wortfrequenz-Histogramm, wo die bars sind, geordnet nach Ihrer Höhe

Ich habe eine lange Liste von Wörtern, und ich will erzeugen Sie ein Histogramm für die Häufigkeit der jedes Wort in meiner Liste. Ich war in der Lage zu tun, die in den folgenden code:

import csv
from collections import Counter
import numpy as np

word_list = ['A','A','B','B','A','C','C','C','C']

counts = Counter(merged)

labels, values = zip(*counts.items())

indexes = np.arange(len(labels))

plt.bar(indexes, values)
plt.show()

Es jedoch nicht, die Anzeige der Lagerplätze durch Rang (d.h. von der Frequenz, also höchste Frequenz ist erste bin, der auf der linken Seite und so weiter), obwohl, wenn ich drucken counts er bestellt Sie für mich Counter({'C': 4, 'A': 3, 'B': 2}). Wie könnte ich das erreichen?

InformationsquelleAutor BKS | 2016-02-24

13

Erreichen Sie die gewünschte Leistung, indem Sie die Sortierung zuerst Ihre Daten und übergeben Sie dann die bestellte arrays zu bar; unten verwende ich numpy.argsort für, die. Der plot sieht dann wie folgt aus (ich habe auch die Etiketten an der bar):

Hier ist der code, der erzeugt den plot mit ein paar inline-Kommentare:
```
from collections import Counter
import numpy as np
import matplotlib.pyplot as plt

word_list = ['A', 'A', 'B', 'B', 'A', 'C', 'C', 'C', 'C']

counts = Counter(word_list)

labels, values = zip(*counts.items())

# sort your values in descending order
indSort = np.argsort(values)[::-1]

# rearrange your data
labels = np.array(labels)[indSort]
values = np.array(values)[indSort]

indexes = np.arange(len(labels))

bar_width = 0.35

plt.bar(indexes, values)

# add labels
plt.xticks(indexes + bar_width, labels)
plt.show()
```
In Fall, dass Sie in den plot nur die ersten n Einträge, ersetzen Sie die Zeile
```
counts = Counter(word_list)
```
durch
```
counts = dict(Counter(word_list).most_common(n))
```
Im obigen Fall counts wäre dann
```
{'A': 3, 'C': 4}
```
für n = 2.

Wenn Sie wollen, entfernen Sie den Rahmen von der plot und beschriften Sie die Balken können Sie direkt überprüfen,dieser Beitrag.
- Ich habe mehr als 4000 Wörter zu zählen, so wie zu generieren wortfrequenz-Histogramm nur die top 20 Worte?
- Sie können counts.most_common(20) d.h. counts = Counter(word_list).most_common(20).
- AttributeError Traceback (most recent call last) <ipython-Eingang-33-704ddcc6ce26> in <module>() 5 counts = Zähler(df['Text']).most_common(10) 6 ----> 7-Etiketten, Werte = zip(*zählt.Elemente()) 8 9 # Sortieren Sie Ihre Werte in absteigender Reihenfolge AttributeError: 'list' - Objekt hat kein Attribut 'items'
- Stimmt, most_common gibt eine Liste, nicht ein Wörterbuch, ich aktualisiert die post. Also dict(Counter(word_list).most_common(20)) sollte die Arbeit jetzt für Sie.
InformationsquelleAutor Cleb

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.