Graf häufigsten 100 Wörter aus Sätzen, die in Dataframe Pandas

Habe ich text-Bewertungen in einer Spalte in Pandas dataframe, und ich will Sie zählen, die N häufigsten Wörter mit deren Häufigkeit zählt (in ganzer Spalte - NICHT in der einzelnen Zelle). Ein Ansatz ist das Zählen der Wörter, die mit einem Zähler, der durch das Durchlaufen der einzelnen Zeilen. Gibt es eine bessere alternative?

Repräsentative Daten.

0    a heartening tale of small victories and endu
1    no sophomore slump for director sam mendes  w
2    if you are an actor who can relate to the sea
3    it's this memory-as-identity obviation that g
4    boyd's screenplay ( co-written with guardian

Es ist generell hilfreich, um post-Daten als Tabelle und nicht die Bilder.
Danke John für die Anregung , ich habe versucht, mit html eine Tabelle in Frage , aber es dint Arbeit , so dass ich träge ein Bild gepostet :(.
Daten müssen nicht immer vollständig sein. Repräsentative Daten in den meisten Fällen ist das, was Sie brauchen.
Danke @JohnGalt ich es bekomme , werde ich Rahmen meiner Fragen das nächste mal besser .

InformationsquelleAutor swati saoji | 2015-04-27

pandas python

20
```
Counter(" ".join(df["text"]).split()).most_common(100)
```
ziemlich sicher, dass würde Ihnen, was Sie wollen (Sie müssen möglicherweise entfernen Sie einige nicht-Wörter aus dem Zähler Ergebnis vor dem Aufruf most_common)
- Dies würde dem Charakter zählt und nicht Wort zählt, sein können?
- Hoppla behoben 😛 wer ist John Galt?
- Kleine Ergänzung, ich kann prüfen, Kleinschreibung der Spalte zuerst und dann nehmen Sie das Ergebnis wie Counter(" ".join(df["text"].str.lower()).split()).most_common(100) ? My und my behandelt werden sollten als ein Wort?
- Interessanterweise bemerken Sie möglicherweise aus den benchmarks value_counts ist schneller als Counter für eine große Anzahl von Zeilen.
- gute Arbeit 🙂 +1 ich bin nicht vertraut genug mit pandas zu wissen, die pandas Weg für diese 😛 (aber du bekommst ein upvote für mich aus 🙂
- Vor dem kopieren und einfügen dieser, das man tun muss "von Sammlungen-import-Counter" -
InformationsquelleAutor Joran Beasley
18

Zusammen mit @Joran die Lösung können Sie auch verwenden Sie series.value_counts für große Mengen von text/Zeilen
```
 pd.Series(' '.join(df['text']).lower().split()).value_counts()[:100]
```
Hätte man aus den benchmarks series.value_counts scheint zweimal (2X) schneller als Counter Methode

Für Film-Bewertungen Datensatz mit 3000 Zeilen, also insgesamt 400 Zeichen und 70k Worte.
```
In [448]: %timeit Counter(" ".join(df.text).lower().split()).most_common(100)
10 loops, best of 3: 44.2 ms per loop

In [449]: %timeit pd.Series(' '.join(df.text).lower().split()).value_counts()[:100]
10 loops, best of 3: 27.1 ms per loop
```
- Dies ist ein bisschen erstaunlich, dass man (ich) würde denken, dass die Iteration und Aktualisierung eines Counter-wäre schneller als die string-manipulation, geschweige denn den Aufbau einer Serie. Aber es stellt sich heraus, dass die Aktualisierung statt Spaltung ist der langsame Teil... (und pandas verwendet cython/klib eher als eine nur dict).
InformationsquelleAutor Zero

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.