Graf häufigsten 100 Wörter aus Sätzen, die in Dataframe Pandas
Habe ich text-Bewertungen in einer Spalte in Pandas dataframe, und ich will Sie zählen, die N häufigsten Wörter mit deren Häufigkeit zählt (in ganzer Spalte - NICHT in der einzelnen Zelle). Ein Ansatz ist das Zählen der Wörter, die mit einem Zähler, der durch das Durchlaufen der einzelnen Zeilen. Gibt es eine bessere alternative?
Repräsentative Daten.
0 a heartening tale of small victories and endu
1 no sophomore slump for director sam mendes w
2 if you are an actor who can relate to the sea
3 it's this memory-as-identity obviation that g
4 boyd's screenplay ( co-written with guardian
- Es ist generell hilfreich, um post-Daten als Tabelle und nicht die Bilder.
- Danke John für die Anregung , ich habe versucht, mit html eine Tabelle in Frage , aber es dint Arbeit , so dass ich träge ein Bild gepostet :(.
- Daten müssen nicht immer vollständig sein. Repräsentative Daten in den meisten Fällen ist das, was Sie brauchen.
- Danke @JohnGalt ich es bekomme , werde ich Rahmen meiner Fragen das nächste mal besser .
Du musst angemeldet sein, um einen Kommentar abzugeben.
ziemlich sicher, dass würde Ihnen, was Sie wollen (Sie müssen möglicherweise entfernen Sie einige nicht-Wörter aus dem Zähler Ergebnis vor dem Aufruf most_common)
Counter(" ".join(df["text"].str.lower()).split()).most_common(100)
?My
undmy
behandelt werden sollten als ein Wort?value_counts
ist schneller alsCounter
für eine große Anzahl von Zeilen.Zusammen mit @Joran die Lösung können Sie auch verwenden Sie
series.value_counts
für große Mengen von text/ZeilenHätte man aus den benchmarks
series.value_counts
scheint zweimal (2X) schneller alsCounter
MethodeFür Film-Bewertungen Datensatz mit 3000 Zeilen, also insgesamt 400 Zeichen und 70k Worte.