Zählen der vorkommen bestimmter Wörter in pandas dataframe

Ich wollen zählt die Anzahl der vorkommen von bestimmten Wörtern in einem Daten-frame. Ich weiß, mit "str.enthält"

a = df2[df2['col1'].str.contains("sample")].groupby('col2').size()
n = a.apply(lambda x: 1).sum()

Derzeit bin ich mit dem obigen code. Gibt es eine Methode, um übereinstimmung regulärer Ausdruck und bekommen die Anzahl der vorkommen? In meinem Fall habe ich eine große dataframe, und ich will zu Spiel um 100 Saiten.

InformationsquelleAutor Nilani Algiriyage | 2013-07-10

Update: die Ursprüngliche Antwort zählt die Zeilen, die unterzeichenfolge.

Zählen alle vorkommen einer Zeichenkette, auf die Sie verwenden können,.str.count:

In [21]: df = pd.DataFrame(['hello', 'world', 'hehe'], columns=['words'])

In [22]: df.words.str.count("he|wo")
Out[22]:
0    1
1    1
2    2
Name: words, dtype: int64

In [23]: df.words.str.count("he|wo").sum()
Out[23]: 4

Den str.contains Methode akzeptiert einen regulären Ausdruck:

Definition: df.words.str.contains(self, pat, case=True, flags=0, na=nan)
Docstring:
Check whether given pattern is contained in each string in the array

Parameters
----------
pat : string
    Character sequence or regular expression
case : boolean, default True
    If True, case sensitive
flags : int, default 0 (no flags)
    re module flags, e.g. re.IGNORECASE
na : default NaN, fill value for missing values.

Beispiel:

In [11]: df = pd.DataFrame(['hello', 'world'], columns=['words'])

In [12]: df
Out[12]:
   words
0  hello
1  world

In [13]: df.words.str.contains(r'[hw]')
Out[13]:
0    True
1    True
Name: words, dtype: bool

In [14]: df.words.str.contains(r'he|wo')
Out[14]:
0    True
1    True
Name: words, dtype: bool

Zählen die Vorgänge können Sie einfach die Summe dieser boolean-Serie:

In [15]: df.words.str.contains(r'he|wo').sum()
Out[15]: 2

In [16]: df.words.str.contains(r'he').sum()
Out[16]: 1

Das ist viel ordentlicher und wahrscheinlich schneller, so dass kein Bedarf für get.
Hayden: sagen wir, ich will 'Hallo' zu zählen und 'Wort' zählen und drucken " "Hallo" count = 1', '"word" count = 1'?Kann ich es in einer Zeile code?
Was word_regexs = [r'he', r'wo'] und erstellen Sie dann eine Reihe mit pd.Series((df.words.str.contains(r).sum() for r in word_regexs), word_regexs, name='count') ?
Hayden : ja Genau..:) das ist Das, was ich wollte!!! Vielen Dank Andy!
Diese nicht wirklich zählen der vorkommen. Dieser zählt die Anzahl der Zeilen ein Wort, so wird es nicht funktionieren, wenn das Wort kann mehrere Male angezeigt in einer Zelle
guter Punkt, ich ll update.
aktualisiert
Es ist ein Tippfehler auf substring statt subsctring. (erste Zeile)
danke!

InformationsquelleAutor Andy Hayden

4

Zählen die Gesamtzahl der matches, die Verwendung s.str.match(...).str.get(0).count().

Wenn Ihr regex passend sein mehrere einzigartige Worte, um ausgezählt werden individuell verwenden
s.str.match(...).str.get(0).groupby(lambda x: x).count()

Funktioniert es so:
```
In [12]: s
Out[12]: 
0    ax
1    ay
2    bx
3    by
4    bz
dtype: object
```
Den match string-Methode verarbeitet reguläre Ausdrücke...
```
In [13]: s.str.match('(b[x-y]+)')
Out[13]: 
0       []
1       []
2    (bx,)
3    (by,)
4       []
dtype: object
```
...aber die Ergebnisse, als gegeben hin, sind nicht sehr bequem. Die string-Methode get nimmt die Spiele als strings und wandelt leere Ergebnisse zu NaNs...
```
In [14]: s.str.match('(b[x-y]+)').str.get(0)
Out[14]: 
0    NaN
1    NaN
2     bx
3     by
4    NaN
dtype: object
```
...die werden nicht gezählt.
```
In [15]: s.str.match('(b[x-y]+)').str.get(0).count()
Out[15]: 2
```
- :Danke, Allan, problem bei mir ist nicht die Anzahl, wie etwa die matching-regex..Andy hat eine ordentlich Antwort, als Sie zugestimmt haben..:)
InformationsquelleAutor Dan Allan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.