Sie finden "einen Buchstaben, der angezeigt wird, zweimal die" in einem string

Ich versuche, mich zu fangen, wenn Sie einen Buchstaben, der angezeigt wird, zweimal in einem string mittels RegEx (oder vielleicht gibt es einige bessere Möglichkeiten?), zum Beispiel mein string ist:

ugknbfddgicrmopn

Die Ausgabe wäre:

dd

Jedoch, ich habe versucht, so etwas wie:

re.findall('[a-z]{2}', 'ugknbfddgicrmopn')

aber in diesem Fall, es gibt:

['ug', 'kn', 'bf', 'dd', 'gi', 'cr', 'mo', 'pn']   # the except output is `['dd']`

Ich habe auch einen Weg, um das erwarten Ausgabe:

>>> l = []
>>> tmp = None
>>> for i in 'ugknbfddgicrmopn':
...     if tmp != i:
...         tmp = i
...         continue
...     l.append(i*2)
...     
... 
>>> l
['dd']
>>>

Aber das ist zu Komplex...

Wenn es 'abbbcppq', dann nur zu fangen:

abbbcppq
 ^^  ^^

Also die Ausgabe ist:

['bb', 'pp']

Dann, wenn es 'abbbbcppq', fangen bb zweimal:

abbbbcppq
 ^^^^ ^^

Also die Ausgabe ist:

['bb', 'bb', 'pp']

Sie können Rückverweis, ([a-z])\1
Sie scheinen zu erwarten-aber nicht erwähnen -- Kontiguität, und Sie nicht erklären, was würde Sie wollen, wie ein Ergebnis, wenn "ddd" vorhanden waren.
was, wenn der Brief erscheint mehr als zwei mal>?
was, wenn er will diejenigen finden, die erscheint, genau zwei? wie fetch dd aus fddf nicht aus fdddf
Sie benötigen findall für mehr als ein vorkommen. re.search('([a-z])\1', 'ugknbfddgicrmopn').group()
Das war eine Vermutung, die Nicht vertraut mit Python 🙁
Huh? Getestet auf Python 2.7 und Python 3.5, beide erhöhen AttributeError: 'NoneType' object has no attribute 'group'.
was wäre deine erwartete Ausgabe, wenn die Eingabe abbbbcppq
Sicher, fangen bb zweimal, so ist es ['bb', 'bb', 'pp'].
Meinst du Brief erscheint zweimal die gemeinsam oder überall in input?
Naja, gemeinsam in diesem Fall.
Ganz Ähnlich wie [python]: verwenden Sie re zu finden fortlaufend wiederholt chars

InformationsquelleAutor Kevin Guan | 2015-12-14

50

Benötigen Sie einfangen Gruppe basiert regex und definieren Sie Ihre regex als raw-string.
```
>>> re.search(r'([a-z])\1', 'ugknbfddgicrmopn').group()
'dd'
>>> [i+i for i in re.findall(r'([a-z])\1', 'abbbbcppq')]
['bb', 'bb', 'pp']
```
oder
```
>>> [i[0] for i in re.findall(r'(([a-z])\2)', 'abbbbcppq')]
['bb', 'bb', 'pp']
```
Beachten Sie, dass re.findall hier sollte die Rückkehr der Liste von Tupeln, mit der die Zeichen, die aufeinander abgestimmt sind, indem die erste Gruppe, die als erstes element und der zweiten Gruppe als zweite element. Für unseren Fall chars innerhalb der ersten Gruppe wäre genug, also habe ich erwähnt i[0].
- benutze meine Methode findall..
- Ohhhhh, nach dem erneuten Lesen der Antwort, die ich verstehen, wie funktioniert es jetzt. So ([a-z]) fangen die ersten Buchstaben, und \1 wiederholen. 🙂
- ya, genau.. () genannt-capturing-group. So ([a-z]) fängt der erste Buchstabe und die folgenden \1 ist ein back-Zitat der ersten capturing group. So \1 bezeichnet alle Zeichen, die aufeinander abgestimmt sind, die von der ersten Gruppe.
InformationsquelleAutor Avinash Raj
32

Als Pythonic way können Sie zip Funktion innerhalb einer list comprehension:
```
>>> s = 'abbbcppq'
>>>
>>> [i+j for i,j in zip(s,s[1:]) if i==j]
['bb', 'bb', 'pp']
```
Wenn Sie sind den Umgang mit großen Zeichenfolge, die Sie verwenden können iter() - Funktion konvertieren Sie die Zeichenfolge in einen iterator und Verwendung itertols.tee() für die Erstellung von zwei unabhängigen iterator, dann durch den Aufruf der next Funktion, die auf dem zweiten iterator verbrauchen das erste Element und verwenden Sie die zip Klasse (in Python 2.X verwenden Sie itertools.izip() gibt einen iterator) mit dieser Iteratoren.
```
>>> from itertools import tee
>>> first = iter(s)
>>> second, first = tee(first)
>>> next(second)
'a'
>>> [i+j for i,j in zip(first,second) if i==j]
['bb', 'bb', 'pp']
```
Benchmark mit RegEx Rezept:
```
# ZIP
~ $ python -m timeit --setup "s='abbbcppq'" "[i+j for i,j in zip(s,s[1:]) if i==j]"
1000000 loops, best of 3: 1.56 usec per loop

# REGEX
~ $ python -m timeit --setup "s='abbbcppq';import re" "[i[0] for i in re.findall(r'(([a-z])\2)', 'abbbbcppq')]"
100000 loops, best of 3: 3.21 usec per loop
```
Nach deinem letzten edit, wie oben im Kommentar, wenn Sie möchten, um nur mit ein paar b in Zeichenfolgen wie "abbbcppq" können Sie finditer() gibt einen iterator der gefundenen Objekte, und extrahieren Sie das Ergebnis mit group() Methode:
```
>>> import re
>>> 
>>> s = "abbbcppq"
>>> [item.group(0) for item in re.finditer(r'([a-z])\1',s,re.I)]
['bb', 'pp']
```
Beachten Sie, dass re.I ist die IGNORECASE fahne, die macht der RegEx-match die Großbuchstaben auch.
- Gut, dann als mein edit, ich will bb aus abbbc. Okay, ich weiß, dass dies ist eine kurze version von mir noch ein Beispiel und das Beispiel von mir ist die Ausgabe nicht das erwarten von meinem edit...sorry about that...
- In diesem Fall benötigen Sie eine set-comprehension.
- Gut, wenn die Nutzung set, dann kann es nicht fangen bb zweimal, wie ich sagte, in den Kommentaren meine Frage.
- Ah, ja. Das ist gut :). Aber möchte ich jedoch, dass die Verwendung von regex in diesem Fall. Gut zu wissen, dass es weitere Verwendungzip() : D
- Ja, aber mit regex ist nicht pythonic an alle, die Kasse bec=nchmark Ergebnis.
- Leistung ist nicht alles, und ist wahrscheinlich in diesem Fall irrelevant. Regexps sind ein Werkzeug, um ein problem zu lösen, und lösen Sie das problem klar und prägnant.
- Ja Leistung ist nicht alles, aber Wann? Eigentlich die meisten wichtigen Punkte über einen code Leistung (in Bezug auf Speicher und Laufzeit) und dann Lesbarkeit ( coding style, Menge von code und etc.) Und wie man deutlich sehen kann der erste Ansatz ist wirklich mehr optimal und lesbar als regex-Rezept. aber über die zweite, die ist nicht sehr kompliziert, die Hauptsache ist, dass es sehr optimiert ist in Bezug auf Speicher verwenden, die im Umgang mit großen Datenmengen wäre ziemlich viel besser und brauchbarer.
- Leistung ist wichtig, wenn Sie profiliert Ihr Programm und bestimmt, welche Teile wurden Engpässe. Es gibt absolut keinen Grund, besorgt zu sein über die Leistung in diesem Zusammenhang. So, Lesbarkeit sollte der wichtigste Faktor sein, und das ist völlig subjektiv in diesem Fall.
- Ja, und das ist, was der erste Teil bedeutet.
- Sie können nicht diesen Anspruch, da es keinen Kontext, um festzustellen, ob dies ein Engpass.
- Ich spreche nicht über die Engpässe, die ich gerade vorgeschlagen, einen pythoic Weg, das ist alles und auf den rest meiner Antwort nur vorgeschlagen, andere Ansätze für andere Situationen, die möglicherweise nützlich für die OP und die zukünftigen Leser.
- dass. denn es gibt keinen Grund für die Verwendung von regex hier.
- Ein ziemlich guter Grund ist, dass diese macht nicht das was der OP will, für den string - abbbc (z.B. ['bb'] für die regexp-vs ['bb', 'bb'] für diesen code).
- OP hat Hinzugefügt, dass die lat-Teil nach meiner Antwort, und ich entfernen, meine regex-Ansatz, der genau wusste, dass der job (bevor akzeptierte Antwort).eigentlich hat er bearbeitet den code mehrfach. Jeder Weg, ich werde fügen Sie einen anderen Ansatz mit regex.
- Vielen Dank für Ihre Aufmerksamkeit, und Sie erinnern!
- In der Tat, danke.
InformationsquelleAutor Kasramvd
9

Mit zurück Referenz, es ist sehr einfach:
```
import re
p = re.compile(ur'([a-z])\1{1,}')
re.findall(p, u"ugknbfddgicrmopn")
#output: [u'd']
re.findall(p,"abbbcppq")
#output: ['b', 'p']
```
Weitere Informationen können Sie beziehen sich auf eine ähnliche Frage in perl: Regulären Ausdruck passen zu jedem Charakter wiederholt mehr als 10 mal
- \1{1,} würde so geschrieben werden, als \1+
InformationsquelleAutor Gurupad Hegde
5

Ist es ziemlich einfach, die ohne reguläre Ausdrücke:
```
In [4]: [k for k, v in collections.Counter("abracadabra").items() if v==2]
Out[4]: ['b', 'r']
```
- Hmm...funktioniert nicht, wenn der input war abbbbcppq. Vielleicht ist das problem da, dass if v == 2 🙂
- Ihre Frage ist etwas unklar: sind wir auf der Suche nach allen Buchstaben, die mehr als einmal erscheinen oder nur die, die erscheinen genau zweimal in die gesamte Eingabe? Diese Antwort ist präzise für das letztere, aber für die ehemaligen [k for k, v in collections.Counter("abbbbcppq").items() if v>1] tun.
InformationsquelleAutor Dima Tisnek

Vielleicht kann man den generator um dies zu erreichen

def adj(s):
    last_c = None
    for c in s:
        if c == last_c:
            yield c * 2
        last_c = c

s = 'ugknbfddgicrmopn'
v = [x for x in adj(s)]
print(v)
# output: ['dd']

InformationsquelleAutor xhg

"oder vielleicht gibt es einige bessere Möglichkeiten"

Da regex wird oft missverstanden von den nächsten Entwickler zu begegnen, Ihren code (vielleicht sogar Sie),
Und da einfacher != kürzer,

Wie etwa der folgende pseudo-code:

function findMultipleLetters(inputString) {        
    foreach (letter in inputString) {
        dictionaryOfLettersOccurrance[letter]++;
        if (dictionaryOfLettersOccurrance[letter] == 2) {
            multipleLetters.add(letter);
        }
    }
    return multipleLetters;
}
multipleLetters = findMultipleLetters("ugknbfddgicrmopn");

InformationsquelleAutor Lavi Avigdor

2
```
A1 = "abcdededdssffffccfxx"

print A1[1]
for i in range(len(A1)-1):
    if A1[i+1] == A1[i]:
        if not A1[i+1] == A1[i-1]:
            print A1[i] *2
```
- Willkommen ALSO! Bei der Beantwortung, auch hinzufügen, Erklärung des Codes.
- In diesem Fall, wenn ich ffff, dann würde der Ausgang sein ['dd', 'ss', 'ff', 'ff', 'ff'].
- Tatsächlich...das noch nicht zu fangen 'ff', 'ff' wie gesagt in den Kommentaren.
InformationsquelleAutor Mark White
0
```
>>> l = ['ug', 'kn', 'bf', 'dd', 'gi', 'cr', 'mo', 'pn']
>>> import re
>>> newList = [item for item in l if re.search(r"([a-z]{1})\1", item)]
>>> newList
['dd']
```
- Was ist der Gebrauch, wenn Sie geben Sie eine Liste der Elemente? das wird nicht funktionieren, für die anderen Saiten.
- Ich habe verwendet re.search das funktioniert nur für string.
- Auch, es funktioniert für die anderen Saiten. Wie, wenn Sie hinzufügen 'zz' in der Liste, dann wird es geben, sowohl 'dd' und 'zz'.
- Was ich sagen will ist, sofern Sie einen vordefinierten Liste. So wird es entsprechen, aus der Liste und Sie haben alle die Elemente der Liste mit der Länge 2. Also Ihr Programm ist nicht flexibel. Gegeben ein string wird es nicht geben, die gewünschte Ausgabe. Ich sage nur, dass die Eingabe in form einer String nicht list.
InformationsquelleAutor Mayur Koshti

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Benchmark mit RegEx Rezept:

Benchmark mit `RegEx` Rezept: