Extrahieren von ganzen Wörtern

Habe ich eine große Menge von real-Welt text, den ich ziehen müssen Wörter aus der Eingabe in eine Rechtschreibprüfung. Ich möchte zu extrahieren, wie viele sinnvolle Wörter wie möglich, ohne zu viel Lärm. Ich weiß, es gibt viele regex-ninjas hier in der Nähe, so dass ich hoffe, jemand kann mir helfen.

Derzeit bin ich die Extraktion aller alphabetische Sequenzen mit '[a-z]+'. Dies ist ein guter Näherungswert, aber es schleppt eine Menge Müll mit.

Ideal möchte ich einige regex (muss nicht schön oder effizient), dass Extrakte alle alphabetischen Sequenzen, getrennt durch Natürliche Trennzeichen (wie [/-_,.: ] etc.), und ignoriert eine alphabetische Sequenzen mit illegalen Grenzen.

Aber ich würde auch gerne nur in der Lage sein, um alle alphabetischen Sequenzen, die NICHT benachbart SIND, um eine Anzahl. So zum Beispiel 'pie21' würde NICHT extrahieren 'pie', aber 'http://foo.com' extrahiert ['http', 'foo', 'com'].

Versuchte ich lookahead und lookbehind Behauptungen, aber Sie waren pro-Zeichen (also zum Beispiel re.findall('(?<!\d)[a-z]+(?!\d)', 'pie21') zurückkehren würde 'pi' wenn ich will, dass es nichts zurück). Ich habe versucht, das einwickeln der alpha Teil, wie ein Begriff ( (?:[a-z]+) ), aber es hat nicht geholfen.

Detail: Der Daten wird eine E-Mail-Datenbank, so ist es meist einfach Englisch mit normalen zahlen, aber gelegentlich gibt es Müll Zeichenfolgen wie GIHQ4NWL0S5SCGBDD40ZXE5IDP13TYNEA und AC7A21C0 dass ich gerne komplett ignorieren. Ich gehe davon aus, dass alle alphabetischen Reihenfolge mit einer Zahl, es ist Quatsch.

Besser verwenden Sie raw-strings mit regexes. \d passiert, zu arbeiten, aber auch andere escape-Sequenzen werden scheitern, und das kann schwer sein, zu Debuggen.

InformationsquelleAutor orlade | 2011-04-19

17

Wenn Sie beschränken Sie sich auf ASCII-Buchstaben, dann verwenden Sie (mit der re.I option set)
```
\b[a-z]+\b
```
\b ist eine Wort-Grenze Anker, passend nur zu Beginn und am Ende des alphanumerischen "Worte". So \b[a-z]+\b entspricht pie, aber nicht pie21 oder 21pie.

Damit auch andere nicht-ASCII-Buchstaben, die Sie verwenden können, so etwas wie dieses:
```
\b[^\W\d_]+\b
```
die es erlaubt, auch Zeichen mit Akzent usw. Stellen Sie die re.UNICODE option, vor allem, wenn mit Python 2, damit die \w Kürzel übereinstimmen, nicht-ASCII-Buchstaben.

[^\W\d_] als eine negierte Zeichenklasse können alle alphanumerischen Zeichen außer Ziffern und dem Unterstrich bestehen.
- Das klingt genau wie das, was ich will, aber ich kann nicht Holen Sie sich die bally \bs zu arbeiten. Mit text legen, wie es einige normale Satz re.findall('\b[a-z]+\b', text, re.I) gibt nichts zurück. Egal, was ich in die eckigen Klammern (oder mit search oder match) es scheint nicht zu helfen. Mit \B bekommt von mir einige Ergebnisse, aber die Streifen der ersten und letzten Zeichen eines jeden Wortes. Wie faul, wie es klingt, ich bin viel zu müde, um pick-up ein neues Konzept jetzt; eine chance, die Sie wissen, warum es nicht funktioniert? Oder Sie können post eine wörtliche Beispiel, wie Sie möchten, verwenden Sie in diesem Fall?
- Das ist genau warum schrieb ich meinen Kommentar zu Ihrer Frage. Wenn Sie nicht mit raw-strings (r"\b[a-z]\b"), die \b interpretiert werden, als ein backspace-Zeichen.
- Ooooooooooooh, das ist, was du gemeint hast :). Sorry, es ist jetzt 5:30 Uhr hier und ich war nie so eine Verbindung. Fügen Sie einfach die r und es arbeitet ein Genuss! Ich danke Ihnen, sir.
- In der Regel funktioniert, aber es werden nicht Wörter, die mit Sonderzeichen (z.B. wenn bei Beförderungen Schäden)
- Nicht, wenn Sie kompilieren Sie die regex mit der re.UNICODE oder re.LOCALE option. Ich sollte hinzufügen, dass auf meine Antwort.
InformationsquelleAutor Tim Pietzcker
3

Sind Sie vertraut mit Wortgrenzen? (\b). Sie können extrahieren Sie word mithilfe der \b um die Reihenfolge und passend zum alphabet, in:
```
\b([a-zA-Z]+)\b
```
Zum Beispiel, diese greifen, werden ganze Wörter aber halt am Token wie Bindestriche, Punkte, Semikolons, etc.

Können Sie die \b Sequenz, und andere, über die python-Handbuch

BEARBEITEN Auch, wenn Sie schauen, um über eine Zahl nach oder vor dem Spiel, können Sie mit einer negative look-ahead/behind:
```
(?!\d)   # negative look-ahead for numbers
(?<!\d)  # negative look-behind for numbers
```
- Als pro-Tim Antwort \b klingt wie das, was ich will, aber es ist nicht gerade schön. Irgendwelche Ideen? Ich habe versucht, die lookahead-und lookbehinds vor, aber Sie scheinen zu entsprechen, werden alle Zeichen bis zu dem Zeichen, das grenzt an eine Nummer, und so nicht komplett ignorieren Wörter mit zahlen in Ihnen. Auch er beschwert sich über lookaheads brauchen Feste Breite Muster mit denen +s drin.
- Dann nur mit einem einstelligen übereinstimmen. Wir kümmern uns nicht, wie viele zahlen post/vorausgehen, nur, dass es einen digit. Beispiel
- Ich habe diese Arbeit [ re.findall(r"\b([a-zA-Z]+)\b",Inhalt, re.I) ], aber es scheint nicht, um Unkraut aus vorwärts-und rückwärts-Schrägstriche. Hier sind einige Worte, der kam heraus: "[endif]', '$', '8', '/klein', '/li'
InformationsquelleAutor Brad Christie
2

Was:
```
import re
yourString="pie 42 http://foo.com GIHQ4NWL0S5SCGBDD40ZXE5IDP13TYNEA  pie42"
filter (lambda x:re.match("^[a-zA-Z]+$",x),[x for x in set(re.split("[\s:/,.:]",yourString))])
```
Beachten Sie, dass:
- split explodiert dein string in potentielle Kandidaten => gibt eine Liste von "potentiellen Wörtern"
- - set macht unicity-Filterung => verwandelt die Liste gesetzt, damit entfernen von Einträgen erscheint mehr als einmal. Dieser Schritt ist nicht zwingend erforderlich.
- filter reduziert die Anzahl der Kandidaten : nimmt eine Liste, gilt eine test-Funktion auf jedes element, und gibt eine Liste der element erfolgreich den test. In unserem Fall der test-Funktion ist "anonym"
- lambda : anonyme Funktion, wobei ein Element und prüfen, ob es ein Wort (oberen oder unteren Buchstaben nur)
BEARBEITEN : Hinzugefügt einige Erklärungen
- Meine Augen! Das sieht fast so aus wie Perl! Ach, die Menschheit...
- deshalb ist es schön
- Hässlich wie es ist, es funktioniert! Prost! Allerdings kann ich bitte noch eine Gunst: da ich nicht sprechen lambda ODER filter, gibt es eine Möglichkeit, das zu tun diese Art der Sache mit re.finditer()? Ich brauche zu verfolgen, die start-und end-Indizes der einzelnen passen in den text.
- Ich fügte hinzu, eine Erklärung, die ich nicht sehen kann, wie es zu tun mit finditer...
InformationsquelleAutor Bruce

Beispielcode

print re.search(ur'(?u)ривет\b', ur'Привет')
print re.search(ur'(?u)\bривет\b', ur'Привет')

oder

s = ur"abcd ААБВ"
import re
rx1 = re.compile(ur"(?u)АБВ")
rx2 = re.compile(ur"(?u)АБВ\b")
rx3 = re.compile(ur"(?u)\bАБВ\b")
print rx1.findall(s)
print rx2.findall(s)
print rx3.findall(s)

InformationsquelleAutor Alexander Lubyagin

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.