Gibt Es eine Möglichkeit, dass mit einer Unicode nicht-Alphabetische Zeichen?

Ich habe einige Dokumente, die ging durch OCR-Konvertierung von PDF in HTML. Weil dem so ist, aufgezogen mit viel random-unicode Satzzeichen, wo der Konverter Durcheinander (also Ellipsen, etc...). Sie sind auch richtig, haben eine Reihe von Nicht-englischen, aber immer noch Buchstaben, wie é und Russischen Zeichen, etc...

Gibt es eine Möglichkeit, um eine Regex-zu entsprechen, wird jedes beliebige unicode-Buchstaben (aus der Alphabete anderer Sprachen)? Oder eine, die passt nur nicht-alphabetische Zeichen enthalten? Entweder man wäre wirklich hilfreich und genial. Ich bin mit Perl, wenn das etwas ändert. Danke!

InformationsquelleAutor Eli | 2011-05-14

27

Check-out Unicode-Zeichen Eigenschaften: http://www.regular-expressions.info/unicode.html#prop. Ich denke was du suchst ist wahrscheinlich
```
\p{L}
```
die passt auf alle Buchstaben oder Ideogramme. Sie können auch Briefe mit Markierungen auf Sie, so dass Sie könnte
```
\p{L}\p{M}*
```
In jedem Fall, alle die verschiedenen Arten von Charakter-Eigenschaften sind detailliert in dem ersten link.

Bearbeiten: Sie können auch wollen, um an diesem Stack Overflow-Antwort diskutiert, ob \w entspricht einem unicode-Zeichen. Sie schlagen vor, dass konnte man auch mit \p{Word} oder \p{Alnum}: Macht \w entsprechen alle alphanumerischen Zeichen definiert der Unicode-standard?
- In der gleichen Weise, die Sie verwenden können \P die passenden Zeichen nicht mit einer bestimmten Eigenschaft (also \P{L} entspricht einem beliebigen nicht-Buchstaben-Zeichen).
- Kann ich einen Charakter-code weglassen einige code-Punkte? Wie \p{P} weglassen, Punkte und Kommas? Die negation wäre das perfekt für mich.
InformationsquelleAutor mpdaugherty
2

Je nachdem, welche Sprache Sie verwenden, wird das Modul für reguläre Ausdrücke kann oder kann nicht Unicode-aware. Wenn es ist, es kann oder kann möglicherweise nicht wissen, die \p{} Eigenschaft Token. Wenn es nicht, Ihre Antwort ist in Unicode-Zeichen und-Properties von Jan Goyvaerts' regex tutorial.

Können Sie \p{Latin}, wenn es unterstützt wird, zu erkennen, alles, was ist (oder ist nicht, natürlich) von einer Sprache vor, verwendet das Unicode-Latin-blocks.

InformationsquelleAutor Mike 'Pomax' Kamermans

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.