Gibt Es eine Möglichkeit, dass mit einer Unicode nicht-Alphabetische Zeichen?
Ich habe einige Dokumente, die ging durch OCR-Konvertierung von PDF in HTML. Weil dem so ist, aufgezogen mit viel random-unicode Satzzeichen, wo der Konverter Durcheinander (also Ellipsen, etc...). Sie sind auch richtig, haben eine Reihe von Nicht-englischen, aber immer noch Buchstaben, wie é und Russischen Zeichen, etc...
Gibt es eine Möglichkeit, um eine Regex-zu entsprechen, wird jedes beliebige unicode-Buchstaben (aus der Alphabete anderer Sprachen)? Oder eine, die passt nur nicht-alphabetische Zeichen enthalten? Entweder man wäre wirklich hilfreich und genial. Ich bin mit Perl, wenn das etwas ändert. Danke!
Du musst angemeldet sein, um einen Kommentar abzugeben.
Check-out Unicode-Zeichen Eigenschaften: http://www.regular-expressions.info/unicode.html#prop. Ich denke was du suchst ist wahrscheinlich
die passt auf alle Buchstaben oder Ideogramme. Sie können auch Briefe mit Markierungen auf Sie, so dass Sie könnte
In jedem Fall, alle die verschiedenen Arten von Charakter-Eigenschaften sind detailliert in dem ersten link.
Bearbeiten: Sie können auch wollen, um an diesem Stack Overflow-Antwort diskutiert, ob \w entspricht einem unicode-Zeichen. Sie schlagen vor, dass konnte man auch mit \p{Word} oder \p{Alnum}: Macht \w entsprechen alle alphanumerischen Zeichen definiert der Unicode-standard?
\P
die passenden Zeichen nicht mit einer bestimmten Eigenschaft (also\P{L}
entspricht einem beliebigen nicht-Buchstaben-Zeichen).Je nachdem, welche Sprache Sie verwenden, wird das Modul für reguläre Ausdrücke kann oder kann nicht Unicode-aware. Wenn es ist, es kann oder kann möglicherweise nicht wissen, die
\p{}
Eigenschaft Token. Wenn es nicht, Ihre Antwort ist in Unicode-Zeichen und-Properties von Jan Goyvaerts' regex tutorial.Können Sie
\p{Latin}
, wenn es unterstützt wird, zu erkennen, alles, was ist (oder ist nicht, natürlich) von einer Sprache vor, verwendet das Unicode-Latin-blocks.