Gibt Es eine Möglichkeit, dass mit einer Unicode nicht-Alphabetische Zeichen?

Ich habe einige Dokumente, die ging durch OCR-Konvertierung von PDF in HTML. Weil dem so ist, aufgezogen mit viel random-unicode Satzzeichen, wo der Konverter Durcheinander (also Ellipsen, etc...). Sie sind auch richtig, haben eine Reihe von Nicht-englischen, aber immer noch Buchstaben, wie é und Russischen Zeichen, etc...

Gibt es eine Möglichkeit, um eine Regex-zu entsprechen, wird jedes beliebige unicode-Buchstaben (aus der Alphabete anderer Sprachen)? Oder eine, die passt nur nicht-alphabetische Zeichen enthalten? Entweder man wäre wirklich hilfreich und genial. Ich bin mit Perl, wenn das etwas ändert. Danke!

InformationsquelleAutor Eli | 2011-05-14
Schreibe einen Kommentar