Unicode-Entsprechungen für \ w und \ b in regulären Java-Ausdrücken?

Vielen modernen regex-Implementierungen interpretieren die \w Charakter-Klasse Kürzel wie "beliebiger Buchstabe, eine Ziffer, oder eine Verbindung Interpunktion" (in der Regel: den Unterstrich). So ein regex wie \w+ entspricht Wörter wie helloélèveGOÄ_432 oder gefräßig.

Leider Java nicht. In Java \w ist beschränkt auf [A-Za-z0-9_]. Dies macht die passenden Wörter wie die oben genannten schwierig, neben anderen Problemen.

Es scheint auch, dass die \b Trennzeichen entspricht in Orten, wo es nicht sollte.

Was wäre das korrekte äquivalent .NET-like, Unicode-aware \w oder \b in Java? Die anderen Abkürzungen müssen "umschreiben", um Sie Unicode-fähige?

InformationsquelleAutor der Frage Tim Pietzcker | 2010-11-29

225

Quellcode

Den Quellcode für das umschreiben der Funktionen, die ich unten bespreche,ist hier verfügbar.

Update in Java 7

Sonne aktualisiert Pattern Klasse für JDK7 ist eine wunderbare neue fahne, UNICODE_CHARACTER_CLASSder macht alles richtig funktioniert wieder. Es ist verfügbar als integrierbare (?U) für den innen-Muster, so können Sie es verwenden, mit der String Klasse Wrapper, zu. Er sports auch korrigiert Definitionen für verschiedene andere Eigenschaften, zu. Es verfolgt nun Den Unicode-Standard, in beiden RL1.2 und RL1.2a von UTS#18: Unicode, Reguläre Ausdrücke. Dies ist eine spannende und dramatische Verbesserung, und die Entwicklung der Mannschaft ist zu loben für diese wichtige Anstrengung.

Java Regex Unicode-Probleme

Das problem mit Java regexes ist, dass die Perl 1.0 charclass entweicht — Bedeutung \w\b\s\d und ergänzt — nicht in Java erweitertes arbeiten mit Unicode. Allein unter diesen \b genießt bestimmte erweiterte Semantik, aber diese Karte weder \ - wnoch Unicode-Bezeichnernoch Unicode-line-break-Eigenschaften.

Zusätzlich die POSIX-Eigenschaften in Java zugegriffen werden, auf diese Weise:
```
POSIX syntax    Java syntax

[[:Lower:]]     \p{Lower}
[[:Upper:]]     \p{Upper}
[[:ASCII:]]     \p{ASCII}
[[:Alpha:]]     \p{Alpha}
[[:Digit:]]     \p{Digit}
[[:Alnum:]]     \p{Alnum}
[[:Punct:]]     \p{Punct}
[[:Graph:]]     \p{Graph}
[[:Print:]]     \p{Print}
[[:Blank:]]     \p{Blank}
[[:Cntrl:]]     \p{Cntrl}
[[:XDigit:]]    \p{XDigit}
[[:Space:]]     \p{Space}
```
Dies ist ein echtes Chaos, weil es bedeutet, dass Dinge wie AlphaLowerund Space tun nicht in Java-Karte, um die Unicode -AlphabeticLowercase oder Whitespace Eigenschaften. Dies ist exceeedingly ärgerlich. Java die Unicode-Unterstützung der Eigenschaft ist streng antemillennialvon denen ich meine, es unterstützt keine Unicode-Eigenschaft, die in den letzten zehn Jahren.

Nicht in der Lage, darüber zu sprechen Leerzeichen korrekt ist super-ärgerlich. Betrachten wir die folgende Tabelle. Für jeden dieser code-Punkte, es gibt sowohl eine J-Spalte Ergebnisse
für Java-und eine P-Spalte Ergebnisse für Perl oder anderen PCRE-regex-basierte engine:
```
             Regex    001A    0085    00A0    2029
                      J  P    J  P    J  P    J  P
                \s    1  1    0  1    0  1    0  1
               \pZ    0  0    0  0    1  1    1  1
            \p{Zs}    0  0    0  0    1  1    0  0
         \p{Space}    1  1    0  1    0  1    0  1
         \p{Blank}    0  0    0  0    0  1    0  0
    \p{Whitespace}    -  1    -  1    -  1    -  1
\p{javaWhitespace}    1  -    0  -    0  -    1  -
 \p{javaSpaceChar}    0  -    0  -    1  -    1  -
```
Sehen?

Praktisch jedem Java-white-space-Ergebnisse falsch nach Unicode. Es ist ein wirklich großes problem. Java ist einfach nur Durcheinander, Antworten zu geben, die sind "falsch" nach der bisherigen Praxis und auch nach Unicode. Plus Java gar nicht geben Ihnen Zugriff auf die echte Unicode-Eigenschaften! In der Tat, die Java nicht unterstützen alle Eigenschaft entspricht Unicode-Leerzeichen.

Die Lösung für Alle Diese Probleme und Mehr

Umgang mit diesem und vielen anderen Problemen, gestern schrieb ich eine Java-Funktion zum umschreiben einer musterzeichenfolge, schreibt diese 14 charclass entweicht:
```
\w \W \s \S \v \V \h \H \d \D \b \B \X \R
```
indem Sie Sie mit Dingen, die tatsächlich arbeiten zu match Unicode in eine konsistente und vorhersagbare Weise. Es ist nur ein alpha-Prototyp von einem einzigen hack-session, aber es ist völlig funktionsfähig.

Die kurze Geschichte ist, dass mein code schreibt die 14 wie folgt:
```
\s => [\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))
\B => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)
```
Einige Dinge zu beachten...
- Verwendet für seine \X definition, was Unicode bezieht sich jetzt auf als legacy grapheme clusternicht ein extended grapheme clusterda letztere eher komplizierter. Perl selbst verwendet nun die ausgefalleneren version, aber die alte version ist immer noch perfekt geeignet für die meisten gängigen Situationen. EDIT: Siehe Nachtrag unten.
- Was zu tun \d hängt davon ab, Ihre Absicht, aber der Standard ist die Uniode definition. Ich kann sehen, wie Menschen, die nicht immer wollen \p{Nd}aber manchmal entweder [0-9] oder \pN.
- Den beiden Grenz-Definitionen \b und \B ausdrücklich geschrieben, dass die \w definition.
- Dass \w definition ist allzu breit, denn es packt die parenned Buchstaben nicht nur die eingekreisten lieben. Die Unicode - Other_Alphabetic - Eigenschaft ist nicht verfügbar, bis JDK7, so dass die beste Sie tun können.
Erkundung Der Grenzen

Grenzen kein problem gewesen, seit Larry Wall zunächst prägte den \b und \B syntax für das Gespräch über diese für Perl 1.0 im Jahr 1987. Der Schlüssel zum Verständnis, wie \b und \B beide arbeiten zu zerstreuen, die zwei allgegenwärtigen Mythen über Sie:
1. Sie sind immer nur auf der Suche für \w Wort-Zeichen, nie für nicht-Wort-Zeichen.
2. Sie nicht speziell mit Blick für den Rand des Strings.
Einen \b Grenze bedeutet:
```
    IF does follow word
        THEN doesn't precede word
    ELSIF doesn't follow word
        THEN does precede word
```
Und die sind alle definiert ist vollkommen unkompliziert:
- folgt Wort ist (?<=\w).
- vor Wort ist (?=\w).
- nicht Folgen Wort ist (?<!\w).
- nicht vorausgehen Wort ist (?!\w).
Deshalb, da IF-THEN ist kodiert als eine and ed-zusammen AB in regexes, ein or ist X|Yund weil die and ist höher im Rang als ordas ist einfach AB|CD. Also jeder \b das bedeutet, dass eine Grenze kann sicher ersetzt mit:
```
    (?:(?<=\w)(?!\w)|(?<!\w)(?=\w))
```
mit der \w definiert in der entsprechenden Weise.

(Man könnte denken, es seltsam, dass die A und C Komponenten sind Gegensätze. In einer perfekten Welt, sollten Sie in der Lage sein zu schreiben, dass AB|Daber für eine Weile war ich der Jagd nach gegenseitigen Ausschluss Widersprüche in der Unicode-Eigenschaften, die ich denke ich habe aufgepasst, aber ich habe die doppelte Bedingung, die in der Grenze nur für den Fall. Und dies macht es mehr erweiterbar, wenn Sie weitere Ideen später.)

Für die \B non-Grenzen, die Logik ist:
```
    IF does follow word
        THEN does precede word
    ELSIF doesn't follow word
        THEN doesn't precede word
```
Dass alle Instanzen von \B ersetzt werden mit:
```
    (?:(?<=\w)(?=\w)|(?<!\w)(?!\w))
```
Diese wirklich ist, wie \b und \B Verhalten. Entspricht Muster für Sie sind
- \b mit der ((IF)THEN|ELSE) Konstrukt ist (?(?<=\w)(?!\w)|(?=\w))
- \B mit der ((IF)THEN|ELSE) Konstrukt ist (?(?=\w)(?<=\w)|(?<!\w))
Aber die Versionen mit nur AB|CD sind in Ordnung, vor allem, wenn Sie Mangel bedingte Muster in der regex-Sprache wie Java. ☹

Hab ich schon überprüft das Verhalten der Grenzen mit der alle drei äquivalente Definitionen mit einem test-suite überprüft 110,385,408 Spiele pro run, und die ich ausgeführt habe über ein Dutzend verschiedene Daten Konfigurationen nach:
```
     0 ..     7F    the ASCII range
    80 ..     FF    the non-ASCII Latin1 range
   100 ..   FFFF    the non-Latin1 BMP (Basic Multilingual Plane) range
 10000 .. 10FFFF    the non-BMP portion of Unicode (the "astral" planes)
```
Jedoch, die Menschen wollen oft eine andere Art von Grenze. Sie wollen etwas, das whitespace-und edge-of-string bewusst:
- linken Rand als (?:(?<=^)|(?<=\s))
- rechten Rand als (?=$|\s)
Befestigung Java mit Java

Den code, den ich gepostet in meine andere Antwort bietet diese und noch einige weitere Bequemlichkeiten. Diese enthält Definitionen für die Natürliche-Sprache-Wörter, Gedankenstriche, Bindestriche, Apostrophe, plus ein bisschen mehr.

Es ermöglicht Ihnen auch das festlegen von Unicode-Zeichen im logischen code-Punkte, nicht in idiotischen UTF-16 surrogates. Es ist schwer zu überbeanspruchung, wie wichtig das ist! Und das ist nur für die string-expansion.

Für regex charclass substitution, die macht der charclass in Ihre Java-regexes schließlich Arbeit auf Unicode und korrekt funktionieren, greifen die vollständige Quelle von hier. Sie kann mit ihm tun, wie du willst, natürlich. Wenn Sie die fixes, die ich lieben würde, zu hören, aber Sie nicht haben, um. Es ist ziemlich kurz. Die Eingeweide der wichtigsten regex-rewriting-Funktion ist einfach:
```
switch (code_point) {

    case 'b':  newstr.append(boundary);
               break; /* switch */
    case 'B':  newstr.append(not_boundary);
               break; /* switch */

    case 'd':  newstr.append(digits_charclass);
               break; /* switch */
    case 'D':  newstr.append(not_digits_charclass);
               break; /* switch */

    case 'h':  newstr.append(horizontal_whitespace_charclass);
               break; /* switch */
    case 'H':  newstr.append(not_horizontal_whitespace_charclass);
               break; /* switch */

    case 'v':  newstr.append(vertical_whitespace_charclass);
               break; /* switch */
    case 'V':  newstr.append(not_vertical_whitespace_charclass);
               break; /* switch */

    case 'R':  newstr.append(linebreak);
               break; /* switch */

    case 's':  newstr.append(whitespace_charclass);
               break; /* switch */
    case 'S':  newstr.append(not_whitespace_charclass);
               break; /* switch */

    case 'w':  newstr.append(identifier_charclass);
               break; /* switch */
    case 'W':  newstr.append(not_identifier_charclass);
               break; /* switch */

    case 'X':  newstr.append(legacy_grapheme_cluster);
               break; /* switch */

    default:   newstr.append('\\');
               newstr.append(Character.toChars(code_point));
               break; /* switch */

}
saw_backslash = false;
```
Sowieso, dass code ist nur ein alpha-release, Sachen, die ich gehackt über das Wochenende. Es wird nicht so bleiben.

Für die beta will ich:
- Falten zusammen die code-Duplizierung
- bieten eine klarere Schnittstelle hinsichtlich der unescaping string escapes versus augmentation regex entweicht
- bieten eine gewisse Flexibilität bei der \d expansion, und vielleicht die \b
- bieten bequeme Methoden, die Griff dreht er sich um und ruft Muster.kompilieren oder String.Spiele oder ähnliches für Sie
Für die Produktion freigeben haben sollte, javadoc und JUnit-test-suite. Ich kann meine gigatester, aber es ist nicht so geschrieben, wie Sie JUnit-tests.

Nachtrag

Ich habe gute Nachrichten und schlechte Nachrichten.

Die gute Nachricht ist, ich habe jetzt eine sehr nahe Annäherung an einen extended grapheme cluster für eine verbesserte \X.

Die schlechte Nachricht ☺, ist, dass das Muster:
```
(?:(?:\u000D\u000A)|(?:[\u0E40\u0E41\u0E42\u0E43\u0E44\u0EC0\u0EC1\u0EC2\u0EC3\u0EC4\uAAB5\uAAB6\uAAB9\uAABB\uAABC]*(?:[\u1100-\u115F\uA960-\uA97C]+|([\u1100-\u115F\uA960-\uA97C]*((?:[[\u1160-\u11A2\uD7B0-\uD7C6][\uAC00\uAC1C\uAC38]][\u1160-\u11A2\uD7B0-\uD7C6]*|[\uAC01\uAC02\uAC03\uAC04])[\u11A8-\u11F9\uD7CB-\uD7FB]*))|[\u11A8-\u11F9\uD7CB-\uD7FB]+|[^[\p{Zl}\p{Zp}\p{Cc}\p{Cf}&&[^\u000D\u000A\u200C\u200D]]\u000D\u000A])[[\p{Mn}\p{Me}\u200C\u200D\u0488\u0489\u20DD\u20DE\u20DF\u20E0\u20E2\u20E3\u20E4\uA670\uA671\uA672\uFF9E\uFF9F][\p{Mc}\u0E30\u0E32\u0E33\u0E45\u0EB0\u0EB2\u0EB3]]*)|(?s:.))
```
welche in Java würde man schreiben als:
```
String extended_grapheme_cluster = "(?:(?:\\u000D\\u000A)|(?:[\\u0E40\\u0E41\\u0E42\\u0E43\\u0E44\\u0EC0\\u0EC1\\u0EC2\\u0EC3\\u0EC4\\uAAB5\\uAAB6\\uAAB9\\uAABB\\uAABC]*(?:[\\u1100-\\u115F\\uA960-\\uA97C]+|([\\u1100-\\u115F\\uA960-\\uA97C]*((?:[[\\u1160-\\u11A2\\uD7B0-\\uD7C6][\\uAC00\\uAC1C\\uAC38]][\\u1160-\\u11A2\\uD7B0-\\uD7C6]*|[\\uAC01\\uAC02\\uAC03\\uAC04])[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]*))|[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]+|[^[\\p{Zl}\\p{Zp}\\p{Cc}\\p{Cf}&&[^\\u000D\\u000A\\u200C\\u200D]]\\u000D\\u000A])[[\\p{Mn}\\p{Me}\\u200C\\u200D\\u0488\\u0489\\u20DD\\u20DE\\u20DF\\u20E0\\u20E2\\u20E3\\u20E4\\uA670\\uA671\\uA672\\uFF9E\\uFF9F][\\p{Mc}\\u0E30\\u0E32\\u0E33\\u0E45\\u0EB0\\u0EB2\\u0EB3]]*)|(?s:.))";
```
¡Tschüß!

InformationsquelleAutor der Antwort tchrist
14

Es ist wirklich bedauerlich, dass \w funktioniert nicht. Die vorgeschlagene Lösung \p{Alpha} bei mir nicht funktioniert entweder.

Scheint es [\p{L}] fängt alle Unicode-Buchstaben. So ist die Unicode-Entsprechung der \w sollte [\p{L}\p{Digit}_].

InformationsquelleAutor der Antwort musiKk
7

In Java \w und \d sind nicht Unicode-kompatibel ist; Sie nur die ASCII-Zeichen [A-Za-z0-9_] und [0-9]. Das gleiche gilt für \p{Alpha} und Freunde (die POSIX "Charakter-Klassen" Sie sind auf sollen locale-sensitive, aber in Java Sie haben immer nur abgestimmt ASCII-Zeichen). Wenn Sie möchten, zu entsprechen Unicode "Wort-Zeichen", Sie haben zu buchstabieren Sie es aus, z.B. [\pL\p{Mn}\p{Nd}\p{Pc}],für Briefe, non-spacing Modifier (Akzente), Ziffern und die Verbindung von Satzzeichen.

Jedoch, Java \b ist Unicode-fähigen; er verwendet Character.isLetterOrDigit(ch) und prüft, für akzentuierte Buchstaben wie gut, aber die einzige "Verbindung Satzzeichen" - Zeichen erkennt, ist der Unterstrich. EDIT:wenn ich versuche dein Beispiel-code, druckt es "" und élève" wie es sollte (sehen es auf ideone.com).

InformationsquelleAutor der Antwort Alan Moore

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Quellcode

Update in Java 7

Java Regex Unicode-Probleme

Die Lösung für Alle Diese Probleme und Mehr

Erkundung Der Grenzen

Befestigung Java mit Java

Nachtrag