Unicode-Entsprechungen für \ w und \ b in regulären Java-Ausdrücken?

Vielen modernen regex-Implementierungen interpretieren die \w Charakter-Klasse Kürzel wie "beliebiger Buchstabe, eine Ziffer, oder eine Verbindung Interpunktion" (in der Regel: den Unterstrich). So ein regex wie \w+ entspricht Wörter wie helloélèveGOÄ_432 oder gefräßig.

Leider Java nicht. In Java \w ist beschränkt auf [A-Za-z0-9_]. Dies macht die passenden Wörter wie die oben genannten schwierig, neben anderen Problemen.

Es scheint auch, dass die \b Trennzeichen entspricht in Orten, wo es nicht sollte.

Was wäre das korrekte äquivalent .NET-like, Unicode-aware \w oder \b in Java? Die anderen Abkürzungen müssen "umschreiben", um Sie Unicode-fähige?

InformationsquelleAutor der Frage Tim Pietzcker | 2010-11-29

Schreibe einen Kommentar