Java-einfacher Satz-parser
gibt es eine einfache Möglichkeit zum erstellen von Satz-parser in reinem Java
ohne libs und Gläser.
Parser sollte nicht nur kümmern uns um die Leerzeichen zwischen Worten,
aber mehr, smart und analysieren: . ! ?,
erkennen, Wann der Satz beendet ist usw.
Nach der Analyse, nur wahre Worte, die könnten alle gespeichert in der db oder Datei, keine besonderen chars.
vielen Dank alle im Voraus 🙂
Berücksichtigen Sie auch
StreamTokenizer
; schnell und beherbergt Leerzeichen flexibel.InformationsquelleAutor mika | 2010-01-20
Du musst angemeldet sein, um einen Kommentar abzugeben.
Möchten Sie vielleicht beginnen, indem man die BreakIterator Klasse.
Aus der JavaDoc.
Siehe demo: BreakIteratorDemo.java
InformationsquelleAutor
Basierend auf @Jarrod Roberson Antwort, die ich erstellt habe, eine util-Methode, die verwendet BreakIterator und gibt die Liste von Sätzen.
InformationsquelleAutor indusBull
Verwenden Sie einfach den regulären Ausdruck (
\s+
- es gelten für ein oder mehr " whitespaces (Leerzeichen, tabs, etc.)) split String in ein array.Dann können Sie iteriert über das array und prüfen, ob Wort endet mit
.?!
(String.endsWith() finden Ende von Sätzen.Und vor dem speichern jedes Wort, sobald wieder reguläre Ausdrücke, um entfernen Sie alle nicht-alphanumerischen Zeichen.
InformationsquelleAutor Crozin
Natürlich StringTokenizer
InformationsquelleAutor stacker
String Tokenizer
Scanner
Ex.
Gleiche mit Abkürzungen wie Dr. oder U. S. A.
InformationsquelleAutor Holograham