Wie das Lesen von Werten aus zahlen, die als geschrieben Worte?

Wie wir alle wissen zahlen geschrieben werden können, entweder in Ziffern oder mit Namen. Zwar gibt es eine Menge Beispiele gefunden werden, konvertieren 123 in hundert zwanzig drei, konnte ich nicht finden gute Beispiele, wie es zu konvertieren als Umgekehrt.

Einige Vorsichtsmaßnahmen:

  1. Kardinal/nominal-oder ordinal -: "eins" und "der erste"
  2. gemeinsame Rechtschreibfehler: "vierzig"/"vierzig"
  3. Hunderte/Tausende: 2100 -> "zwanzig von hundert" und auch "zwei tausend und hundert"
  4. Trennzeichen: "eleven hundred fifty two", aber auch "elevenhundred fiftytwo" oder "elf-hundert-fünfzig-zwei" und so weiter
  5. Redensarten: "thirty-something" -
  6. Fraktionen: 'ein Drittel', 'zwei Fünftel'
  7. gemeinsamen Namen: 'ein Dutzend', 'halbe'

Und wahrscheinlich gibt es noch weitere Einschränkungen möglich, die sind noch nicht eingetragen.
Angenommen, der Algorithmus muss sehr robust sein, und zu verstehen, auch Rechtschreibfehler.

Welche Felder/papers/Studien/algorithmen sollte ich Lesen, um zu lernen, wie zu schreiben das alles?
Wo ist die information?

PS: Meine Letzte parser sollte eigentlich verstehen 3 verschiedenen Sprachen, Deutsch, Englisch, Russisch und Hebräisch. Und vielleicht zu einem späteren Zeitpunkt weitere Sprachen werden Hinzugefügt werden. Hebräisch hat auch Männlich/weiblich-Nummern, wie "ein Mann" und "eine Frau" haben einen unterschiedlichen "ein" — "ehad" und "ahat". Russisch hat auch einige seiner eigenen Komplexität.

Google macht einen guten job bei dieser. Zum Beispiel:

http://www.google.com/search?q=two+thousand+and+one+hundred+plus+five+dozen+and+four+fifths+in+decimal

(die Umkehrung ist auch möglich http://www.google.com/search?q=999999999999+in+english)

  • Dies kann nicht für Rezepte so viel, aber vergessen Sie nicht über Wörter wie score, Jahrzehnts, Jahrhunderts, etc. Ähnlich Dutzend, grob, halb, wie Sie schon festgestellt haben.
  • "vierzig" ist nicht ein Wort in jeder Variante der englischen Sprache! Der OED hat ein paar Erwähnungen der Schreibweise "vierzig", aber Sie sind von 1707 oder früher.
  • Obwohl die "vierzig" ist nicht ein Wort, Menschen Häufig Fehler ein. Und ich muss analysieren, was die Leute schreiben, nicht "richtigen" Worte.
  • Es würde scheinen, dass der einzige Weg, zu sagen, dass eine Anzahl (wie bei "one" in Englisch) ist eher die Ausnahme, als die Regel. Französisch "un" und "une"; und das Deutsche hat mindestens 3 verschiedene Möglichkeiten zu sagen: 1 ("eins", "eine" und "einen", wenn der Speicher dient mir korrekt).
  • Pedanterie Warnung!!! "Eine" und "Einen" sind unbestimmte Artikel (glaube, "eine" oder "ein") und nicht die ganze Zahl ("eins"). 🙂
  • Was soll "thirty-something" zu bewerten?

Schreibe einen Kommentar