Wie konvertiert Buchstaben mit Akzenten, Umlauten, etc., um Ihre ASCII-Entsprechungen in Perl?

Ich Schreibe ein Programm, das funktioniert mit den Dokumenten in Perl und viele der Dokumente sind Zeichen wie ä, ö, ü, é, etc (groß-und Kleinbuchstaben). Ich möchte Sie zu ersetzen mit ASCII-Pendants a, o, u, e, etc. Wie würde ich es tun, in Perl?

Einer der Lösungen, die ich dachte zu haben, der einen hash mit den Schlüsseln wird der umlaut-und Akzent-Zeichen, und die Werte als ASCII-Pendants, aber das verlangt von mir eine Liste mit allen umlaut-und Akzent-Zeichen, die ich nicht habe, und wenn ich baute eine Liste, würde ich sicherlich vermissen viele, wie ich bin nicht vertraut mit allen möglichen Zeichen, die haben könnte, werden Umlaute, Akzente und andere diakritische Zeichen.

Versuchen zu entfernen Akzenten ist fast immer die falsche Sache zu tun. Ich denke Sie wollen: Wie man die match Zeichenfolge mit diakritischen Zeichen in perl?
Wenn nicht: Wie kann ich das ersetzen von Unicode-Zeichen mit ASCII in Perl? Wie kann ich das ändern erweiterten lateinischen Zeichen zu Ihren unbetont ASCII-Entsprechungen?
Ich denke, den ersten Absatz von Text::Unidecode Modul Beschreibung definiert die möglichen Anwendungsfälle gut genug. ) Es geht nicht um die Sortierung nur.
Danke für die vielen Antworten. Text::Unidecode ist genau das, was ich Suche!

InformationsquelleAutor bodacydo | 2012-06-15

24

Als üblich, wenn Sie denken, ein problem, das die meisten sicherlich nicht Ihre nur, es gibt bereits eine Lösung, die auf CPAN. ) In diesem Fall heißt Text::Unidecode
```
use warnings;
use strict;
use utf8;
use Text::Unidecode;
print unidecode('ä, ö, ü, é'); # will print 'a, o, u, e'
```
InformationsquelleAutor raina77ow
3

Text::Unidecode

Sehen, die vielen verzichte, aber es ist wahrscheinlich genau das, was Sie brauchen, wenn Sie nur lateinische text mit diakritischen Zeichen.

InformationsquelleAutor mob
1

verwenden s/// (=Suchen&Ersetzen) statt m// (=Übereinstimmung)

z.B. $name =~ s/\x00c0/A/g;

InformationsquelleAutor GuZ

-1

habe ich diese Unterroutine und ich füttere jedes Wort durch. Dies könnte langsam sein.

sub store_utf82_encoding{
##see file UTF8vowels.txt
#converts  UTF8 Euro vowels to nearest English equivant  

  my $name=$_[0];
  $name =~m/\x00c0/A/g; #Agrav
  $name =~m/\x00c1/A/g; # Aacute
  $name =~m/\x00c2/A/g; # Acap
  $name =~m/\x00c3/A/g; # Atilde
  $name =~m/\x00c4/A/g; # Auml
  $name =~m/\x00c5/A/g; # Aring
  $name =~m/\x00c6/AE/g; # AE
  $name =~m/\x00c7/Ch/g; # Ccedilla
  $name =~m/\x00c8/E/g; #Egrav
  $name =~m/\x00c9/E/g; # Eacute
  $name =~m/\x00ca/E/g; # Ecap
  $name =~m/\x00cb/E/g; # Euml
  $name =~m/\x00cc/I/g; # Igrav
  $name =~m/\x00cd/I/g; # Iacut
  $name =~m/\x00ce/I/g; # Icap
  $name =~m/\x00cf/I/g; # Iuml
  $name =~m/\x00d0/Th/g; #CapEth
  $name =~m/\x00d1/NY/g; # Ntild
  $name =~m/\x00d2/O/g; # Ograv
  $name =~m/\x00d3/O/g; # Oacute
  $name =~m/\x00d4/O/g; # Ocap
  $name =~m/\x00d5/Th/g; # Otilde
  $name =~m/\x00d6/O/g; # Ouml
  $name =~m/\x00d8/O/g; # Ostroke 
  $name =~m/\x00d9/U/g; # Ugrav
  $name =~m/\x00da/U/g; # Uacute
  $name =~m/\x00db/U/g; # Ucap
  $name =~m/\x00dc/U/g; # Uuml
  $name =~m/\x00dd/Y/g; # Yacute
  $name =~m/\x00de/Th/g; # CapThorn
  $name =~m/\x00df/SS/g; # GermanUCss Ezette
  $name =~m/\x00e0/a/g; # agrav
  $name =~m/\x00e1/a/g; # aacute 
  $name =~m/\x00e2/a/g; # acap
  $name =~m/\x00e3/a/g; # atilde
  $name =~m/\x00e4/a/g; # auml
  $name =~m/\x00e5/a/g; # aring
  $name =~m/\x00e6/ae/g; # ae
  $name =~m/\x00e7/ch/g; # ccedilla 
  $name =~m/\x00e8/e/g; # egrav
  $name =~m/\x00e9/e/g; # eacute
  $name =~m/\x00ea/e/g; # ecap
  $name =~m/\x00eb/e/g; # euml
  $name =~m/\x00ec/i/g; # igrav
  $name =~m/\x00ed/i/g; # iacute
  $name =~m/\x00ee/i/g; # icap
  $name =~m/\x00ef/i/g; # iuml
  $name =~m/\x00f0/th/g; # lowercase eth
  $name =~m/\x00f1/ny/g; # ntilde
  $name =~m/\x00f2/o/g; # ograv
  $name =~m/\x00f3/o/g; # oacute 
  $name =~m/\x00f4/o/g; # ocap
  $name =~m/\x00f5/th/g; # otilde
  $name =~m/\x00f6/o/g; # ouml
  $name =~m/\x00f8/o/g; # ostroke
  $name =~m/\x00f9/u/g; # ugrav
  $name =~m/\x00fa/u/g; # uacute
  $name =~m/\x00fb/u/g; # ucap
  $name =~m/\x00fc/u/g; # uuml
  $name =~m/\x00fe/th/g; # lowercase thorn
  $name =~m/\x00fd/y/g; # yacute
  $name =~m/\x00ff/y/g; # yuml

return $name;

} #endsub store_utf82_encoding

InformationsquelleAutor Bonnie Dalzell

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.