Sortieren von UTF-8-Zeichenfolgen in RoR

Ich versuche herauszufinden, eine 'richtige' Art und Weise der Sortierung für UTF-8 strings in Ruby on Rails.

In meiner Anwendung, ich habe eine select-box, die gefüllt ist mit den Ländern. Als meine Anwendung ist lokalisiert, die jeweils vorhandenen Gebietsschema hat eine Ländern.yml-Datei, die sich einer Land-id den lokalisierten Namen für das Land. Ich kann nicht Sortieren der strings manuell in der yml-Datei, weil ich brauche die ID um konsistent über alle Gebietsschemas.

Was ich getan habe ist, erstellen Sie eine ascii_name Methode, die verwendet die unidecode Juwel konvertieren mit Akzent und nicht-lateinische Zeichen in Ihre ascii-äquivalente (zum Beispiel, "Afeganistão" geworden wäre "Afeganistao"), und dann Sortieren Sie auf, dass:

require 'unidecode'

class Country
  def ascii_name
    Unidecoder.decode(name).gsub("[?]", "").gsub(/`/, "'").strip
  end
end

Country.all.sort_by(:&ascii_name)

Jedoch gibt es offensichtliche Probleme mit diesem:

Es nicht richtig Sortieren, nicht-lateinische Sprachen, da kann es nicht sein, eine direkte Analog-lateinischen Zeichen.
Es macht keinen Unterschied zwischen einem Brief und alle mit Akzent Formen, die Buchstaben (also z.B. A und Ä werden austauschbar)

Kennt jemand eine bessere Möglichkeit, ich könnte die Art meiner strings?

InformationsquelleAutor Daniel Vandersluis | 2009-06-11

8

http://github.com/grosser/sort_alphabetical

Dieser Edelstein sollte helfen. Es fügt sort_alphabetical und sort_alphabetical_by Methoden zu Enumberable.
- Vielen Dank, das war genau die Art von plugin, die ich suchte!
- Dieses plugin setzt auf NFD Zersetzung en.wikipedia.org/wiki/Unicode_equivalence#Normal_forms und scheitert in einigen Fällen. Nicht alle diakritischen Zeichen zerlegt werden können auf diese Weise (zum Beispiel die polnischen Buchstaben Ł können nicht).
- Haben Sie Vorschläge, wie Sie richtig zu Sortieren utf-8-Zeichenfolgen mit polnischen Zeichen?
- Wenn Sie schnappen sich die Datensätze aus der Datenbank, werden Sie wahrscheinlich wollen, um Sie zu Holen, sortiert nach db-engine. Siehe Dokumentation für Ihr RDBS und die Suche nach "Sortierung". Sie können die Sortierung, die Sie wie die meisten für die ganze Datenbank, Tabelle oder (ANMUTIGEN) sogar geben Sie es in Ihrer Anfrage. In MySQL ist der beste Sortierung für Polnisch ist utf8_polish_ci. Wenn Sie möchten, Sortieren Sie Sie in Ruby, befolgen Sie diese Antwort: stackoverflow.com/a/5472046/304175
InformationsquelleAutor İ. Emre Kutlu
10

Ruby peforms string-Vergleich auf der Grundlage der byte-Werte der Zeichen:
```
%w[à a e].sort
# => ["a", "e", "à"]
```
Richtig zu Sortieren, strings, je nach Gebietsschema, die ffi-icu gem verwendet werden könnten:
```
require "ffi-icu"

ICU::Collation.collate("it_IT", %w[à a e])
# => ["a", "à", "e"]

ICU::Collation.collate("de", %w[a s x ß])
# => ["a", "s", "ß", "x"]
```
Als alternative:
```
collator = ICU::Collation::Collator.new("it_IT")
%w[à a e].sort { |a, b| collator.compare(a, b) }
# => %w[a à e]
```
Update um Zu testen, wie sollten strings Sortieren nach Gebietsschema Regeln des ICU-Projekts bietet dieses nette tool.
- Das einzige, was ich nicht gerne über "ffi-IPS" ist, dass es davon abhängt, "libicu". Aber ich denke, das ist ziemlich allgegenwärtig auf UNIX-Systemen, richtig?
- In der Regel ist es nicht standardmäßig installiert, aber es ist auf fast jedem system.
InformationsquelleAutor toro2k
4

Die einzige Lösung, die ich gefunden habe bisher ist die Verwendung ActiveSupport::Inflector.transliterate(string) zu ersetzen, die unicode-Zeichen mit ASCII und Sortieren:
```
Country.all.sort_by do |country|
  ActiveSupport::Inflector.transliterate country.name
end
```
Nun, das problem ist nur, dass diese so ausgleicht, dass "ä" mit "a" (DIN 5007-1) und ich am Ende mit "Ägypten" vor "Albanien" ich würde erwarten, dass es die andere Weise herum. Zum Glück ist die transliteration ist konfigurierbar über gewusst wie: ersetzen von Zeichen.

Siehe Dokumentation: http://api.rubyonrails.org/classes/ActiveSupport/Inflector.html#method-i-transliterate
- Sind Sie gerade auf der Suche nach einer Methode, um transliterate Zeichenfolgen oder eine Methode zum Sortieren von strings nach einem locale collation?
- Die neueste, Sortieren von Zeichenfolgen durch ein locale-Sortierung.
- Auch mit der richtigen Sortierung (ich soll de_DE.UFT8) ist es normal, dass Ägypten kommt vor Albanien.
- Ich weiß, aber mit der österreichischen Sortierung, denke ich. "Ein" < "Ä" < "B". Und ActiveSupport::Inflector es nicht unterstützt standardmäßig.
- Siehe dieser können Sie testen, wie strings sortiert werden, je nach Sortierung.
- ActiveSupport::Inflector.transliterate mir geholfen, vielen Dank
InformationsquelleAutor Kostas
1

Gibt es ein paar Wege zu gehen. Sie können konvertieren möchten, der in UTF-strings in hex-strings und Sortieren Sie dann:
```
s.split(//).collect { |x| x.unpack('U').to_s }.join
```
oder nutzen Sie die iconv-Bibliothek. Lesen Sie es und verwenden Sie es als angemessen (von dzone):
```
#add this to environment.rb
#call to_iso on any UTF8 string to get a ISO string back
#example : "Cédez le passage aux français".to_iso

class String
  require 'iconv' #this line is not needed in rails !
  def to_iso
    Iconv.conv('ISO-8859-1', 'utf-8', self)
  end
end
```
- Hm, sortiert nach den hex-Wert nicht scheinen, um meine strings in alphabetischer Reihenfolge, aber ich weiß nicht wirklich verstehen, wie es funktioniert, kannst du das erklären? Auch, es ist immer noch die Sortierung Á bevor Sie Eine, die scheint nach hinten zu mir.
- Achten Sie auch: Unicode-Sortierung hängt von der locale! Verschiedene Länder haben eine unterschiedliche Reihenfolge, in Ihr Wörterbuch.
- Gut, die Konvertierung zu hex gibt Ihnen eine Ordnung, die besser verstanden Sortierung Funktionen. Ich würde ein bisschen Experimentieren, durch die Verwendung von hex-Werte formatiert auf 2 oder 3 Nachkommastellen. oder sogar die Verwendung von dezimal-Werte für jedes Zeichen. Ich bin kein großer UTF-Nutzer selbst, aber es scheint von Rutger Kommentare, dass das, was Sie zu tun versuchen, nicht über eine genaue Antwort.
- das ist es, was ich versuche, herauszufinden, wie zu implementieren ist, glaube ich, und ist ein weiterer Niedergang von meiner aktuellen Methode (oder die Sortierung nach Zeichencode)
InformationsquelleAutor Ryan Oberoi
1

Die einzige funktionierende Lösung die ich bisher gefunden (zumindest für Ruby 1.8, weil Ruby 1.9 behandeln soll, die Unicode-besser) ist Unicode von Yoshida, Masato,. Finden Sie Unicode.strcmp Methode gibt.

EDIT: Sorry, diese Lösung verwendet NFD-ZERLEGUNG als auch mit allen seinen Einschränkungen.

InformationsquelleAutor skalee
0

Was Sie zu tun versuchen, ist eine sehr unordentliche Angelegenheit werden. Es gibt keine Möglichkeit, das zu tun transparente transliteration auf alle Unicode-Zeichen, weil der Sinn des Digraphen ändert sich von Ort zu Ort, und Streicher kann wachsen RIESIGE (wenn sagen Sie ersetzen 10 chinesische Symbole mit Ihren phonetischen äquivalente). Gehen Sie nicht dort.

Warum willst du transliterierte Namen in den ersten Platz? Für URLs? Browser die Verarbeitung von Unicode-URLs anständig nun, so Sie sind, erfinden Sie ein großes problem aus der Luft gegriffen. Wenn Sie brauchen, IDs, Vorverarbeiten Ihrer Listen, um eine stabile numerische ID, die pro Land und zu verwenden, dass als Bezeichner. Oder speichern Sie den englischen Namen des Landes als identitifer (Sie können download-locale-aware ISO-Land Listen kostenlos).

Wenn Sie wirklich wollen, eine gute Transkription für Unicode (und das ist nicht das, was Sie wollen, in diesem Fall) die IBM ICU-Bibliotheken, es ist ein schlafender Edelstein für Sie.
- Frage fragt nach der Sortierung von lokalisierten Zeichenfolgen. Nicht über eine transliteration.
InformationsquelleAutor Julik
-2

Haben Sie versucht, Zugriff auf die mb_chars Methode für jedes Land strings? mb_chars ist ein proxy, der ActiveSupport fügt hinzu, definiert Unicode-sichere Versionen von allen String Methoden. Wenn der Komparator ist Unicode-kompatibel ist dann die Sortierung sollte korrekt funktionieren.
- mb_chars - Dokumentation
- Das problem bei der Verwendung mb_chars ist die gleiche wie die Sortierung gerade, weil im Zeichensatz A-Z kommt vor Ä, Zeichen mit Akzent wird nicht Sortieren, in die richtige Lage.
InformationsquelleAutor John Topley

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.