Finden möglich die Duplikate in beiden Spalten ignorieren, Fall-und Sonderzeichen

Abfrage

SELECT COUNT(*), name, number
FROM   tbl
GROUP  BY name, number
HAVING COUNT(*) > 1

Es manchmal nicht, um Duplikate zu finden zwischen Kleinbuchstaben und Großbuchstaben.

E. g.: sunny und Sunny nicht als Duplikate.

So, wie finden Sie alle möglichen Duplikate von PostgreSQL für zwei Spalten.

Wenn Sie sagen, "Sonderzeichen" meinst du, dass "Weiche" und "$s^o&f!t" gleich zu sein? Oder redest du von Akzentbuchstaben, wo Sie wollen, "Café" und "Café" abgestimmt werden als gleich?
yup!!! es ist auch eine Möglichkeit
die? Oder meinst du "beide oben" ?
"Soft" und "$s^o&f!t" @CraigRinger

InformationsquelleAutor Ghostman | 2012-10-19

16

lower()/upper()

Verwenden Sie eine von diesen Falten, Zeichen entweder mit unteren oder oberen Fall. Sonderzeichen sind nicht betroffen:
```
SELECT count(*), lower(name), number
FROM   tbl
GROUP  BY lower(name), number
HAVING count(*) > 1;
```
unaccent()

Wenn Sie wirklich wollen, zu ignorieren, diakritische Zeichen, wie Ihre Kommentare, die implizieren, installieren Sie das Zusatzmodul unaccent, die ein text search dictionary entfernt werden, Akzente und auch die Allgemeine Funktion unaccent():
```
CREATE EXTENSION unaccent;
```
Macht es sehr einfach:
```
SELECT lower(unaccent('Büßercafé')) AS norm
```
Ergebnis:
```
busercafe
```
Diese nicht Streifen nicht-Buchstaben. Hinzufügen regexp_replace() wie @Craig erwähnt, dass:
```
SELECT lower(unaccent(regexp_replace('$s^o&f!t Büßercafé', '\W', '', 'g') ))
                                                                     AS norm
```
Ergebnis:
```
softbusercafe
```
Können Sie selbst bauen einen funktionalen index obendrein:
- Hat die Unterstützung für PostgreSQL "keine Unterscheidung nach Akzent" Sortierungen?
- gibt es etwas ähnliches wie RLIKE in postgre
- Groß-und Kleinschreibung LIKE? ILIKE.
- In mysql gibt es die Funktion RLIKE ... ist ILIKE-ähnlich wie es in postgre dev.mysql.com/doc/refman/5.0/en/regexp.html
- Sie können die regular expression match-operator ~ für einen ähnlichen Zweck wie die MySQL - RLIKE.
- danke Kumpel.. akzeptiert die Antwort
- Ich habe durch die Kommentare, die Sie wollen "unaccent", zu. Gut, es ist viel einfacher und bewährter Weg. Ich habe ein bisschen auf meine Antwort.
- danke @Erwin Brandstetter.... hmmm.... dazugelernt heute !!!
- Huh, ich wusste nicht, über unaccent. Nützlich, vor allem da es funktioniert mit tsearch2. Ich denke immer noch die ganze Idee von "unaccenting" ist ziemlich schrecklich, aber wenn Sie fest sind schreckliche Daten, die ich vermute, Sie haben schreckliche Dinge zu tun.
- Unaccenting werden kann sehr hilfreich zu halten, die rate der alpha-Fehler gering (unerwünschte Zeilen gefunden), während auch die Verringerung der beta-Fehler (die gewünschten Zeilen nicht gefunden) in eine fuzzy-Suche mit der menschlichen Eingabe, vor allem in Sprachen mit vielen (mehr oder weniger optional) Akzente, d.h. die meisten Sprachen, die nicht Englisch ist.
- es ist ein problem mit der Abfrage ist es nicht in der Lage zu finden, die Duplikate in den Namen!!!!! aber wen wir das tun group by name having count(name)>1 bekomme ich die Duplikate
- Ich nehme an, senden Sie eine neue Frage mit Ihrer Abfrage, und einige Beispiel-Daten. Das problem sollte leicht zu finden sein, mit diesen Informationen. Sie können immer einen link auf diese Frage aus dem Kontext.
- kann u vorschlagen, eine richtige Frage dafür!!!!! wie werde ich auf die Frage!!!! aktualisieren ur Abfrage mit den Datensätzen ist es
- Poste ein neuen die Frage mit der genauen Abfrage und Beispiel-Werte, dass es nicht mit. Ich habe nicht genug Informationen, um mit zu arbeiten (ich verstehe nicht ganz, was dein problem ist).
- gepostet stackoverflow.com/questions/13133599/...
InformationsquelleAutor Erwin Brandstetter
4

PostgreSQL standardmäßig die groß - /Kleinschreibung ist. Sie können erzwingen, es werden groß-und Kleinschreibung bei der Suche durch die Umwandlung aller Werte, um einen einzigen Fall:
```
SELECT COUNT(*), lower(name), number FROM TABLE 
GROUP BY lower(name), number HAVING COUNT(*) > 1
```
- HINWEIS: Dieser wurde nicht getestet in Postgres
InformationsquelleAutor Palpatim
1

(Aktualisierte Antwort nach Klärung von Plakat): Die Idee der "unaccenting" oder stripping Akzente (dicratics) ist im Allgemeinen falsch. Es ist OK-ish, wenn Sie entsprechende Daten, um herauszufinden, ob einige fehlgeleitete Benutzer oder eine Anwendung verwurschtelt résumé in resume, aber es ist völlig falsch, sich zu ändern in die andere, wie Sie verschiedene Wörter. Auch dann werde es nur eine Art von Arbeit, und sollte in Verbindung mit einer string-ähnlichkeit matching-system wie Trigramme oder Die Levenshtein-Entfernungen.

Die Idee von "unaccenting" setzt Voraus, dass alle Zeichen mit Akzent, hat eine einzige gültige äquivalent unbetont Charakter, oder zumindest, dass eine beliebige Zeichen mit Akzent ersetzt, höchstens mit einem ohne Akzent-Zeichen in ein ascii-zentrale Repräsentation des Wortes. Das ist einfach nicht wahr; in einer Sprache ö könnte eine "u" - sound, während in anderen es könnte ein langes "oo" und das "ascii-Varianten" Rechtschreib-Konventionen widerspiegeln könnte, die. Also, in der Sprache, den richtigen "un-Akzentuierung" auf der made-up dummy-Wort "Tapö" könnte "Tapu" und in einem anderen durch dieses gedachte Wort sein könnte, ascii-Varianten zu "Tapoo". In keinem Fall wird die "un-Akzent" in form von "Tapo" übereinstimmen, was die Leute tatsächlich schreiben, wenn gezwungen, in den ascii-Zeichensatz. Wörter mit dicratics können auch ascii-Varianten in ein getrenntes Wort.

Können Sie finden Sie diese in englischer Sprache mit Ligaturen, bei denen das Wort dæmon ist ascii-Varianten daemon. Wenn Sie beraubt die Binde, die Sie bekommen würde dmon was nicht passen daemon die gemeinsame Rechtschreibung. Das gleiche gilt für æther ist in der Regel ascii-Varianten zu aether oder ether. Sie können auch sehen, das im deutschen mit § , in der Regel "erweitert" als ss.

Wenn Sie muss Versuch, "un-Akzent", "normalisieren" Akzente oder "Streifen" Akzente:

Können Sie einen Charakter-Klasse regulären Ausdruck zum strip alle, aber einer angegebenen Menge von Zeichen. In diesem Fall verwenden wir die \W escape (Kurzschrift für die Charakter-Klasse [^[:alnum:]_] als pro-das Handbuch), um auszuschließen, "Symbole", aber keine Zeichen mit Akzent:
```
regress=# SELECT regexp_replace(lower(x),'\W','','g') 
          FROM ( VALUES ('$s^o&f!t'),('Café') ) vals(x);
 regexp_replace 
----------------
 soft
 café
(2 rows)
```
Wenn Sie möchten, heraus zu filtern, akzentuiert chars auch Sie definieren Ihre eigenen Charakter-Klasse:
```
regress=# SELECT regexp_replace(lower(x),'[^a-z0-9]','','g')
          FROM ( VALUES ('$s^o&f!t'),('Café') ) vals(x);
 regexp_replace 
----------------
 soft
 caf
(2 rows)
```
Wenn Sie eigentlich gedacht Ersatz einige akzentuierte Zeichen, die für ähnliche unbetont Zeichen, die Sie nutzen könnten translate als pro dieser wiki-Artikel:
```
regress=# SELECT translate(
        lower(x),
        'âãäåāăąÁÂÃÄÅĀĂĄèééêëēĕėęěĒĔĖĘĚìíîïìĩīĭÌÍÎÏÌĨĪĬóôõöōŏőÒÓÔÕÖŌŎŐùúûüũūŭůÙÚÛÜŨŪŬŮ',
        'aaaaaaaaaaaaaaaeeeeeeeeeeeeeeeiiiiiiiiiiiiiiiiooooooooooooooouuuuuuuuuuuuuuuu'
    )
    FROM ( VALUES ('$s^o&f!t'),('Café') ) vals(x);

 translate 
-----------
 $s^o&f!t
 cafe
(2 rows)
```
- Danke Kumpel!! werde es versuchen!!!
- Wie würden Sie gehen? Antwort aktualisiert, btw.
- ich benutzt php regulären Ausdruck gespeichert, um eine variable und hat es geschafft!!! Sie hat eine Länge verarbeiten!!! anyways danke Kumpel... akzeptieren ur Antwort!!!
InformationsquelleAutor Craig Ringer

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Finden möglich die Duplikate in beiden Spalten ignorieren, Fall-und Sonderzeichen

Abfrage

`lower()`/`upper()`

`unaccent()`

Wenn Sie muss Versuch, "un-Akzent", "normalisieren" Akzente oder "Streifen" Akzente:

Abfrage

lower()/upper()

unaccent()

Wenn Sie muss Versuch, "un-Akzent", "normalisieren" Akzente oder "Streifen" Akzente:

`lower()`/`upper()`

`unaccent()`