So finden Sie doppelte Werte in SQL Server

Ich bin mit SQL Server 2008. Ich habe eine Tabelle

Customers

customer_number int

field1 varchar

field2 varchar

field3 varchar

field4 varchar

... und viel mehr Spalten, ist egal, für meine Fragen.

Spalte kunden_nr ist pk. Ich bin versucht zu finden, doppelte Werte und einige Unterschiede zwischen Ihnen.

Bitte helfen Sie mir, finden alle Zeilen, die die gleiche

1) field1, field2, field3, field4

2) nur 3 Spalten gleich sind und einer von Ihnen nicht (außer Zeilen aus Liste 1)

3) nur 2 Spalten gleich und zwei von Ihnen sind nicht (außer Zeilen aus Liste 1 und Liste 2)

Am Ende: ich habe 3 Tabellen mit diese Ergebnisse und zusätzliche Gruppen-id, die gleiche für eine Gruppe von ähnlichen (Z. B. Für 3 Spalte gleich, Zeilen 3 gleichen Spalten gleich eine separate Gruppe)

Danke.

InformationsquelleAutor hgulyan | 2010-05-20

Das einfachste wäre wahrscheinlich eine gespeicherte Prozedur schreiben, um die Iteration über jede Gruppe von Kunden mit Duplikaten und legen Sie die passenden pro Gruppe Anzahl jeweils.

Aber, ich habe darüber nachgedacht und wahrscheinlich können Sie dies mit einer Unterabfrage. Hoffentlich habe ich nicht noch komplizierter machte als es sollte, aber das sollte Sie bekommen, was Sie suchen, für die erste Tabelle von Duplikaten (alle vier Felder). Beachten Sie, dass diese nicht getestet ist, so müssen Sie möglicherweise ein wenig Feintuning.

Grundsätzlich bekommt jede Gruppe von Bereichen, in denen es Duplikate sind, eine Gruppe für jeden, der bekommt dann alle Kunden, mit denen Felder und vergibt immer die gleiche Gruppe Anzahl.

INSERT INTO FourFieldsDuplicates(group_no, customer_no)
SELECT Groups.group_no, custs.customer_no
FROM (SELECT ROW_NUMBER() OVER(ORDER BY c.field1) AS group_no,
             c.field1, c.field2, c.field3, c.field4
      FROM Customers c
      GROUP BY c.field1, c.field2, c.field3, c.field4
      HAVING COUNT(*) > 1) Groups
INNER JOIN Customers custs ON custs.field1 = Groups.field1
                           AND custs.field2 = Groups.field2
                           AND custs.field3 = Groups.field3
                           AND custs.field4 = Groups.field4

Die anderen sind ein bisschen mehr kompliziert, aber als Sie brauchen, um erweitern die Möglichkeiten. Die drei-Felder-Gruppen wäre dann:

INSERT INTO ThreeFieldsDuplicates(group_no, customer_no)
SELECT Groups.group_no, custs.customer_no
FROM (SELECT ROW_NUMBER() OVER(ORDER BY GroupsInner.field1) AS group_no,
             GroupsInner.field1, GroupsInner.field2, 
             GroupsInner.field3, GroupsInner.field4
      FROM (SELECT c.field1, c.field2, c.field3, NULL AS field4
            FROM Customers c
            WHERE NOT EXISTS(SELECT d.customer_no
                       FROM FourFieldsDuplicates d
                       WHERE d.customer_no = c.customer_no)
            GROUP BY c.field1, c.field2, c.field3
            UNION ALL
            SELECT c.field1, c.field2, NULL AS field3, c.field4
            FROM Customers c
            WHERE NOT EXISTS(SELECT d.customer_no
                             FROM FourFieldsDuplicates d
                             WHERE d.customer_no = c.customer_no)
            GROUP BY c.field1, c.field2, c.field4
            UNION ALL
            SELECT c.field1, NULL AS field2, c.field3, c.field4
            FROM Customers c
            WHERE NOT EXISTS(SELECT d.customer_no
                             FROM FourFieldsDuplicates d
                             WHERE d.customer_no = c.customer_no)
            GROUP BY c.field1, c.field3, c.field4
            UNION ALL
            SELECT NULL AS field1, c.field2, c.field3, c.field4
            FROM Customers c
            WHERE NOT EXISTS(SELECT d.customer_no
                             FROM FourFieldsDuplicates d
                             WHERE d.customer_no = c.customer_no)
            GROUP BY c.field2, c.field3, c.field4) GroupsInner
      GROUP BY GroupsInner.field1, GroupsInner.field2, 
               GroupsInner.field3, GroupsInner.field4
      HAVING COUNT(*) > 1) Groups
INNER JOIN Customers custs ON (Groups.field1 IS NULL OR custs.field1 = Groups.field1)
                           AND (Groups.field2 IS NULL OR custs.field2 = Groups.field2)
                           AND (Groups.field3 IS NULL OR custs.field3 = Groups.field3)
                           AND (Groups.field4 IS NULL OR custs.field4 = Groups.field4)

Hoffentlich produziert die richtigen Ergebnisse, und ich lasse die letzten so eine übung. 😀

Ist es richtig zu schreiben "c.Feld1 als group_no" ? group_no ist " int " und " Feld1 varchar. Vielleicht sollte ich nutzen, einige temp Tabellen?
Es ist eigentlich ROW_NUMBER() als group_no.
Ja, ich schon wechseln. Immer noch versuchen zu laufen, erste Skript...
Tatsächlich, es funktioniert nicht. Gruppen-id ist einzigartig für jede Zeile, weil Sie nur Aufträge von Feld1 und ich denke, es funktioniert vor group by, das ist, warum es fügt nur row_number, um alle Zeilen, und ich möchte die Gruppen mit gleichen ids für Duplikate.
Es scheint, dass die erste Abfrage hat geklappt:)
Kann es da irgendein problem, wenn eines der Felder den Wert smalldatetime?
Wenn ROW_NUMBER() nicht richtig funktioniert, versuchen Sie wickelte Sie in ein neues untergeordneten select-Anweisung (SELECT ROW_NUMBER(), ... FROM (SELECT ... GROUP BY ...)). Als smalldatetime geht, ich glaube nicht, dass es sollte egal solange = funktioniert für Sie.
Ich werde markieren Sie diese als Antwort, weil groupId funktioniert, aber die Abfrage wurde wirklich hart. Ich weiß nicht, gibt es irgendeine Möglichkeit, es richtig zu machen. Trotzdem vielen Dank.

InformationsquelleAutor lc.

56

Hier ist eine praktische Abfrage für die Suche nach Duplikaten in einer Tabelle. Angenommen, Sie möchten, finden Sie alle E-Mail-Adressen in eine Tabelle, die mehr als einmal vorhanden sind:
```
SELECT email, COUNT(email) AS NumOccurrences
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )
```
Könnte man dieses Verfahren auch verwenden, um die Zeilen suchen, die auftreten genau einmal:
```
SELECT email
FROM users
GROUP BY email
HAVING ( COUNT(email) = 1 )
```
- Einfache, schöne Antwort. Hätte ich das gedacht, aber ich fragte google, weil ich nicht wollen, zu denken. Ich wurde nicht enttäuscht. Dies ist die wahre Antwort.
- Gut gespielt, sir.
- Einfach und es hat Super geklappt. Ich danke Ihnen sehr!
- Dies ist in der Tat eine Möglichkeit zu finden, Vervielfältigung Werte in einer Tabelle, aber Sie nicht meine Frage beantworten. Vielleicht sollte ich den Titel ändern, aber ich kann nicht markieren Sie diese als Antwort. Nehmen Sie einen genaueren Blick auf die Frage.
- Ja, nicht sicher, warum die andere Antwort ist, die akzeptiert man. Dies ist einfach und elegant.
- Wahrscheinlich, weil diese Antwort ist völlig orthogonal zu der eigentlichen Frage
InformationsquelleAutor Balaji Birajdar

Ich bin mir nicht sicher, ob Sie erfordern eine überprüfung auf Gleichheit, die auf verschiedenen Feldern (wie field1=field2).

Andernfalls kann dies ausreichend sein.

Bearbeiten

Fühlen Sie sich frei, einstellen der Testdaten, um uns mit ein, dass eine falsche Ausgabe nach Ihren Vorgaben.

Testdaten

DECLARE @Customers TABLE (
  customer_number INTEGER IDENTITY(1, 1)
  , field1 INTEGER
  , field2 INTEGER
  , field3 INTEGER
  , field4 INTEGER)

INSERT INTO @Customers
          SELECT 1, 1, 1, 1
UNION ALL SELECT 1, 1, 1, 1
UNION ALL SELECT 1, 1, 1, NULL
UNION ALL SELECT 1, 1, 1, 2
UNION ALL SELECT 1, 1, 1, 3
UNION ALL SELECT 2, 1, 1, 1

Alle Gleich

SELECT  ROW_NUMBER() OVER (ORDER BY c1.customer_number)
        , c1.field1
        , c1.field2
        , c1.field3
        , c1.field4
FROM    @Customers c1 
        INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number  
                                    AND ISNULL(c2.field1, 0) = ISNULL(c1.field1, 0) 
                                    AND ISNULL(c2.field2, 0) = ISNULL(c1.field2, 0)
                                    AND ISNULL(c2.field3, 0) = ISNULL(c1.field3, 0)
                                    AND ISNULL(c2.field4, 0) = ISNULL(c1.field4, 0)

Einem Feld unterschiedliche

SELECT  ROW_NUMBER() OVER (ORDER BY field1, field2, field3, field4)
        , field1
        , field2
        , field3
        , field4
FROM    (
          SELECT  DISTINCT c1.field1
                  , c1.field2
                  , c1.field3
                  , field4 = NULL
          FROM    @Customers c1 
                  INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number  
                                             AND c2.field1 = c1.field1 
                                             AND c2.field2 = c1.field2 
                                             AND c2.field3 = c1.field3 
                                             AND ISNULL(c2.field4, 0) <> ISNULL(c1.field4, 0) 
          UNION ALL
          SELECT  DISTINCT c1.field1
                  , c1.field2
                  , NULL
                  , c1.field4
          FROM    @Customers c1 
                  INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number  
                                             AND c2.field1 = c1.field1 
                                             AND c2.field2 = c1.field2 
                                             AND ISNULL(c2.field3, 0) <> ISNULL(c1.field3, 0) 
                                             AND c2.field4 = c1.field4 
          UNION ALL
          SELECT  DISTINCT c1.field1
                  , NULL
                  , c1.field3
                  , c1.field4
          FROM    @Customers c1 
                  INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number  
                                             AND c2.field1 = c1.field1 
                                             AND ISNULL(c2.field2, 0) <> ISNULL(c1.field2, 0) 
                                             AND c2.field3 = c1.field3 
                                             AND c2.field4 = c1.field4 
          UNION ALL
          SELECT  DISTINCT NULL
                  , c1.field2
                  , c1.field3
                  , c1.field4
          FROM    @Customers c1 
                  INNER JOIN @Customers c2 ON c2.customer_number > c1.customer_number  
                                             AND ISNULL(c2.field1, 0) <> ISNULL(c1.field1, 0)
                                             AND c2.field2 = c1.field2 
                                             AND c2.field3 = c1.field3 
                                             AND c2.field4 = c1.field4 
      ) c

Wird INNER JOIN arbeiten, wenn es einige null-Werte?
Das ist gut und eigentlich das, was ich hatte auf den ersten, aber das problem ist dann immer wieder aus den Gruppen einfügen in die neue Tabelle...
Gibt es keine Möglichkeit zum hinzufügen von rownumber, um diese Abfrage?
was würde Sie erwarten, wenn beide verglichenen Felder NULL sind? Ein Spiel oder nicht?
match. Wenn eines der Felder nicht ausgefüllt ist, bedeutet es, dass der Wert für die beiden Zeilen ist die gleiche.
rownumber nötig war für die Gruppierung, wie ich schrieb in meiner Frage.
Ich habe aktualisiert die Antwort.
Danke für deine Antwort. Gruppen-id nicht funktioniert, aber die Abfrage ist toll und nützlich.

InformationsquelleAutor Lieven Keersmaekers

Können Sie schreiben einfach etwas wie das zählen Duplikate Einträge, ich denke, es funktioniert :

use *DATABASE_NAME*
go
SELECT     *YOUR_FIELD*, COUNT(*) AS dupes  
FROM         *YOUR_TABLE_NAME*
GROUP BY *YOUR_FIELD* 
HAVING      (COUNT(*) > 1)

Genießen

Duplikat der Antwort oben

InformationsquelleAutor Pierre-Olivier Pignon

Es ist eine saubere Art und Weise, dies zu tun mit CUBE(), die aggregate von alle möglichen Kombinationen von Spalten

SELECT
  field1,field2,field3,field4
 ,duplicate_row_count = COUNT(*)
 ,grp_id = GROUPING_ID(field1,field2,field3,field4)
INTO #duplicate_rows
FROM table_name
GROUP BY CUBE(field1,field2,field3,field4)
HAVING COUNT(*) > 1
  AND GROUPING_ID(field1,field2,field3,field4) IN (0,1,2,4,8,3,5,6,9,10,12)

Zahlen (0,1,2,4,8,3,5,6,9,10,12) sind nur die Bitmasken (0000,0001,0010,0100,...,1010,1100) von der grouping sets, dass wir uns kümmern-solche mit 4, 3 oder 2 matches.

Dann kommen diese wieder in der ursprünglichen Tabelle mit einer Technik, die behandelt Null-Werte in #duplicate_rows als Platzhalter

SELECT a.*
FROM table_name a
INNER JOIN #duplicate_rows b
  ON  NULLIF(b.field1,a.field1) IS NULL
  AND NULLIF(b.field2,a.field2) IS NULL
  AND NULLIF(b.field3,a.field3) IS NULL
  AND NULLIF(b.field4,a.field4) IS NULL
--WHERE grp_id IN (0)             --Use this for 4 matches
--WHERE grp_id IN (1,2,4,8)       --Use this for 3 matches
--WHERE grp_id IN (3,5,6,9,10,12) --Use this for 2 matches

InformationsquelleAutor Anon

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.