SQL Duplizieren Abfrage Löschen, die sich über Millionen von Zeilen für die Leistung

Dies war ein Abenteuer. Angefangen habe ich mit der Schleife doppelte Abfrage befindet sich in meine Vorherige Frage, aber jeder Schleife würde gehen über alle 17 Millionen Datensätze, Sinn würde es noch Wochen dauern (nur laufende *select count * from MyTable* nimmt mein server 4:30 Minuten mit MSSQL 2005). Ich leuchtete Sie Informationen von dieser Seite und an dieser post.

Haben und kam bei der Abfrage unten. Die Frage ist, ist dies die richtige Art der Abfrage ausgeführt werden auf 17 Millionen Datensätze für jede Art von Leistung? Wenn nicht, was ist?

SQL-ABFRAGE:

DELETE tl_acxiomimport.dbo.tblacxiomlistings
WHERE RecordID in 
(SELECT RecordID
    FROM tl_acxiomimport.dbo.tblacxiomlistings
    EXCEPT
    SELECT RecordID
    FROM (
        SELECT RecordID, Rank() over (Partition BY BusinessName, latitude, longitude,           Phone ORDER BY webaddress DESC, caption1 DESC, caption2 DESC ) AS Rank
    FROM tl_acxiomimport.dbo.tblacxiomlistings
    ) al WHERE Rank = 1)

InformationsquelleAutor RyanKeeter | 2008-10-02

Sehen den QueryPlan helfen würde.

Ist das machbar??

SELECT m.*
into #temp
FROM tl_acxiomimport.dbo.tblacxiomlistings m 
inner join (SELECT RecordID, 
                   Rank() over (Partition BY BusinessName, 
                                             latitude,  
                                             longitude,            
                                             Phone  
                                ORDER BY webaddress DESC,  
                                         caption1 DESC,  
                                         caption2 DESC ) AS Rank
              FROM tl_acxiomimport.dbo.tblacxiomlistings
           ) al on (al.RecordID = m.RecordID and al.Rank = 1)

truncate table tl_acxiomimport.dbo.tblacxiomlistings

insert into tl_acxiomimport.dbo.tblacxiomlistings
     select * from #temp

TrickyNixon, wie würde ich die Anzeige der query-plan in einer Ausgabe, die wäre gut für Sie, zu Lesen? Ich kann das display die voraussichtliche Ausführung, könnte man Sie unterstützen?
Dies ist die eine, die tatsächlich gearbeitet, und es Tat sehr schnell, ich danke Ihnen sehr.
Stellen Sie sicher, Sie hielten alle die Datensätze, die Sie haben sollte!

InformationsquelleAutor Bob Probst

2

Etwas mit Ihrem DB -, server -, storage-oder eine Kombination davon. 4:30 für ein select count * scheint SEHR hoch.

Führen Sie eine DBCC_SHOWCONTIG zu sehen, wie fragmentiert die Tabelle ist, könnte es hierbei zu einem großen performance-hit über eine Tabelle, die Größe.

Außerdem um add-on zu dem Kommentar von RyanKeeter, die show zu planen und wenn es irgendwelche table-scans erstellen Sie einen index für den PK-Feld in der Tabelle.
- Erstellen einer(anderen) index auf den PK-Feld ist sehr, sehr selten nützlich.
InformationsquelleAutor Mike Reedell

Wäre es nicht einfacher, das zu tun:

DELETE tl_acxiomimport.dbo.tblacxiomlistings
WHERE RecordID in 
(SELECT RecordID
   FROM (
        SELECT RecordID,
            Rank() over (Partition BY BusinessName,
                                  latitude,
                                  longitude,
                                  Phone
                         ORDER BY webaddress DESC,
                                  caption1 DESC,
                                  caption2 DESC) AS Rank
        FROM tl_acxiomimport.dbo.tblacxiomlistings
        )
  WHERE Rank > 1
  )

Ja, aber dann würden wir nicht verwenden, die wirklich coolen AUSNAHME-Klausel, die ich nur gelernt....Spielverderber 🙂

InformationsquelleAutor David Aldridge

1

Befehl in query analyzer:
```
SET SHOWPLAN_TEXT ON
```
Dann Fragen Sie query analyzer zum ausführen der Abfrage. Anstelle der Ausführung der Abfrage, generiert SQL Server einen Abfrage-plan und setzen ihn in der Folge eingestellt.

Zeigen uns die Abfrage-plan.
- Wie machst du das genau? Ich kann den geschätzten plan, aber in SQL server 2005, wie würde ich das anzeigen, was du suchst?
- Schritt 1: führen Sie den Befehl aus, den ich beschrieben habe, in ein Abfrage-Fenster "SET SHOWPLAN_TEXT ON" . Schritt 2: führen Sie die Abfrage, die Sie wollen, analysiert, die im gleichen Fenster.
InformationsquelleAutor Amy B
1

17 Millionen Datensätze, ist nichts. Wenn es dauert 4:30 dann einfach ein select count (*), dann ist es ein ernstes problem, vermutlich im Zusammenhang mit entweder der Mangel an Speicher im server oder einen sehr alten Prozessor.

Für Leistung, reparieren Sie die Maschine. Pump es bis zu 2GB. RAM ist so Billig in diesen Tagen, dass die Kosten weit weniger als Ihre Zeit.

Ist der Prozessor oder die Festplatte Prügel wenn die Abfrage geht? Wenn nicht, dann ist irgend etwas blockiert die Anrufe. In diesem Fall sollten Sie überlegen, die Datenbank im single-user-Modus für die Zeit, die es braucht, um führen Sie das cleanup.

InformationsquelleAutor NotMe
1

Bist du So löschen Sie alle Datensätze, die nicht den ersten Platz? Es könnte sein, lohnt sich ein Vergleich eine Verknüpfung gegen ein top-1-sub Abfrage (die auch im Jahr 2000 Rang 2005 und oben nur)

Tun, müssen Sie entfernen Sie alle Duplikate in einem einzigen Vorgang? Ich gehe davon aus, dass Sie ausführen irgendeine Art von housekeeping Aufgabe, die Sie vielleicht in der Lage sein, es zu tun-Stück-Weise.

Im Grunde erstellen Sie einen cursor, Schleifen, alle Datensätze (dirty read) und entfernt Duplikate für jeden. Es wird viel insgesamt langsamer, aber jede operation relativ gering. Dann wird Ihr Haushalt wird zum ständigen hintergrund-task eher als eine nächtliche batch.

InformationsquelleAutor Keith
1

Den Vorschlag oben, um wählen Sie in eine temporäre Tabelle, die erste ist Ihre beste Wette. Sie können auch etwas wie:
```
set rowcount 1000
```
bevor Sie Ihren löschen. Es wird aufhören zu laufen, nachdem es löscht die 1000 Zeilen. Dann führen Sie es wieder und wieder, bis Sie sich 0 Einträge gelöscht.
- Wir verwendet, um den RowCount-trick in der Vergangenheit beim löschen von vielen Daten. Es verhindert, dass die Transaktion von immer zu groß.
InformationsquelleAutor TrevorD

wenn ich es richtig Sie Abfrage ist die gleiche wie

DELETE tl_acxiomimport.dbo.tblacxiomlistings
FROM
    tl_acxiomimport.dbo.tblacxiomlistings allRecords
    LEFT JOIN (   
        SELECT RecordID, Rank() over (Partition BY BusinessName, latitude, longitude, Phone ORDER BY webaddress DESC, caption1 DESC, caption2 DESC ) AS Rank
        FROM tl_acxiomimport.dbo.tblacxiomlistings
        WHERE Rank = 1) myExceptions
    ON allRecords.RecordID = myExceptions.RecordID
WHERE
    myExceptions.RecordID IS NULL

Ich denke, das sollte schneller laufen, vermeide ich die Verwendung von "IN" - Klausel zugunsten von Verknüpfungen, wo dies möglich ist.

Kann man tatsächlich testen Sie die Geschwindigkeit und die Ergebnisse sicher einfach durch Aufruf SELECT * oder SELECT COUNT(*) auf die AUS Teil wie z.B.

SELECT *
FROM
    tl_acxiomimport.dbo.tblacxiomlistings allRecords
    LEFT JOIN (   
        SELECT RecordID, Rank() over (Partition BY BusinessName, latitude, longitude, Phone ORDER BY webaddress DESC, caption1 DESC, caption2 DESC ) AS Rank
        FROM tl_acxiomimport.dbo.tblacxiomlistings
        WHERE Rank = 1) myExceptions
    ON allRecords.RecordID = myExceptions.RecordID
WHERE
    myExceptions.RecordID IS NULL

Dies ist ein weiterer Grund, warum ich lieber die JOIN-Ansatz
Ich hoffe, das hilft

InformationsquelleAutor kristof

0

Sieht gut, aber Sie könnten erwägen Sie, Ihre Daten in eine temporäre Tabelle und verwenden, die in Ihrem delete-Anweisung. Ich habe bemerkt riesige performance-Gewinne aus dies zu tun, anstatt es zu tun, und all das in einer Abfrage an.

InformationsquelleAutor Jon
0

Denken Sie daran, wenn dabei ein großer löschen, es ist am besten, um eine gute backup-ersten.(Und ich habe auch in der Regel kopieren Sie die gelöschten Datensätze zu einem anderen Tisch, nur für den Fall, dass ich wiederherstellen müssen Sie sofort. )

InformationsquelleAutor HLGEM
-1

Andere als die Verwendung von abschneiden, wie vorgeschlagen, ich habe die besten Glück mit dieser Vorlage für das löschen von vielen Zeilen aus einer Tabelle. Ich erinnere mich nicht, aus der hand, aber ich denke, dass mit der Transaktion " dazu beigetragen, dass die log-Datei von wachsen -- vielleicht gewesen zwar einen anderen Grund-nicht sicher. Und ich in der Regel schalten Sie das transaction-logging-Methode gegenüber der einfachen, bevor etwas wie dies:
```
SET ROWCOUNT-5000 
WÄHREND 1 = 1 
BEGINNEN 
begin tran 
LÖSCHEN VON ??? WO ??? 
IF @@rowcount = 0 
BEGINNEN 
BEGEHEN 
PAUSE 
ENDE 
BEGEHEN 
ENDE 
SET ROWCOUNT 0 
```
InformationsquelleAutor Chris

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.