Entfernen Sie doppelte Zeilen aus einer großen Datei in Python

Ich habe eine csv-Datei, die möchte ich entfernen Sie doppelte Zeilen aus, aber es ist zu groß, um passen in den Speicher. Ich fand einen Weg, um es getan, aber meine Vermutung ist, dass es nicht der beste Weg.

Jede Zeile enthält 15 Felder und mehrere hundert Zeichen, und alle Felder sind erforderlich, um Eindeutigkeit zu bestimmen. Anstelle des Vergleichs der gesamten Reihe zu finden, ein Duplikat, ich Vergleiche hash(row-as-a-string) in einem Versuch, um Speicherplatz zu sparen. Ich einen filter setzen, der Partitionen die Daten in einer etwa gleichen Anzahl von Zeilen (z.B. Tage der Woche), und jede partition ist klein genug, dass eine lookup-Tabelle der hash-Werte für die partition wird in den Speicher passt. Passiere ich die Datei einmal für jede partition, die überprüfung für eindeutige Zeilen und schreiben Sie Sie heraus in eine zweite Datei (pseudo-code):

import csv

headers={'DayOfWeek':None, 'a':None, 'b':None}
outs=csv.DictWriter(open('c:\dedupedFile.csv','wb')
days=['Mon','Tue','Wed','Thu','Fri','Sat','Sun']

outs.writerows(headers)

for day in days:
    htable={}
    ins=csv.DictReader(open('c:\bigfile.csv','rb'),headers)
    for line in ins:
        hvalue=hash(reduce(lambda x,y:x+y,line.itervalues()))
        if line['DayOfWeek']==day:
            if hvalue in htable:
                pass
            else:
                htable[hvalue]=None
                outs.writerow(line)

Einer Weise, die ich dachte, um diese Fahrt ist von der Suche nach einem besseren filter zu verringern die Anzahl der Durchläufe notwendig. Vorausgesetzt, die Länge der Zeilen ist gleichmäßig verteilt, vielleicht anstelle von

for day in days:

und

if line['DayOfWeek']==day:

wir haben

for i in range(n):

und

if len(reduce(lambda x,y:x+y,line.itervalues())%n)==i:

wo 'n', die kleiner als Speicher zu erlauben. Das ist aber immer noch mit der gleichen Methode.

Wayne Werner eine gute praktische Lösung unten; ich war neugierig, ob es besser/schneller/einfacher Weg, dies zu tun von einem Algorithmus Perspektive.

P. S. ich bin beschränkt auf Python 2.5.

Tun Sie Ihre Ausgabe-Zeilen müssen in der gleichen Reihenfolge, wie Sie auf die input-Datei? Erwarten Sie viele Wiederholungen, oder sollte die output-Datei-Größe halten mehr oder weniger die gleiche Größenordnung wie die der input-Datei (oder ist das nicht vorhersehbar)?
Die Reihenfolge der Zeilen in der Ausgabe-Datei ist nicht wichtig. Für diesen speziellen Fall gibt es relativ wenige Dubletten. Denken Sie, dass die Anzahl der Duplikate hat Lager im Allgemeinen Fall?
Es könnte, wenn, zum Beispiel, die eindeutige Zeilen passen in den Speicher (auch wenn die vollständige Datei mit der duplizierten, würde nicht). Ich muss für eine Weile verlassen, aber ich werde einen Vorschlag machen, später.
Das edit bedeutet, dass Sie interessiert sind, Antworten, die nicht gut oder nicht praktikabel ist oder die Lösung nicht sein -- warum?
Machin: ich meinte zu vermitteln, dass ich interessiert daran war, die Theorie, die hinter der Lösung. Ich nahm Wayne Werners Antwort sowieso, da es das problem lösen.

InformationsquelleAutor JonC | 2010-08-10

duplicates python

12

Wenn Sie möchten, eine wirklich einfache Möglichkeit, dies zu tun, erstellen Sie einfach eine sqlite-Datenbank:
```
import sqlite3
conn = sqlite3.connect('single.db')
cur = conn.cursor()
cur.execute("""create table test(
f1 text,
f2 text,
f3 text,
f4 text,
f5 text,
f6 text,
f7 text,
f8 text,
f9 text,
f10 text,
f11 text,
f12 text,
f13 text,
f14 text,
f15 text,
primary key(f1,  f2,  f3,  f4,  f5,  f6,  f7,  
            f8,  f9,  f10,  f11,  f12,  f13,  f14,  f15))
"""
conn.commit()

#simplified/pseudo code
for row in reader:
    #assuming row returns a list-type object
    try:
        cur.execute('''insert into test values(?, ?, ?, ?, ?, ?, ?, 
                       ?, ?, ?, ?, ?, ?, ?, ?)''', row)
        conn.commit()
    except IntegrityError:
        pass

conn.commit()
cur.execute('select * from test')

for row in cur:
    #write row to csv file
```
Dann würden Sie nicht haben, um sorgen über die Vergleich-Logik-sich - lassen sqlite übernehmen das für Sie. Es wird wahrscheinlich nicht viel schneller als die Vermischung der Saiten, aber es ist wahrscheinlich viel einfacher. Natürlich würden Sie ändern Sie den Typ in der Datenbank gespeichert, wenn Sie wollte, oder nicht, wie der Fall sein kann. Natürlich da hast du schon konvertieren der Daten in eine Zeichenfolge, die Sie könnte nur noch ein Feld statt. Viele Optionen hier.
- Dank WW. Dies ist eine praktische Antwort, dass werde ich upvote, wenn mein Ruf bekommt hoch genug. Ich war neugierig auf die theoretische Lösung... "Oh, verwenden Sie diesen Algorithmus mit diesen Daten Strukturen!" Ich werde den Beitrag editieren, um dies zu reflektieren.
- +1, Wenn es nicht zu passen in den Speicher, es wird nicht in den Speicher passt 🙂 Also müssen Sie speichern Sie Ihre Ergebnisse auf der Festplatte! SQLite index Ihrer Daten, es wird also FASSSTTTT.
- Erwägen Sie die Verwendung der SQLITE-Parameter... cur.execute("insert into XXX values (?,?,?,?,?)", (1,2,3,4,5))
- (1) Begehung nach jeder Zeile, während die vermutlich notwendig, es zu machen, überprüfen Sie den PK constraint, wird es eher langsam, ist es nicht? (2) Wäre es nicht einfacher, nur EINE Spalte in der Datenbank?
- Ich bin mir nicht sicher, wie schnell es ist, ich habe nicht getan, alle Geschwindigkeit Vergleiche, so kann ich nicht sagen. Wenn Sie interessiert sind, können Sie immer schreiben Sie Ihre eigenen tests, Frage posten und dann Antwort es so Leute profitieren können 😉 Wie für eine Spalte - ich erwähnte, dass seit der OP ist bereits die Umwandlung der Daten in string...
- Ich dachte darüber nach, dann dachte, dass dies eher ein one-off-Lösung. Aber jetzt wo du es sagst, es ist möglich, dass die Daten nicht ordnungsgemäß bereinigt nur durch Zufall. Nicht zu schweigen, wenn jemand stolpert über diese Lösung, die keine Vorherige SQL-Erfahrung, die Sie können es verwenden, für einen sicheren Zweck. Ich habe mich verändert meine Antwort.
- Es ist einfacher und schneller; einfach nicht mehr sicher. Die SQLITE-engine-cache der bereits analysierten Abfrage-text und nur re-führen Sie den plan mit den neuen Parametern.
- gut zu wissen! Ich hatte noch nicht mehr als eine zufällige Notwendigkeit der Nutzung von SQLite, also mein wissen ist ziemlich einfach.
InformationsquelleAutor Wayne Werner
6

Sind Sie im Grunde tun ein merge-sort und das entfernen von duplizierten Einträgen.

Brechen Sie die Eingabe in den Speicher-große Stücke, die Sortierung jedes Stück, dann verschmelzen die Stücke beim entfernen der Duplikate ist ein sound-Idee im Allgemeinen.

Eigentlich, bis auf ein paar gigs ich würde das virtual memory system umgehen und nur schreiben:
```
input = open(infilename, 'rb')
output = open(outfile, 'wb')

for key,  group in itertools.groupby(sorted(input)):
    output.write(key)
```
InformationsquelleAutor Joe Koberg
2

Ihre aktuelle Methode ist nicht garantiert, um richtig zu arbeiten.

Erstens gibt es die geringe Wahrscheinlichkeit, dass zwei Linien, die sind tatsächlich anders produzieren können, die den gleichen hash-Wert. hash(a) == hash(b) bedeutet nicht immer, dass a == b

Zweitens -, Sie machen die Wahrscheinlichkeit höher mit Ihrem "reduzieren/lambda" caper:
```
>>> reduce(lambda x,y: x+y, ['foo', '1', '23'])
'foo123'
>>> reduce(lambda x,y: x+y, ['foo', '12', '3'])
'foo123'
>>>
```
BTW, wäre das nicht "".join(['foo', '1', '23']) etwas klarer?

BTW2, warum nicht ein set statt einer dict für htable?

Hier eine praktische Lösung: den "core utils" - Paket von der GnuWin32 Website, und installieren Sie es. Dann:
1. schreiben eine Kopie der Datei ohne die überschriften, um (sagen wir) infile.csv -
2. c:\gnuwin32\bin\sort --unique -ooutfile.csv infile.csv
3. Lesen outfile.csv und schreiben eine Kopie mit den überschriften vorangestellt
Für jeden der Schritte 1 & 3, können Sie ein Python-Skript, oder einige der anderen GnuWin32 utilities (head, tail, tee, Katze, ...).
- Ah, vielen Dank für Fang mich, dass in collision "caper". Ein guter Punkt. Ist eine Mitgliedschaft test schneller in eine Reihe als in einem dict?
- Soweit ich weiß, gibt es keinen Grund zu erwarten, dass ein signifikanter Unterschied in der Geschwindigkeit der Mitgliedschaft tests. Die Kosten für die Erstellung eines hash-Wertes unter Verwendung von Python-code anstelle von C-code ist wahrscheinlich lohnt sich die Untersuchung, wenn Sie planen, weiterhin Ihrem ursprünglichen Methode.
InformationsquelleAutor John Machin
1

Ihrem ursprünglichen Lösung etwas falsch ist: man kann verschiedene Linien-hashing auf den gleichen Wert (hash-Kollision), und der code verlassen, eine von Ihnen aus.

In Bezug auf die Algorithmische Komplexität, wenn Sie erwarten, dass relativ wenige Duplikate, ich denke die Schnellste Lösung wäre zum Scannen der Datei Zeile für Zeile, indem die hash der einzelnen Linie (wie Sie es getan haben), sondern auch die Speicherung der Position der Linie. Dann, wenn Sie auf einen doppelten hash, suchen Sie an den ursprünglichen Platz stellen Sie sicher, dass es ein Duplikat und nicht nur eine hash-Kollision, und wenn ja, versuchen Sie sich zurück und überspringen Sie die Linie.

Durch die Art und Weise, wenn die CSV-Werte sind normalisiert (d.h. die Datensätze als gleich gelten, wennn die entsprechenden CSV-Zeilen sind äquivalent byte-für-byte), müssen Sie nicht um die CSV-parsing hier überhaupt, lediglich mit plain-text-Zeilen.
- Je nach hashing, z.B. SHA1 müsste 2^80 (oder mehr) Kontrollen eine falsche übereinstimmung findet, die für alle nicht speziell angreifen würde, ganz sicher....
InformationsquelleAutor Gintautas Miliauskas
0

Da ich angenommen, Sie haben auf einem etwas regelmäßig (oder man müsste gehackt eine einmal-over-Skript), und Sie haben erwähnt, Sie waren daran interessiert, eine theoretische Lösung, hier ist eine Möglichkeit.

Lesen Sie die input-Zeilen in B-Bäumen bestellt durch jeden Eingang hash-Wert, das schreiben auf die Festplatte, wenn der Speicher füllt. Wir kümmern uns um zu speichern, auf der B-Bäume, die ursprünglichen Linien angebracht, um die hash (als set, da wir nur über einzigartige Linien). Wenn wir Lesen, ein doppeltes element, überprüfen wir die Linien festgelegt, auf die gespeicherte element und fügen Sie es, wenn es eine neue Linie, die geschieht, um hash um den gleichen Wert.

Warum B-Bäume???? Sie erfordert weniger Festplatte liest, wenn Sie nur können (oder wollen) zu Lesen, teilen Sie Sie in den Speicher. Der Grad (Anzahl der Kinder) auf jedem Knoten hängt von den verfügbaren Speicher und die Anzahl der Linien, aber Sie wollen nicht zu viele Knoten.

Einmal haben wir diese B-Bäume auf der Festplatte, vergleichen wir die niedrigste element von jeder von Ihnen. Wir entfernen die niedrigsten von allen, von allem B-Bäume, die es haben. Wir verschmelzen Ihre Linien setzt, was bedeutet, dass wir keine Duplikate haben Links für diese Zeilen (und auch, dass wir keine Zeilen mehr, dass hash-Wert). Wir schreiben Sie dann die Zeilen aus diesem merge in der Ausgabe csv-Struktur.

Können wir die Trennung die Hälfte des Speichers für das Lesen der B-Bäume, und die Hälfte halten Sie die csv-Ausgabe im Speicher für einige Zeit. Wir Spülen das csv-Format auf die Festplatte, wenn die Hälfte voll ist, Anhängen, was bereits geschrieben wurde. Wie viel von jedem B-Baum Lesen wir auf jedem Schritt können Sie grob berechnen, indem (available_memory /2) /number_of_btrees, gerundet, so Lesen wir voller Knoten.

In pseudo-Python:
```
ins = DictReader(...)
i = 0
while ins.still_has_lines_to_be_read():
    tree = BTree(i)
    while fits_into_memory:
        line = ins.readline()
        tree.add(line, key=hash)
    tree.write_to_disc()
    i += 1
n_btrees = i

# At this point, we have several (n_btres) B-Trees on disk
while n_btrees:
    n_bytes = (available_memory / 2) / n_btrees
    btrees = [read_btree_from_disk(i, n_bytes)
              for i in enumerate(range(n_btrees))]
    lowest_candidates = [get_lowest(b) for b in btrees]
    lowest = min(lowest_candidates)
    lines = set()
    for i in range(number_of_btrees):
        tree = btrees[i]
        if lowest == lowest_candidates[i]:
            node = tree.pop_lowest()
            lines.update(node.lines)
        if tree.is_empty():
        n_btrees -= 1

    if output_memory_is_full or n_btrees == 0:
        outs.append_on_disk(lines)
```
InformationsquelleAutor rbp
0

Wie über die Verwendung heapq Modul zu Lesen Stücke von Dateien, die bis zu memory limit und schreiben Sie Sie aus der sortierten Stücke (heapq hält die Dinge immer in sortierter Reihenfolge).

Oder Sie fangen konnte, das erste Wort in Zeile, und teilen Sie die Datei in Stücke von diesem. Dann Lesen Sie die Zeilen (vielleicht tun ' '.join(Zeile.split ()), um die Vereinheitlichung der Abstände/tabs in der Linie, wenn es ist OK, um zu ändern, Abstand) in Satz in alphabetischer Reihenfolge clearing-setzen zwischen die Stücke (set-entfernt Duplikate), um die Dinge in der Hälfte sortiert (set ist nicht in Ordnung, wenn Sie möchten, können Sie Lesen im heap und Schreibe Sie heraus zu bekommen, sortiert, letzten vorkommen im set ersetzen die alten Werte, wie Sie gehen.) Alternativ können Sie auch Sortieren Sie die Stück und entfernen Sie doppelte Linien, mit Joe Koberg ist groupby-Lösung. Schließlich können Sie join-Stücke wieder zusammen (können Sie natürlich tun, die schreiben, wie Sie gehen Stück für Stück der endgültigen Datei während der Sortierung der Stücke)

InformationsquelleAutor Tony Veijalainen

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.