Script um Duplikate zu finden, in einer csv-Datei

Habe ich eine 40 MB csv-Datei mit 50.000 Datensätzen. Seine eine riesige Produkt-listing. Jede Zeile hat knapp 20 Felder. [Item#, UPC, Desc, etc]

Wie kann ich,

a) Finden und Drucken Sie doppelte Zeilen. [Diese Datei ist eine große Datei angehängt, so habe ich mehrere Header in der Datei enthalten, die ich entfernen müssen, daher wollte ich wissen, exakt die Zeilen, die doppelte erste.]

b) Finden und Drucken Sie doppelte Zeilen basierend auf einer Spalte. [Sehen Sie, wenn ein UPC zugeordnet ist, mehrere Produkte]

Muss ich den Befehl ausführen oder Skript auf dem server und ich habe Perl und Python installiert. Auch bash-Skript oder Befehl funktioniert auch bei mir.

Ich keine Notwendigkeit, beibehalten der Reihenfolge der Zeilen. etc

Habe ich versucht,

Art largefile.csv | uniq -d

um die Duplikate, Aber ich bin nicht immer die erwartete Antwort.

Idealerweise würde ich gerne bash-Skript oder ein Befehl, aber wenn einer einen anderen Vorschlag, das wäre großartig.

Dank

Finden Sie unter: Entfernen Sie doppelte Zeilen aus einer großen Datei in Python über auf Stack Overflow

warum nicht uniq -d geben Sie die erwartete Antwort?
Sie sollten zeigen einige Beispiel-Daten (sanitized falls erforderlich), einschließlich, was Sie betrachten, um Duplikate und nicht-Duplikate. Speziell, wenn das erste Feld (item#) ist anders, aber das zweite Feld (UPC) ist das gleiche oder, wenn das ganze Album ist der gleiche, etc. Sie sollten auch konkreter sein, über das, was "ich bin nicht immer die erwartete Antwort" bedeutet. uniq sieht nur die ganze Zeile, es sei denn, Sie sagen, es zu überspringen, Teil der Zeile (aber nicht verwenden Sie Kommas als Trennzeichen). Auch CSV-Dateien kann schwierig sein zu behandeln, es sei denn, Sie sind mit tools für den Zweck gemacht wird (z.B. eine Python-lib).

InformationsquelleAutor | 2010-11-04

8

Finden und drucken Sie doppelte Zeilen in Perl:
```
perl -ne 'print if $SEEN{$_}++' < input-file
```
Finden und drucken von Zeilen mit doppelten Spalten in Perl-sagen wir die 5. Spalte, wo die Felder sind durch Kommas getrennt werden:
```
perl -F/,/ -ane 'print if $SEEN{$F[4]}++' < input-file
```
- Es ist erwähnenswert, das letzteres funktioniert, wenn, und nur wenn die CSV-Daten enthält nie ein zitierter separator 1,2,"3,3",4.
- Es scheint, dass für jede Gruppe von doppelten Zeilen, die Letzte Zeile nicht gedruckt, mit diesem Beispiel.
InformationsquelleAutor mob
8

Versuchen Sie Folgendes:
```
# Sort before using the uniq command
sort largefile.csv | sort | uniq -d
```
uniq ist eine sehr einfache Befehl, und nur die Berichte Einzigartigkeit /Duplikate, die nebeneinander.
- Sie haben zwei mal zu Sortieren.
- Ich habe bearbeitet es.
- Ich habe versucht auch die perl-version hier runter und ist schneller thant, zumindest in der ubuntu-shell auf windows10. Aber beide sind großartig
InformationsquelleAutor Morten
2

Könnten Sie eventuell die Verwendung der SQLite-shell importieren Sie Ihre csv-Datei und erstellen Sie Indizes, die zum ausführen der SQL-Befehle schneller.

InformationsquelleAutor Benoit

Hier mein (sehr einfaches) script mit Ruby & Rake Gem.

Erstellen Sie zuerst eine RakeFile und schreiben Sie diesen code:

namespace :csv do
  desc "find duplicates from CSV file on given column"
  task :double, [:file, :column] do |t, args|
    args.with_defaults(column: 0)
    values = []
    index  = args.column.to_i
    # parse given file row by row
    File.open(args.file, "r").each_slice(1) do |line|
      # get value of the given column
      values << line.first.split(';')[index]
    end
    # compare length with & without uniq method 
    puts values.uniq.length == values.length ? "File does not contain duplicates" : "File contains duplicates"
  end
end

Dann verwenden Sie es auf die erste Spalte

$ rake csv:double["2017.04.07-Export.csv"] 
File does not contain duplicates

Und verwenden Sie es auf die Sekunde (zum Beispiel)

$ rake csv:double["2017.04.07-Export.csv",1] 
File contains duplicates

InformationsquelleAutor RousseauAlexandre

Für den zweiten Teil: Lesen Sie die Datei mit dem Text::CSV in eine hash-kodiert, auf Ihre eindeutigen Schlüssel(s), prüfen, ob ein Wert existiert, für den hash, bevor Sie es. So etwas wie dieses:

Daten (muss nicht sortiert sein), in diesem Beispiel brauchen wir die ersten beiden Spalten eindeutig sein:

1142,X426,Name1,Thing1
1142,X426,Name2,Thing2
1142,X426,Name3,Thing3
1142,X426,Name4,Thing4
1144,X427,Name5,Thing5
1144,X427,Name6,Thing6
1144,X427,Name7,Thing7
1144,X427,Name8,Thing8

code:

use strict;
use warnings;
use Text::CSV;

my %data;
my %dupes;
my @rows;
my $csv = Text::CSV->new ()
                        or die "Cannot use CSV: ".Text::CSV->error_diag ();

open my $fh, "<", "data.csv" or die "data.csv: $!";
while ( my $row = $csv->getline( $fh ) ) {
    # insert row into row list  
    push @rows, $row;
    # join the unique keys with the
    # perl 'multidimensional array emulation' 
    # subscript  character
    my $key = join( $;, @{$row}[0,1] ); 
    # if it was just one field, just use
    # my $key = $row->[$keyfieldindex];
    # if you were checking for full line duplicates (header lines):
    # my $key = join($;, @$row);
    # if %data has an entry for the record, add it to dupes
    if (exists $data{$key}) { # duplicate 
        # if it isn't already duplicated
        # add this row and the original 
        if (not exists $dupes{$key}) {
            push @{$dupes{$key}}, $data{$key};
        }
        # add the duplicate row
        push @{$dupes{$key}}, $row;
    } else {
        $data{ $key } = $row;
    }
}

$csv->eof or $csv->error_diag();
close $fh;
# print out duplicates:
warn "Duplicate Values:\n";
warn "-----------------\n";
foreach my $key (keys %dupes) {
    my @keys = split($;, $key);
    warn "Key: @keys\n";
    foreach my $dupe (@{$dupes{$key}}) {
        warn "\tData: @$dupe\n";
    }
}

Die druckt so etwas wie dieses:

Duplicate Values:
-----------------
Key: 1142 X426
    Data: 1142 X426 Name1 Thing1
    Data: 1142 X426 Name2 Thing2
    Data: 1142 X426 Name3 Thing3
    Data: 1142 X426 Name4 Thing4
Key: 1144 X427
    Data: 1144 X427 Name5 Thing5
    Data: 1144 X427 Name6 Thing6
    Data: 1144 X427 Name7 Thing7
    Data: 1144 X427 Name8 Thing8

InformationsquelleAutor MkV

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.