Verschleiern / Maske / Scramble persönlichen Informationen

Ich bin auf der Suche nach einheimischer Art zu klettern, Produktions-Daten für den Einsatz in Entwicklung und test. Ich habe gebaut, ein paar Skripts, die zufällig die soziale Sicherheit zahlen, shift Geburtsdaten, verschlüsselt E-Mails, etc. Aber ich habe auch gegen eine Wand versuchen zu klettern, Kunden-Namen. Ich will, dass real-Namen, so können wir noch verwenden, oder suchen, so dass zufällige Buchstaben-generation ist out. Was ich bisher versucht habe ist der Aufbau einer temp-Tabelle aller letzten Namen in der Tabelle dann aktualisieren Sie die Tabelle "Kunde" mit einer zufälligen Auswahl aus der temp-Tabelle. Wie diese:

DECLARE @Names TABLE (Id int IDENTITY(1,1),[Name] varchar(100))

/* Scramble the last names (randomly pick another last name) */
INSERT @Names SELECT LastName FROM Customer ORDER BY NEWID();
WITH [Customer ORDERED BY ROWID] AS
(SELECT ROW_NUMBER() OVER (ORDER BY NEWID()) AS ROWID, LastName FROM Customer)
UPDATE [Customer ORDERED BY ROWID] SET LastName=(SELECT [Name] FROM @Names WHERE ROWID=Id)

Dies funktionierte gut im test, aber komplett abbricht Umgang mit größeren Datenmengen (>20 Minuten für 40K Zeilen)

Alle, die Fragen, wie würden Sie krabbeln Kunden-Namen, während echte Namen und das Gewicht der Produktionsdaten?

UPDATE: Nie versagt, Sie versuchen, all die Informationen in der post, und Sie vergessen, etwas wichtiges. Diese Daten werden auch verwendet, in der unsere sales & demo-Umgebungen, die öffentlich zugänglich sind. Einige der Antworten sind das, was ich bin versucht zu tun, auf 'Schalter' den Namen, aber meine Frage ist, buchstäblich, wie Sie code in T-SQL?

InformationsquelleAutor Computer Chip | 2008-10-03

3

Benutze ich generatedata. Es ist ein open-source-php-Skript erzeugt werden können alle Arten von dummy-Daten.
- Klasse Tipp - vielen Dank. [Es ist eines jener Dinge, die ich schon Sinn habe zu schreiben, seit Jahren, aber hatte nie die Zeit]...
InformationsquelleAutor Peter Hoffmann
1

Eine sehr einfache Lösung wäre die ROT13-text.

Eine bessere Frage könnte sein, warum fühlen Sie die Notwendigkeit zum verschlüsseln der Daten? Wenn Sie einen Schlüssel für die Verschlüsselung, man könnte auch überlegen, läuft der text durch DES-oder AES oder ähnliches. Thos hätte jedoch potenzielle Leistungsprobleme.
- Wie ich schon sagte, ich brauche echten Namen mit ähnlichen/gleichen Gewicht wie die Produktion, so sucht ähnlich Verhalten.
- Zusätzliche ROT13 nicht wirklich Gerangel der Daten, da es sich um einen leicht reversiblen Algorithmus...
- ja, es ist leicht reversibel, aber es erfüllt die Kriterien der "Maske" oder "verschleiern" - Sie sollten zumindest erkennen, es war ROT13 ist, und un-ROT es 🙂
InformationsquelleAutor warren
1

Wenn es so etwas wie, dass ich in der Regel schreiben Sie ein kleines Programm, das erste lädt eine Menge von Namen und Vornamen in zwei arrays, und dann einfach die updates der Datenbank mit zufälligen Namen/Nachnamen von arrays. Es funktioniert wirklich schnell, auch für sehr große Datenmengen (200.000+ Datensätze)

InformationsquelleAutor Milan Babuškov
0

Warum nicht einfach eine Art von Random Name Generator?

InformationsquelleAutor Ryan
0

Arbeite ich auf diese in meinem Unternehmen gerade jetzt-und es stellt sich heraus, um eine sehr heikle Sache. Sie wollen die Namen haben, die realistisch sind, darf Sie aber nicht enthüllen keine echten persönlichen Daten.

Mein Ansatz wurde zunächst eine randomisierte "mapping" von letzten Namen anderen Nachnamen, dann verwenden Sie das mapping ändern alle Nachnamen. Das ist gut, wenn Sie die doppelten Namenseinträge. Angenommen, Sie haben 2 "John Smith" - Datensätze repräsentieren das gleiche Reale person. Wenn Sie änderungen an einem Datensatz zu "John Adams" und der andere "John Beste", dann ist Ihr eine "person" hat nun 2 verschiedene Namen! Mit einem mapping alle vorkommen von "Smith" geändert zu "Jones", und so Duplikate ( oder auch Familienmitglieder ) noch bis Ende mit dem gleichen Nachnamen, der Aufbewahrung der Daten "realistischer".

Werde ich auch zu klettern, die Adressen, Telefon-Nummern, Kontonummern, etc...und ich bin nicht sicher, wie ich diesen Ansatz. Das halten der Daten "realistisch", während scrambling ist sicherlich ein tiefes Thema. Dies muss getan worden, viele Male von vielen Unternehmen -- wer hat das schon gemacht? Was haben Sie gelernt?

InformationsquelleAutor Nick Perkins

Verwendung einer temporären Tabelle speichern und die Abfrage ist sehr schnell. Ich lief nur auf 60K Zeilen in 4 Sekunden. Ich werde dies ein für die Zukunft.

DECLARE TABLE #Names 
(Id int IDENTITY(1,1),[Name] varchar(100))

/* Vertausche die letzten Namen (nach dem Zufallsprinzip wählen Sie ein anderes Nachname) */

INSERT #Names
  SELECT LastName 
  FROM Customer 
  ORDER BY NEWID();
WITH [Customer ORDERED BY ROWID] AS
(SELECT ROW_NUMBER() OVER (ORDER BY NEWID()) AS ROWID, LastName FROM Customer)

UPDATE [Customer ORDERED BY ROWID] 

SET LastName=(SELECT [Name] FROM #Names WHERE ROWID=Id)

DROP TABLE #Names

Sie konnte immer noch am Ende mit einem schlechten Wurf und haben zwei...warten. NewID() macht UUIDs. Ich stehe korrigiert.

InformationsquelleAutor

Den folgenden Ansatz für uns gearbeitet, können sagen, wir haben 2 Tabellen, Kunden und Produkte:

CREATE FUNCTION [dbo].[GenerateDummyValues]
(
    @dataType varchar(100),
    @currentValue varchar(4000)=NULL
)
RETURNS varchar(4000)
AS
BEGIN
IF @dataType = 'int'
    BEGIN
        Return '0'
    END
ELSE IF @dataType = 'varchar' OR @dataType = 'nvarchar' OR @dataType = 'char' OR @dataType = 'nchar'
    BEGIN
        Return 'AAAA'
    END
ELSE IF @dataType = 'datetime'
    BEGIN
        Return Convert(varchar(2000),GetDate())
    END
-- you can add more checks, add complicated logic etc
Return 'XXX'
END

Der oben genannten Funktion wird helfen, erzeugen unterschiedliche Daten je nach Datentyp kommen.

Nun für jede Spalte in jeder Tabelle, die nicht über word "id" enthält, verwenden Sie folgende Abfrage generieren, die weitere Fragen zum Bearbeiten der Daten:

select 'select ''update '' + TABLE_NAME + '' set '' + COLUMN_NAME + '' = '' +  '''''''' + dbo.GenerateDummyValues( Data_type,'''') + '''''' where id = '' + Convert(varchar(10),Id) from INFORMATION_SCHEMA.COLUMNS, ' + table_name + ' where RIGHT(LOWER(COLUMN_NAME),2) <> ''id'' and TABLE_NAME = '''+ table_name + '''' + ';' from  INFORMATION_SCHEMA.TABLES;

Beim ausführen der Abfrage erzeugen, aktualisieren, Abfragen zu jeder Tabelle und jeder Spalte der Tabelle, zum Beispiel:

select 'update ' + TABLE_NAME + ' set ' + COLUMN_NAME + ' = ' +  '''' + dbo.GenerateDummyValues( Data_type,'') + ''' where id = ' + Convert(varchar(10),Id) from INFORMATION_SCHEMA.COLUMNS, Customers where RIGHT(LOWER(COLUMN_NAME),2) <> 'id' and TABLE_NAME = 'Customers';
select 'update ' + TABLE_NAME + ' set ' + COLUMN_NAME + ' = ' +  '''' + dbo.GenerateDummyValues( Data_type,'') + ''' where id = ' + Convert(varchar(10),Id) from INFORMATION_SCHEMA.COLUMNS, Products where RIGHT(LOWER(COLUMN_NAME),2) <> 'id' and TABLE_NAME = 'Products';

Nun, wenn Sie ausführen, über Abfragen erhalten Sie Letzte update-Abfragen wird, aktualisieren Sie die Daten Ihrer Tabellen.

Führen Sie diese auf jedem SQL server-Datenbank, egal wie viele Tische hast du, es wird generieren von Abfragen für Sie, dass Sie weiter ausgeführt.

Hoffe, das hilft.

InformationsquelleAutor URB

0

Einer anderen Website zu erzeugen, geprägt fake-Daten-sets, mit einer option für T-SQL-Ausgabe:
https://mockaroo.com/

InformationsquelleAutor Josh

Hier ist ein Weg, mit ROT47, die reversibel ist, und eine andere, die ist zufällig. Sie können eine PK, um entweder zu link zurück auf die "un-verschlüsselt" Versionen

declare @table table (ID int, PLAIN_TEXT nvarchar(4000))
insert into @table
values
(1,N'Some Dudes name'),
(2,N'Another Person Name'),
(3,N'Yet Another Name')

--split your string into a column, and compute the decimal value (N) 
if object_id('tempdb..#staging') is not null drop table #staging
select 
    substring(a.b, v.number+1, 1) as Val
    ,ascii(substring(a.b, v.number+1, 1)) as N
    --,dense_rank() over (order by b) as RN
    ,a.ID
into #staging
from (select PLAIN_TEXT b, ID FROM @table) a
    inner join
         master..spt_values v on v.number < len(a.b)
where v.type = 'P' 

--select * from #staging


--create a fast tally table of numbers to be used to build the ROT-47 table.

;WITH
    E1(N) AS (select 1 from (values (1),(1),(1),(1),(1),(1),(1),(1),(1),(1))dt(n)),
    E2(N) AS (SELECT 1 FROM E1 a, E1 b), --10E+2 or 100 rows
    E4(N) AS (SELECT 1 FROM E2 a, E2 b), --10E+4 or 10,000 rows max
    cteTally(N) AS 
    (
        SELECT  ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) FROM E4
    )



--Here we put it all together with stuff and FOR XML
select 
    PLAIN_TEXT
    ,ENCRYPTED_TEXT =
        stuff((
        select
            --s.Val
            --,s.N
            e.ENCRYPTED_TEXT
        from #staging s
        left join(
        select 
            N as DECIMAL_VALUE
            ,char(N) as ASCII_VALUE
            ,case 
                when 47 + N <= 126 then char(47 + N)
                when 47 + N > 126 then char(N-47)
            end as ENCRYPTED_TEXT
        from cteTally
        where N between 33 and 126) e on e.DECIMAL_VALUE = s.N
        where s.ID = t.ID
        FOR XML PATH(''), TYPE).value('.', 'NVARCHAR(MAX)'), 1, 0, '')
from @table t


--or if you want really random
select 
    PLAIN_TEXT
    ,ENCRYPTED_TEXT =
        stuff((
        select
            --s.Val
            --,s.N
            e.ENCRYPTED_TEXT
         from #staging s
        left join(
        select 
            N as DECIMAL_VALUE
            ,char(N) as ASCII_VALUE
            ,char((select ROUND(((122 - N -1) * RAND() + N), 0))) as ENCRYPTED_TEXT
        from cteTally
        where (N between 65 and 122) and N not in (91,92,93,94,95,96)) e on e.DECIMAL_VALUE = s.N
        where s.ID = t.ID
        FOR XML PATH(''), TYPE).value('.', 'NVARCHAR(MAX)'), 1, 0, '')
from @table t

InformationsquelleAutor scsimon

0

Hatte das gleiche problem selber und dachte sich eine alternative Lösung, die möglicherweise für andere arbeiten.

Die Idee ist die Verwendung von MD5 auf den Namen und dann die letzten 3 hex-Ziffern für die Abbildung in einer Tabelle mit Namen. Dies können Sie separat für den vor-und Nachnamen.

3 hex-Ziffern darstellen Dezimalzahlen von 0 bis 4095, so brauchen wir eine Liste von 4096 Vornamen und 4096 Nachnamen.

So conv(substr(md5(first_name), 3),16,10) (in MySQL syntax) wäre ein index von 0 bis 4095, dass könnte verbunden werden mit einer Tabelle, die hält 4096 Vornamen. Das gleiche Konzept angewendet werden konnte Nachnamen.

Mithilfe von MD5 (im Gegensatz zu einer zufälligen Zahl) garantiert einen Namen in der ursprünglichen Daten wird immer zugeordnet werden, um die gleichen Namen in der test-Daten.

Können Sie eine Liste von Namen hier:

https://gist.github.com/elifiner/cc90fdd387449158829515782936a9a4

InformationsquelleAutor elifiner

Verwende ich eine Methode, die Veränderungen Zeichen zu anderen Zeichen, die in der gleichen "Reihe" der Nutzungshäufigkeit in englischen Namen. Offenbar ist die Verteilung der Zeichen im Namen anders ist als es ist für den normalen Konversation Englisch. Zum Beispiel, "x" und "z" vorkommen, 0.245% der Zeit, so werden Sie vertauscht. Das andere extrem, "w" verwendet wird, 5.5% der Zeit, "s" 6.86% und "t", 15.978%. Ändere ich "s" auf "w", "t", "s" und "w" zu "t".
Ich halte die Vokale "aeio" in einer separaten Gruppe so, dass ein Vokal wird nur ersetzt durch einen anderen Vokal. Ebenso, "q", "u" und "y" werden nicht ersetzt, auf alle. Meine Gruppierung und Entscheidungen sind völlig subjektiv.

Landete ich mit 7 verschiedenen "Gruppen" von 2-5 Zeichen , meist basierend auf der Frequenz. Zeichen innerhalb jeder Gruppe sind vertauscht und mit anderen chars in der selben Gruppe.

Das Ergebnis ist, Namen, die ein bisschen Aussehen wie das sein könnte, Namen, aber von "nicht herum hier".

Original name     Morphed name
Loren             Nimag
Juanita           Kuogewso
Tennyson          Saggywig
David             Mijsm
Julie             Kunewa

Hier ist die SQL, die ich verwenden, die enthält eine "TitleCase" - Funktion. Es gibt 2 verschiedene Versionen der "verwandelt" name basiert auf verschiedenen Frequenzen von Briefen, die ich im web gefunden.

--    from     https://stackoverflow.com/a/28712621

-- Convert and return param as Title Case

CREATE FUNCTION [dbo].[fnConvert_TitleCase] (@InputString VARCHAR(4000) )
RETURNS VARCHAR(4000)AS
BEGIN
DECLARE @Index INT
DECLARE @Char CHAR(1)
DECLARE @OutputString VARCHAR(255)

SET @OutputString = LOWER(@InputString)
SET @Index = 2
SET @OutputString = STUFF(@OutputString, 1, 1,UPPER(SUBSTRING(@InputString,1,1)))

WHILE @Index <= LEN(@InputString)
BEGIN
   SET @Char = SUBSTRING(@InputString, @Index, 1)
   IF @Char IN (' ', ';', ':', '!', '?', ',', '.', '_', '-', '/', '&','''','(','{','[','@')
      IF @Index + 1 <= LEN(@InputString)
      BEGIN
         IF @Char != ''''  OR  UPPER(SUBSTRING(@InputString, @Index + 1, 1)) != 'S'
            SET @OutputString = STUFF(@OutputString, @Index + 1, 1,UPPER(SUBSTRING(@InputString, @Index + 1, 1)))
      END
         SET @Index = @Index + 1
      END

   RETURN ISNULL(@OutputString,'')

END
Go

--    00.045 x 0.045%
--    00.045 z 0.045%
--
--    Replace(Replace(Replace(TS_NAME,'x','#'),'z','x'),'#','z')
--
--    00.456 k 0.456%
--    00.511 j 0.511%
--    00.824 v 0.824%
--    kjv
--    Replace(Replace(Replace(Replace(TS_NAME,'k','#'),'j','k'),'v','j'),'#','v')
--
--    01.642 g 1.642%
--    02.284 n 2.284%
--    02.415 l 2.415%
--    gnl
--    Replace(Replace(Replace(Replace(TS_NAME,'g','#'),'n','g'),'l','n'),'#','l')
--
--    02.826 r 2.826%
--    03.174 d 3.174%
--    03.826 m 3.826%
--    rdm
--    Replace(Replace(Replace(Replace(TS_NAME,'r','#'),'d','r'),'m','d'),'#','m')
--
--    04.027 f 4.027%
--    04.200 h 4.200%
--    04.319 p 4.319%
--    04.434 b 4.434%
--    05.238 c 5.238%
--    fhpbc
--    Replace(Replace(Replace(Replace(Replace(Replace(TS_NAME,'f','#'),'h','f'),'p','h'),'b','p'),'c','b'),'#','c')
--
--    05.497 w 5.497%
--    06.686 s 6.686%
--    15.978 t 15.978%
--    wst
--    Replace(Replace(Replace(Replace(TS_NAME,'w','#'),'s','w'),'t','s'),'#','t')
--
--
--    02.799 e 2.799%
--    07.294 i 7.294%
--    07.631 o 7.631%
--    11.682 a 11.682%
--    eioa
--    Replace(Replace(Replace(Replace(Replace(TS_NAME,'e','#'),'i','ew'),'o','i'),'a','o'),'#','a')
--
--    -- dont replace
--    00.222 q 0.222%
--    00.763 y 0.763%
--    01.183 u 1.183%

-- Obfuscate a name
Select
   ts_id,
   Cast(ts_name as varchar(42)) as [Original Name]

   Cast(dbo.fnConvert_TitleCase(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(TS_NAME,'x','#'),'z','x'),'#','z'),'k','#'),'j','k'),'v','j'),'#','v'),'g','#'),'n','g'),'l','n'),'#','l'),'r','#'),'d','r'),'m','d'),'#','m'),'f','#'),'h','f'),'p','h'),'b','p'),'c','b'),'#','c'),'w','#'),'s','w'),'t','s'),'#','t'),'e','#'),'i','ew'),'o','i'),'a','o'),'#','a')) as VarChar(42)) As [morphed name] ,
   Cast(dbo.fnConvert_TitleCase(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(Replace(TS_NAME,'e','t'),'~','e'),'t','~'),'a','o'),'~','a'),'o','~'),'i','n'),'~','i'),'n','~'),'s','h'),'~','s'),'h','r'),'r','~'),'d','l'),'~','d'),'l','~'),'m','w'),'~','m'),'w','f'),'f','~'),'g','y'),'~','g'),'y','p'),'p','~'),'b','v'),'~','b'),'v','k'),'k','~'),'x','~'),'j','x'),'~','j')) as VarChar(42)) As [morphed name2]

From
   ts_users
;

InformationsquelleAutor mnemotronic

-1

Ehrlich gesagt, ich bin mir nicht sicher, warum dies erforderlich ist. Ihr dev/test-Umgebungen, privat, hinter Ihrer firewall und nicht zugänglich aus dem web.

Ihre Entwickler vertraut sein sollten, und Sie haben Sie rechtliche Handhabe gegen Sie, wenn Sie es versäumen, Ihrem Vertrauen gerecht werden.

Ich denke, die wirkliche Frage sollte sein "Sollte, vertausche ich die Daten?", und die Antwort ist (in meinen Augen) "Nein".

Wenn Sie es offsite-aus irgendeinem Grund, oder Sie haben Ihre Umgebungen, web-zugänglich sind, oder wenn Sie paranoid sind, würde ich implementieren einen random-Schalter. Eher als bauen Sie eine temporäre Tabelle ausführen, wechselt zwischen den einzelnen Orten und eine zufällige Zeile in der Tabelle, tauschen ein Stück von Daten zu einer Zeit.

Das Endergebnis ist eine Tabelle mit den gleichen Daten, aber mit es nach dem Zufallsprinzip neu geordnet. Es sollte auch schneller sein als dein temp-Tabelle, glaube ich.

Es sollte einfach genug für die Durchführung der Fisher-Yates-Shuffle in SQL...oder zumindest in einer console app, liest die db und schreibt an das Ziel.

Edit (2): Off-the-Manschette Antwort in T-SQL:

declare @name varchar(50)
set @name = (SELECT lastName from person where personID = (random-id-Nummer)
Update Personen
set Nachname = @name
WHERE personID = (person-id der aktuellen Zeile)

Wickeln Sie diese in einer Schleife, und Folgen Sie den Richtlinien des Fisher-Yates-zum ändern der zufällige Wert-constraints, und Sie werden eingestellt werden.
- Nie versagt, die Sie versuchen, um alle Informationen in der post, und Sie vergessen, etwas wichtiges. Diese Daten müssen auch in unserer sales & demo-Umgebungen, die öffentlich zugänglich sind. Ihre Idee ist, was ich bin versucht zu tun 'Schalter' den Namen, aber meine Frage ist, buchstäblich, wie man code?
- Sie könnten versuchen, die <a href="Fisher-Yates -" >en.wikipedia.org/wiki/... Shuffle</a> Es sollte einfach genug sein, um die Implementierung in SQL...oder eine einfache Konsolen-app, die liest die db und schreibt die Ziel-db.
- en.wikipedia.org/wiki/Fisher-Yates_shuffle das ist der richtige link, ich glaube ich habe um mehr zu erfahren über die Umgebung hier 😉 die Aktualisierung meiner Antwort.
- Hätte von Ihnen positiv bewertet werden, aber 'nicht sicher, warum dies erforderlich ist" - Teil ist nur Lärm. Es gibt viele Gründe, warum diese benötigt werden könnte.
- Zu der Zeit, als ich dies geschrieben, es war nicht "nur Rauschen", für die genauen Gründe, die ich gab. Chip-dann antwortete mir in seinem ersten Kommentar, genau wie diese Seite funktionieren soll.
- Ob oder nicht die Umgebung ist privat und Sie Vertrauen in Ihre Entwickler, würde ich vorschlagen, es ist oft eine schlechte Idee zu haben, rohe Produktion Kundendaten in einer nicht-Produktionsumgebung, besonders wenn es eine Gefahr von E-Mails an Kunden oder was auch immer!
InformationsquelleAutor Jeff

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.