it-swarm-eu.dev

Jaké jsou nástroje pro maskování dat? (MySQL, Linux)

Hledám (ideálně zdarma, open-source) nástroje pro maskování dat. Existuje něco takového?

Poznámka: Tato související otázka se zabývá nástroji pro generování testovacích dat, ale v této otázce mám větší zájem začít se skutečnými daty a maskovat je pro použití v testu bez ztráty jakýchkoli zvláštních vztahů, které by byly pro testovací účely zajímavé. Vygenerovaná data jsou pro některé testovací účely v pořádku, ale data v reálném světě přinesou problémy, na které jste nikdy nenapadlo. Nástroj pro generování velkých datových souborů testovacích dat

14
testerab

Byl bych velmi překvapen, kdyby na to existoval obecný nástroj - jak by „věděl“, co jsou citlivá data a co ne? Například by bylo třeba prozkoumat všechna vaše data a rozpoznat všechny možné formáty čísla kreditní karty, telefonního čísla, PSČ, e-mailové adresy a dalších údajů, které jsou považovány za citlivé. Také by mělo být chytré o vašem schématu - např. mělo by přepsat všechny e-mailové adresy zákazníků na „[email protected]“ - nebo předpokládá jakákoli část vaší databáze, aplikací, dalších nástrojů, že e-mailová adresa zákazníka (nebo SSN nebo cokoli) je jedinečná? Nebo máte nějakou část aplikace, která kontroluje počty kreditních karet, která by se zlomila, pokud by je všechny resetovali na 0000 0000 0000 0000? Nebo předpokládá váš telefonní systém, že volací kód zákazníka odpovídá zemi v jeho adrese?

Konfigurace jakéhokoli nástroje k tomu bude v zásadě stejně nebo více práce, než jen psaní vlastního skriptu, s využitím vašich znalostí aplikace. Na mém webu jsme jednoduše vytvořili zásadu, že každý, kdo přidá sloupec s takovými daty, aktualizuje skript tak, aby jej anonymizoval současně, po počátečním auditu najít všechny tyto sloupce a napsat verzi 1.

9
Gaius

Nikdy jsem takovou položku neviděl, ale po práci s několika citlivými datovými soubory v mé době je hlavní věcí, kterou je třeba skramblovat, identita lidí nebo osobní identifikační údaje. Toto by mělo vytvořit vzhled pouze na několika místech v databázi.

Vaše operace maskování by si měla zachovat statistické vlastnosti a vztahy dat a pravděpodobně si musí zachovat skutečné referenční kódy (nebo alespoň nějaký mechanismus řízeného překladu), abyste je mohli sladit se skutečnými daty.

Tohoto druhu lze dosáhnout získáním zřetelného seznamu jmen v polích a jeho nahrazením něčím jako FirstNameXXXX (kde XXXX je pořadové číslo, jedno pro každou odlišnou hodnotu). Čísla kreditních karet a podobné informace, které by mohly být použity pro krádež identity, jsou ve vývojovém prostředí docela pravděpodobně ne-ne, ale skutečná čísla potřebujete pouze v případě, že testujete systémy zpracování plateb - obvykle vám dodavatel poskytne speciální kódy pro fiktivní účty.

Není tak obtížné psát anonymizační postupy tohoto druhu, ale budete se muset přesně dohodnout, co je třeba anonymizovat s firmou. V případě potřeby projděte pole databáze po poli. Dotaz ano/ne vám dá falešná pozitiva, která nechcete. Požádejte obchodní zástupce, aby vysvětlil, proč nebo důsledky nebo důsledky vyplývající z neanonymizace konkrétních údajů.

Pokud je vaše databáze malá, má jednoduchý datový model a je dobře pochopena současnými DBA - odpověď může být skriptování. Úsilí (a náklady) na ruční analýzu a maskování typických databází se však může rychle změnit, jak se mění požadavky, přidává se funkčnost a vývojáři/DBA přicházejí a odcházejí.

I když nevím o žádných produktech na maskování dat s otevřeným zdrojovým kódem, existují komerční nabídky, které jsou přiměřeně komplexní, relativně snadno použitelné a mohou být překvapivě rozumné z hlediska nákladů. Mnoho z nich zahrnuje okamžité zjišťování schopnosti identifikovat a klasifikovat citlivá data (SSN, kreditní karty, telefonní čísla), jakož i funkčnost pro udržení kontrolních součtů, formátování e-mailových adres, seskupení dat atd. Tak, aby maskovaná data vypadá a cítí se skutečně.

Ale za to nemusíte brát moje (sice zkreslené) slovo. Zeptejte se analytiků z oboru, jako je Gartner nebo Forrester, kteří mají k dispozici řadu nezaujatých zpráv o maskování, které mohou pomoci.

Doufejme, že tyto komentáře vás povzbudí, abyste zvážili prozkoumání komerčních produktů a vývoj interních skriptů. Na konci dne je nejdůležitější chránit citlivá data, která mnozí z nás vidí den co den a den, které opravdu nemusíme dělat, abychom mohli dělat svou práci - dávat nás a lidi, jejichž osobní data, která riskujeme.

Kevin Hillier, Senior Integration Specialist, Camouflage Software Inc.

5
user757

Před několika týdny jsem měl stejný úkol. vyhodnotili jsme některé softwarové systémy, ale většina z nich je pouze pro přesně jeden typ databáze, např. Oracle a oni jsou často velmi složité používat ... takže uhm není to nejhezčí, co to vyhodnotit. Trvalo nám týdny.

Rozhodli jsme se zakoupit profesionální verzi sady pro maskování dat, protože to bylo nejjednodušší. Má také skvělé možnosti maskovat data, např. můžete změnit e-mailové adresy na skutečné. ... @ siemens.com na [email protected]

Můžete si to vyzkoušet zdarma pro asi 500 (?) Záznamů, pokud si pamatuji.

Zde je odkaz http://www.data-masking-tool.com/

3
SaJoe

Tuto cestu jsem poprvé uvedl před několika lety a od té doby jsem si vybudoval poradenskou činnost založenou na této praxi.

Předpokládám, že účelem je sestavení testovacích dat pro použití v testovacích prostředích, kde pracovníci přístup k datům nemají práva na prohlížení produkčních informací.

První věc, kterou je třeba zjistit, je přesně to, jaké datové prvky je třeba maskovat a udělat, že je nejlepší začít nástrojem pro vyhledávání dat, jako je Schema Spy (Open source), a pro tento úkol budete potřebovat příslušný ovladač jdbc, ale je velmi užitečný krok v procesu.

Talend Open Studio je jedním z nejlepších nástrojů, které jsem použil v posledních letech k provádění některých funkcí ETL, a budete také moci provádět základní maskovací praxi nahrazením hodnot náhodným nebo. Vyhledat/nahradit - pro zachování konzistence - pomocí komponenty mapy.

Pokud však hledáte nástroj pro maskování skutečných dat, nenašel jsem vhodný nástroj s otevřeným zdrojovým kódem. Pokud máte velmi mírný rozpočet na nástroje, navrhl bych Data Masker, ale budete muset udělat nějaký import a export přes MS SQL nebo Oracle, protože se připojuje pouze prostřednictvím těchto protokolů.

Podívejte se na http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset pro informace o maskování dat, maskování dat metodika, vyhledávání a testování dat. K dispozici je také užitečný blog na adrese http://www.dataobfuscation.com.a

2
user25272

Můj způsob, jak to udělat:

  1. Vytvořte novou databázi pouze s právy zobrazení a výběru uživatelů
  2. Vytvořte pohledy na tabulky, které by měly být zobrazitelné v jiných databázích
  3. Sloupce masky, které vyžadují maskování: opakováním ('*', char_length (column to be masked))
2

Ten, který se mi nejvíc líbí, je IRI FieldShield ( https://www.iri.com/products/fieldshield ) z hlediska univerzálnosti (většina funkcí maskování dat), rychlosti (CoSortův motor pro pohyb dat uvnitř) a ergonomie (jednoduché úlohy 4GL podporované v jeho Eclipse GUI s tunami připojení k DB a souborům). Cenově je to asi polovina IBM a Informatica, i když je k dispozici také ve větší sadě integrace dat pro „transformaci“ velkých dat, migraci a BI. Není tedy zdarma, ale používá nějaký otevřený zdroj (IDE a může používat OpenSSL a GPG) a skripty běží na Windows, Linuxu a dalších Unixových příchutích.

1
Urvashi Saxena

Tento rok mám příležitost spolupracovat s IBM Optim, který tvrdí, že dělá, co je požadováno. Není zdarma, ale funguje to dobře.

1
Mendes

Na trhu je k dispozici nástroj od společnosti Informatica, který se nazývá Informatica ILM (TDM). Toto používá PowerCenter jako páteř pro ETL a data masky s různými dostupnými maskovacími možnostmi. Přestože potřebujete datového analytika nebo SME kdo umí pochopit, jak by měla být data maskována. Samotný nástroj neposkytuje informace o tom, která pole by měla být maskována, existuje však interní algoritmus nebo procedura nebo proces k identifikaci datových polí, jako jsou jméno, sloupce ID s číslem, kreditní karta, číslo SSN, číslo účtu atd.

1
Awadhesh Yona