December 19, 2022

Efficiënt databeheer met AI-segmentatie

Digitale transformatie heeft de manier waarop bedrijven omgaan met hun partners, toeleveringsketens en klanten fundamenteel veranderd. Het heeft ook de hoeveelheid gegevens die door organisaties wordt gegenereerd en opgeslagen exponentieel vergroot.

Ons data-raadsel
Moderne ondernemingen hebben over het algemeen honderden terabytes, zo niet petabytes aan gegevens, waarvan een groot deel ongestructureerd is. Dit type data kan 80 tot 90% uitmaken van de totale datavoetafdruk van een onderneming en omdat het ongestructureerd is, wordt het grotendeels genegeerd. Bepaalde elementen van ongestructureerde gegevens bevatten echter gevoelige informatie die ten prooi kan vallen aan inbreuken.

Wat u wel en niet moet doen bij het bijscholen en opschalen van burgerontwikkelaars in uw hele organisatie – Low-Code/No-Code Summit
Het raadsel: we weten niet welke gegevens gevoelig zijn; het is alsof je een speld in een hooiberg probeert te vinden.

Nieuwe tools kunnen omslachtige methoden voor gegevensbeheer vervangen
Met een overvloed aan gegevens die gedurende vele jaren zijn verzameld, duiken regelmatig vragen van toezichthouders en ontdekkingsbevelen van juridische autoriteiten op.

Een typische reactie van gegevensbeheerders kan zijn om onmiddellijk een proces in te voeren – misschien door werknemers een verklaring te laten ondertekenen waarin ze beloven geen gevoelige gegevens op te slaan en vervolgens training te geven over persoonlijk identificeerbare informatie (PII). Maar dit is slechts een “pleister” -oplossing die op het proces wordt geplaatst, omdat ze er het beste van hopen.

Als alternatief kunnen gegevensbeheerders bergen gegevens doorzoeken. Ze scannen elk document en proberen gevoelige gegevens te onthullen. Maar het scannen van de petabytes aan ongestructureerde gegevens zou jaren duren. Het is ook vrij duur en te tijdrovend om de gewenste resultaten te bereiken, waardoor veel datamanagers deze aanpak mijden.

Gevoelige gegevens en de opkomst van op AI gebaseerde gegevenssegmentatie
Er is een effectieve en efficiënte technologie beschikbaar om dergelijke archaïsche methoden te vervangen en risico’s snel te verminderen, tegen een fractie van de kosten: kunstmatige intelligentie (AI) segmentatie.

Met op AI gebaseerde segmentering stellen we vast welke kenmerken van een bestand erop wijzen dat het waarschijnlijker is dat het gevoelige gegevens bevat na het scannen van slechts een kleine statistische steekproef van bestanden. Dit geeft ons belangrijke informatie om prioriteit te geven aan onze zoektocht naar gegevens met een hoog risico. Lopen bijvoorbeeld Word-documenten een groter risico dan PowerPoint-presentaties? Is er een bepaalde map die waarschijnlijker gevoelige gegevens bevat?

Zodra we onze meest risicovolle gegevens hebben gemarkeerd, kunnen we onmiddellijk een volledig scan- en herstelproces starten, waarbij we het grootste risico zo vroeg mogelijk in het proces elimineren. Daarom hebben we prioriteit gegeven aan het herstelproces om de grootste risicovermindering in de kortst mogelijke tijd te bereiken.

Stel bijvoorbeeld dat we vele terabytes aan gegevens hebben die zijn opgedeeld in brokken van 100 terabytes. Het kan enkele maanden werk vergen om 100 terabytes tegelijk te indexeren of te scannen, en het duurt zelfs nog langer om alles te doorlopen.

Als ik in plaats daarvan echter een statistische steekproef neem (dat wil zeggen, ik kijk naar ongeveer 9.500 van de in totaal 1 miljoen bestanden), kan ik 95% zeker zijn van mijn resultaten.

Als in de eerste 100 terabytes mijn resultaten zeggen dat 5% van de gegevens persoonlijke informatie bevat, zou ik weten dat als ik dezelfde test nog eens 100 keer zou uitvoeren, 95 van de honderd keer, ik binnen 1% zou zijn van dat niveau van 5% (dat wil zeggen, 4-6% is PII of informatie of bestanden die PII bevatten). Ik kan deze iteratie in een fractie van de tijd uitvoeren – uren in plaats van maanden – en heb een goed idee van hoe groot het probleem is.

Als ik dan naar een tweede stuk van 100 terabyte kijk en 20% PII bevat, heb ik nu een prioriteit. Ik weet dat mijn tijd het beste gediend is door eerst naar dat tweede stuk gegevens te kijken.

Maar we kunnen nog beter. Voor dat tweede stuk data kunnen we AI-modellen toepassen om het stuk van 100 terabyte verder te segmenteren in buckets op basis van de verwachte waarschijnlijkheid dat een bestand PII heeft. We kunnen ontdekken dat slechts één terabyte van de in totaal 100 terabytes een waarschijnlijkheid heeft van meer dan 50% die PII bevat.

Ik zal dan alle terabytes scannen en de problemen oplossen. Ik kan dan doorgaan naar het volgende risicovolle gebied en dan het volgende risicovolle gebied. De voortgang is met sprongen vooruit gegaan in vergelijking met het doorzoeken van alle 200 terabytes van begin tot eind. Deze aanpak is een effectieve, efficiënte, betrouwbare en geaccepteerde manier om gegevens te valideren.

Regelgevers en juridische autoriteiten zijn altijd op zoek naar bedrijven die redelijke stappen kunnen ondernemen om aan de wet te voldoen. Deze aanpak is pragmatisch en resulteert in de snelst mogelijke reductie vanbestanden met gevoelige gegevens.

Leave a Reply Cancel reply