Det korte svar: DataMapper bruger en kombination af teknologier såsom Text Extraction, OCR, Sproggenkendelse, Indeksering af nøgleord, Machine Learning og LLM til effektivt at scanne filer for følsomt indhold. Ved at gøre dette, filtreres irrelevant data fra og viser kun de filer, der faktisk indeholder følsomme oplysninger—så man kan overholde GDPR og beskytte data.
Hvorfor er det så svært at identificere følsomme udtryk?
At identificere følsomme oplysninger på tværs af en virksomheds systemer er aldrig ligetil—uanset om man bruger manuel søgning eller særlige værktøjer. Det er en kompleks opgave af flere årsager. Her er blot nogle af dem:
- Mængden af data
En virksomhed vil typisk have millioner af filer, e-mails, vedhæftninger og dokumenter. Det er en langsom, upræcis og næsten umulig proces at skalere, hvis man skal gennemgå disse data manuelt. -
Listen af følsomme udtryk er i konstant udvikling
Datalovgivninger som GDPR er omfattende og opdateres løbende. Nye risikotermer opstår hele tiden. Hertil kommer at hver virksomhed kan have sine helt egne definitioner af, hvad der betragtes som følsomt. -
Følsomme data kan gemme sig overalt
Det er ikke kun i tekstdokumenter der kan have følsomt indhold – følsomme oplysninger kan være skjult i skærmbilleder, scannede kontrakter, håndskrevne noter eller billeder af ID-kort. Uden hjælp skal hvert billede gennemgås manuelt, hvilket er både tidskrævende og – efter vores erfaringer – fejlbehæftet. -
Konteksten er afgørende
Et ord eller et tal bliver først følsomt, når det relaterer sig til en person. For eksempel er “COVID” eller “muslim” i sig selv ikke nødvendigvis følsomme, men i en sætning som “Hun blev opsagt efter at have fortalt, at hun havde COVID”, gør konteksten det følsomt ifølge GDPR. -
Sprog- og formatkompleksitet
Følsomme oplysninger kan forekomme på mange sprog og i forskellige nationale formater. Et dansk CPR-nummer ser anderledes ud end et amerikansk social security number, og selv det samme ord kan have forskellig betydning afhængigt af sproget. -
Teknologiske begrænsninger
Det kan være særligt udfordrende at scanne komplekse dokumenter som Excel-ark med mange rækker og kolonner. OCR-teknologi læser typisk tekst vertikalt, men data i regneark er ofte arrangeret på måder, der ikke passer til denne læselogik. Det kræver derfor ekstra logik og avanceret behandling for nøjagtigt at kunne tolke og udtrække følsomme oplysninger fra sådanne strukturerede dokumenter.
For at imødekomme disse udfordringer har vi udviklet DataMapper.
Hvordan søger DataMapper efter følsomme data?
I modsætning til andre søgemetoder, der baserer sig på manuel søgning eller regelbaseret scanning, benytter DataMapper en avanceret, AI-drevet proces til at udtrække, analysere og validere følsomme data på tværs af millioner af dokumenter—ikke over dage eller uger, men på få timer eller endda minutter.
Mange andre Data Discovery-løsninger kan identificere visse typer information ved hjælp af mønstergenkendelse eller metadatafiltrering. Men de kommer ofte til kort, når det gælder scanning af billeder, flersprogede dokumenter eller kontekstanalyse. Det fører til oversete risikofiler eller et væld af falske positiver, hvilket skaber støj.
DataMapper går en anden vej—ved at kombinere en række avancerede teknologier leverer den resultater, der ikke blot er hurtige, men også præcise. Værktøjet identificerer kun de reelt følsomme oplysninger, som ellers ville være gemt blandt millioner af dokumenter, og skærer alt det overflødige væk. De seks teknologier i DataMappers søgeproces er:
- Text Extraction
- Optical Character Recognition (OCR)
- Sproggenkendelse
- Indeksering af nøgleord
- Machine Learning (ML) and Regular expressions (RegEX)
- Large Language Model (LLM)
Vidste du, at GDPR-overtrædelser kan resultere i bøder på op til 20 millioner euro eller 4% af virksomhedens globale årlige omsætning, alt efter hvad der er højest.
- Europa-Kommisionen
1. Text Extraction
Det første skridt mod at identificere følsomme data er at få adgang til selve teksten. I denne forbindelse starter DataMapper med at udtrække al læsbar tekst fra de filer, der scannes, hvad enten det er almindelige tekstfiler eller billedfiler. Hvis dokumentet allerede indeholder markerbar tekst (som i en mail eller en Word-fil), udtrækker DataMapper teksten direkte.
Men hvis dokumentet er billedbaseret – f.eks. en scannet kontrakt, et foto af et ID-kort eller et skærmbillede af en e-mail—går DataMapper automatisk videre til næste trin: OCR (Optical Character Recognition).
Denne metode sikrer, at ingen følsomme oplysninger overses, blot fordi de er gemt i et billede.
2. Optical Character Recognition (OCR)
Alle billedbaserede filer konverteres herefter af OCR-teknologi til søgbar tekst, så de kan analyseres på samme måde som almindelige tekstbaserede dokumenter. Uden dette trin ville følsomme oplysninger indlejret i ikke være mulige at scanne.
3. Sproggenkendelse
Når teksten er udtrukket, identificerer DataMapper sproget – dette er et vigtigt trin, der bestemmer, hvordan indholdet behandles videre i processen. Det er her, systemet afgør, hvilke machine learning- og AI-modeller der skal anvendes, baseret på det registrerede sprog. Tænk på det som at placere hver fil på det rette behandlingssamlebånd.
Ord og tal betyder nemlig ikke det samme på tværs af sprog – for eksempel henviser “SSN” på engelsk til et Social Security Number, mens det i Danmark svarer til et “CPR-nummer”. Nogle følsomme dataformater er desuden specifikke for sprog eller lande – en national identifikation i ét land kan være helt irrelevant i et andet. Ved at identificere sproget fra start sikrer DataMapper, at hver fil behandles med de rette sprogforstående modeller, hvilket gør den efterfølgende indeksering af nøgleord, mønstergenkendelse og kontekstfiltrering langt mere præcis. Hvis sproggenkendelse udelades, vil det resultere i en stor mængde falske positiver.
Modtag vores nyhedsbrev!
I vores nyhedsbrev du får tips og tricks til hvordan du lettere kan håndtere GDPR fra vores grundlægger Sebastian Allerelli.
Når du tilmelder dig vores nyhedsbrev, får du samtidig en gratis licens for én bruger til ShareSimple, som giver dig en e-mail i Outlook. Dette særlige tilbud er kun for nye kunder, med en grænse på én licens pr. virksomhed.
4. Indeksering af nøgleord
Når teksten er udtrukket og sproget identificeret, opretter DataMapper et komplet indeks over alle ord og tal i de scannede filer. Hvert eneste udtryk bliver gjort målbar op imod en nøje udarbejdet taksonomi af følsomme udtryk. Denne taksonomi er udviklet i samarbejde med juridiske og compliance-eksperter i overensstemmelse med eksempelvis GDPR.
Taksonomien dækker tre hovedkategorier af følsomme oplysninger:
-
Personhenførbare oplysninger (PII) – f.eks. navn, fødselsdato, CPR-nummer
-
Følsomme personoplysninger – f.eks. helbredsoplysninger, fagforeningsmedlemskab, seksuel orientering
-
Forretningskritiske termer – f.eks. kontrakter, budgetter, dokumenter om immaterielle rettigheder
Denne taksonomi fungerer som et foruddefineret ordforråd af risikomarkører og opdateres løbende i takt med, at lovgivning og dataforordninger udvikler sig.
Men det er ikke nok kun at identificere nøgleord—derfor går vi et skridt videre og anvender maskinlæring til at validere mønstre og reducere mængden af falske positiver.
5. Machine Learning (ML) og Regular expressions (RegEX)
Mange typer følsomme data følger genkendelige mønstre. For eksempel:
-
Et kreditkortnummer består altid af 16 cifre
-
Et CPR-nr har formatet XXXX-XXXXXX
-
Et IBAN (internationalt bankkontonummer) har et landespecifikt format
DataMapper bruger RegEx til at identificere disse mønstre – men mønstergenkendelse alene er ikke nok. Her kommer Machine Learning ind i billedet. ML-modeller hjælper DataMapper med at forstå konteksten og validere, hvad mønstrene faktisk betyder i den omgivende tekst. De kan f.eks. skelne mellem et reelt personnummer og et telefonnummer, der blot ligner.
For eksempel: Hvis “1234-123456” står i et dokument, vil en simpel mønstergenkendelse muligvis markere det som et CPR-nr. Men hvis det i realiteten bare er et ubetydeligt nummer, vil ML-modellen fange det og undgå en falsk positiv. Kort sagt: Machine Learning tilføjer den intelligens, som regelbaserede systemer mangler – så strukturerede data ikke bare bliver opdaget, men også korrekt forstået.
6. Large Language Model (LLM)
Selv efter brug af Machine Learning og mønstergenkendelse er konteksten stadig afgørende. Et telefonnummer i en kontaktliste er sandsynligvis ikke følsomt. Men hvis det samme telefonnummer findes i en lægerapport eller en HR-fil, så er det en anden sag. Det er her Large Language Models (LLM’er) kommer ind i billedet.
LLM’er kombineret med vektorisering af data gør det muligt for DataMapper at gå skridtet videre end mønstergenkendelse. De analyserer det omkringliggende sprog og kontekst for at vurdere, om noget faktisk er følsomt. For at gøre dette, vektoriserer DataMapper relevante tekstudsnit og omdanner dem til et format, som LLM’en kan forstå. Modellen er trænet til at afgøre, om noget er følsomt eller ej.
Et eksempel er:
“Ben Islam fra finans var en fantastisk kollega. I sin fritid var han medlem af Lonely Hearts Dart Club og en fremragende kok. Jeg vil anbefale ham til en forfremmelse. For resten – hans maleri ‘bypass operation with COVID’ var imponerende.”
I dette tilfælde registrerer LLM’en ikke noget følsomt indhold. Grunden til dette er at “bypass operation” nævnes i forbindelse med kunst – ikke som en reel medicinsk udtryk.
Et andet eksempel, som ligner det forrige, er:
“Ben Islam fra finans… For resten, hans nylige bypass-operation blev udført, mens han havde COVID. Det gik fantastisk.”
Her identificerer LLM’en korrekt følsomt indhold i form af helbredsoplysninger.
Dette er måden hvorpå LLM’er reducerer falske positiver og forbedrer nøjagtigheden – de hjælper virksomheder med at undgå at gennemgå tusindvis af irrelevante dokumenter. På få minutter får man et præcist og fokuseret resultat, der viser præcis, hvor der er brug for handling.
Få et komplet overblik over jeres GDPR-risici

En GDPR Risiko-rapport giver jer et komplet overblik over GDPR-risikoen i jeres virksomhed. Rapporten udarbejdes på baggrund af et scan med DataMapper,
Fordelene ved DataMappers søgemetode
DataMappers søgemetode er udviklet med stor omhu gennem mange års erfaring med at analysere følsomme udtryk. Det er en smartere, hurtigere og mere compliant tilgang til den komplekse opgave det er at identificere følsomme data. Ved at kombinere flere teknologier, giver DataMapper en række konkrete fordele:
Tid- og ressourcebesparelse
Manuel søgning kan tage uger eller endda måneder. DataMapper gennemgår millioner af filer på få timer eller minutter og reducerer markant den tid, der bruges på datasøgning.
Reducering af risici
Ved at sikre, at alle typer følsomme oplysninger—personhenførbare data, særligt følsomme oplysninger og forretningskritiske termer—bliver korrekt identificeret, hjælper DataMapper med at overholde GDPR, HIPAA og andre datalovgivninger.
Forbedrer nøjagtigheden
Ved hjælp af OCR, ML og LLM’er undgår DataMapper typiske fejl og forstår konteksten bag ord og tal. Man får færre falske positiver og bedre indsigt.
Finder det, traditionelle søgninger overser
Følsomme udtryk, der gemmer sig i billeder, scannede dokumenter eller flersprogede formater, bliver ofte overset af standardværktøjer. DataMappers kombination af teknologier er med til at undgå at følsomt indhold bliver overset.
Kan skræddersyes
Den indbyggede taksonomi er udviklet i samarbejde med juridiske eksperter og opdateres løbende. Som bruger kan man også tilpasse taksonomien til éns specifikke behov—så den passer til éns branche, data og interne datapolitik.
Skalerbar og automatiseret
Uanset om man har ti tusinde filer eller ti millioner, skalerer systemet problemfrit og fungerer på tværs af e-mail, cloud-lagring, filservere og meget mere – helt uden manuel opsætning.
FAQ om DataMappers søgning
1. Kan jeg ikke bare bruge en almindelig søgefunktion til at finde følsomme data?
En almindelig søgning kigger ikke i billeder, PDF’er eller forstår kontekst. Den giver desuden ofte mange falske positiver, hvilket gør det sværere at overholde regler som GDPR.
2. Hvordan ved DataMapper, hvad der er følsomt?
Den bruger foruddefinerede taksonomier, machine learning-modeller og LLM’er til at forstå kontekst og validere resultater.
3. Gør DataMappers søgning mit system langsommere?
Nej, DataMapper kører i baggrunden og forstyrrer ikke eksisterende arbejdsprocesser.
4. Søger DataMapper også i cloud-lagring?
Ja, den scanner data på tværs af cloud-tjenester, e-mails, lokal lagring og meget mere.
5. Hvordan hjælper denne søgemetode med GDPR-compliance?
Den sikrer, at alle personfølsomme oplysninger bliver identificeret og håndteret korrekt, hvilket mindsker risikoen for brud på databeskyttelsesreglerne.
Læs mere

Sebastian Allerelli
Grundlægger & COO hos Safe Online
Sebastian er medstifter og COO i Safe Online, hvor han fokuserer på at automatisere processer og udvikle innovative løsninger inden for databeskyttelse og compliance. Med en baggrund fra Copenhagen Business Academy og erfaring inden for identitets- og adgangsstyring har han en skarp forståelse for GDPR og datasikkerhed. Som forfatter på Safe Online's Videnshub deler Sebastian sin ekspertise gennem praktiske råd og dybdegående analyser, der hjælper virksomheder med at navigere i det komplekse GDPR-landskab. Hans indlæg kombinerer teknisk indsigt med forretningsforståelse og giver konkrete løsninger til effektiv compliance.