Skip to main content

Hvad er forskellen på struktureret data og ustruktureret data?

Data kan sorteres ind i en af de to kategorier: struktureret data og ustruktureret data. Struktureret data er klart defineret data med genkendelige mønstre, hvilket gør det let at søge i. Ustruktureret data er alt andet, og er ikke på samme måde let at foretage en søgning i. Denne artikel sammenligner de to, når det drejer sig om databeskyttelse og i forbindelse med anvendelsesmuligheder.

Hvad er struktureret data?

Struktureret data er blevet formateret det passer til en specifik struktur og er let at arbejde med. Det er velorganiseret og følger en pre-defineret datamodelsom kan læses via machine learning algoritmer. Strukturerede data ligger normalt i relationelle databaser, dvs. gemt i tabeller med rækker og kolonner, der er relateret til hinanden.

Eksempler på struktureret data

Data, der opbevares I større databaser (MySQL, Oracle m.v.),  lagerstyringssystemer, weblogstatistik og POS data, flyselskabers bookingsystemer, bankers transaktionelle systemer, CRM-systemer, bogholderi og regnskabssystemerstregkoder og mange andre. 

Nedenstående formater har du muligvis hørt om eller er stødt på, hvis du bruger Excel ofte eller er blevet bedt om, at fremsende dokumenter i bestemt form: 
  • Tab-Separated Value files (tsv 
  • Comma-Separated Value files (csv 

Herudover er der semi-struktureret data format eksempler:

  • JavaScript Object Notation (JSON)
  • Arvo
  • Optimized Row Columnar (ORC)
  • Apache Parquet
  • XML

Start GDPR-oprydningen hvor det trænger mest

Følsomme data kan let ophobe sig i medarbejdernes mails. Med et GDPR Risiko-scan fra DataMapper får I en rapport, der viser potentielle GDPR-risici i virksomhedens Outlook-konti.

Fordele ved struktureret data

  • Let at søge og tilgå med definerede machine learning (ML) algoritmer  
  • Let at spore og forstå udfaldet 
  • Kræver mindre behandling og er lettere at håndtere  

Ulemper ved struktureret data

  • Mindre fleksibelt da strukturen er pre-defineret og ikke kan rykkes ved 
  • Det tager flere tid og ressourcer at ændre og opdatere formatet 

Hvad er ustruktureret data?

Omtrent 80-90% af hele verdens data er ustruktureret. Denne type data eksisterer ofte i sin rå form samt, at den er uregelmæssig og uorganiseret. Dataen kan ikke processeres og analyseres via konventionelle værktøjer og metoder. Ydermere kommer ustruktureret data I langt flere formater end struktureret data gør.

Eksempler på ustruktureret data

Typiske eksempler på ustruktureret data er listet herefter. Der vil sandsynligvis være enkelte, som du godt kender af navn – men ikke har overvejet, at det hører ind under ustruktureret data. Det drejer sig om: Emails, chats, fakturaer, registreringer af varierende art, præsentationer, rapporter – der indeholder data i form af tekst, tal, lyd, billeder eller video. Det kunne være:

Email: Eml, msg, emlx, dbx, and wab
Præsentationer: ppt, keynote, gslides, or ppz
Ren tekst: text or txt
Komprimerede filer: 7z, zip, rar, rar5
Tekst kolonner: csv or tsv
Regneark: xls, xlsx, numbers, cal, and ots*
Lydfiler: mp3, mp4a, wma, ram, aac
Video filer: mpeg, mpg, h263, h264, 3gp, wmv
Billedfiler: jpeg, png, bmp, tiff
Design: model, stl, iges, art, 3dxml, psmodel
Udgivelser: pdf, pub, xfdf, ave
Krypto-nøgler og certifikater: crt, pem, pkipath, etc.
Desktop files: pdf, pub, xfdf, ave, etc.
Database filer: 4db, adt, box, kexic, contact, pdb
Binære filer: gsf, hex, exe, or bpk
Mark-up tekst: html, xhtml, markdown
Maskinlæsbar data: avro, parquet, xml, dtd, or xsd (semi-structured)
Maskingenereret medicinsk data: dicom and hl7
Kildekoder: a2w, amwandroidprojawdaxbbufferedimage, eller buildpath  

*Nogle datatyper, såsom regneark, bliver stadig debatteret. Selve regnearket har en vis struktur, men de data, som man indsætter i hver celle i et regneark, som Excel, er ikke reguleret af applikationen. 

Vil du vide mere om ustruktureret data?

I vores nyhedsbrev du får tips og tricks til hvordan du lettere kan håndtere GDPR fra vores grundlægger Sebastian Allerelli.

Når du tilmelder dig vores nyhedsbrev, får du samtidig en gratis licens for én bruger til ShareSimple, som giver dig en e-mail i Outlook. Dette særlige tilbud er kun for nye kunder, med en grænse på én licens pr. virksomhed.

Fordele ved ustruktureret data

Fordelene er: 
  • Det er mere tilpasningsdygtigt 
  • Det kan indsamles hurtigt og nemt 
  • Det er billigt og let at opbevare i større mængder

Ulemper ved ustruktureret data

Fordelene er: 
  • Det er mere tilpasningsdygtigt 
  • Det kan indsamles hurtigt og nemt 
  • Det er billigt og let at opbevare i større mængder 
Ulemperne er:  
  • Manglende synlighed
  • Svært at gennemskue hvordan det bruges og beskyttes bedst
  • Datastyringsværktøjer er nødvendige for at manipulere med ustrukturerede data

Ustruktureret data i praksis

På verdensplan er ustruktureret data langt mere udbredt end struktureret data. Da ustruktureret findes i langt flere formater og er let at opbevare, så er det ikke unormalt at langt de fleste virksomheder har en betydelig større mængde ustruktureret data opbevaret i deres systemer.
Det er svært at administrere ustruktureret data uden de rette værktøjer, fordi dens rå og uorganiserede karakter gør det svært at søge og få adgang – og det giver en lav synlighed. 
De primære udfordringer med ustruktureret data håndtering er følgende:
  • Manglende synlighed ved søgning 
  • Stor volumen
  • Uorganiseret 

Ustruktureret personlig data og GDPR

Mængden af ustruktureret data og filer, som jeres virksomhed har indsamlet gennem årene, indeholder helt sikkert masser af personlig data og følsomme personlige data.  Den lave synlighed af ustrukturerede personlige data udgør en særlig udfordring for overholdelse af GDPR, CCPA og andre forordninger.  
Love om beskyttelse af personlige oplysninger sætter grænser for, hvor længe I opbevarer personlige data, og de kræver, at I overvåger og beskytter dem for at sikre, at de ikke vil blive tilgået af uautoriserede personer. At efterlade ustrukturerede filer i datasiloer, uden at holde styr på de personlige data, der er indeholdt i dem, er en sandsynlig måde at få bøder på fra f.eks. Datatilsynet. I bør sørge for, at personlige data ikke forbliver i jeres systemer længere end højst nødvendigt. Når I ikke længere bruger data til det formål, at de er indsamlet, bør de slettes. 
For at opfylde disse krav skal du have systemer på plads til at sortere, klassificere og overvåge ustrukturerede persondata. 

En nemmere måde at håndtere ustrukturerede data

Teknologien er nødt til at følge med den stigende efterspørgsel til håndtering af ustruktureret data. Vores Data Discovery-værktøj, DataMapper, er ideelt til håndtering af ustruktureret data, på en måde, hvor man er ansvarlig med folks følsomme oplysninger og samtidig overholder GDPR.

Sebastian Allerelli
Grundlægger & COO hos Safe Online
Specialist i Ledelse, Risiko og GDPR

Følg mig på LinkedIn for at få små tips til GDPR her →

GUIDE

Håndtering af følsomme persondata

GUIDE

Sådan findes persondata med Datamapping

GUIDE

Forberedelse til et datatilsyn