Skip to main content

Struktureret og ustruktureret data

En sammenligning

Al data, i alle forskellige formater, kan sorteres ind i en af de to kategorier: struktureret data og ustruktureret data. I denne artikel vil vi sammenligne de to og se nærmere på følgende: sammenligne de to og se nærmere på:
  1. Hvad er nogle specifikke eksempler på struktureret data?
  2. Hvad er nogle specifikke eksempler på ustruktureret data?
  3. Hvad er hhv. Fordele og ulemper ved struktureret/ustruktureret data? 
Eftersom langt det meste af data, som du opbevarer på kunder, medarbejdere etc., er ofte ustruktureret. Hvordan vil du spore og beskytte det bedst? 

Struktureret data vs. Ustruktureret data

Struktureret data: Klart defineret datasæt med genkendelige mønstre = let og søgbart 
Ustruktureret data: Alt andet = ikke lige så søgbart 

Hvad er struktureret data så?

Struktureret data er blevet formateret sådan, at det passer til en specifik struktur og er let at arbejde med. Det er velorganiseret og følger en pre-defineret datamodelsom kan læses via machine learning algoritmerTypisk findes struktureret data

Eksempler på struktureret data

Data, der opbevares I større databaser (MySQL, Oracle m.v.), lagerstyringssystemerweblogstatistik og POS data, flyselskabers bookingsystemer, bankers transaktionelle systemer, CRM systemerbogholderi & regnskabssystemerstregkoder og mange andre. 

Struktureret data format eksempler

Nedenstående formater har du muligvis hørt om eller er stødt på, hvis du bruger Excel ofte eller er blevet bedt om, at fremsende dokumenter i bestemt form: 
  • Tab-Separated Value files (tsv 
  • Comma-Separated Value files (csv 

Semi-struktureret data format eksempler:

JavaScript Object Notation (JSON)
Arvo
Optimized Row Columnar (ORC)
Apache Parquet
XML

Fordele og ulemper: struktureret data

Vi lægger ud med fordelene herunder:  
  • Let at søge og tilgå med definerede machine learning (ML) algoritmer  
  • Let at spore og forstå udfaldet 
  • Kræver mindre behandling og er lettere at håndtere  
Derefter ulemperne herunder: 
  • Mindre fleksibelt da strukturen er pre-defineret og ikke kan rykkes ved 
  • Det tager flere tid og ressourcer at ændre og opdatere formatet 

Hvad er ustruktureret data?

Omtrent 80-90% af hele verdens data er ustruktureret. Denne type data eksisterer ofte I sin rå form samt, at den er uregelmæssig og uorganiseret. Dataen kan ikke processeres og analyseres via konventionelle værktøjer og metoder. Ydermere kommer ustruktureret data I langt flere formater end struktureret data gør.

Eksempler på ustruktureret data

Typiske eksempler på ustruktureret data er listet herefter. Der vil sandsynligvis være enkelte, som du godt kender af navn – men ikke har overvejet, at det hører ind under ustruktureret data. Det drejer sig om: Emails, chats, fakturaer, registreringer af varierende art, præsentationer, rapporter – der indeholder data i form af tekst, tal, lyd, billeder eller video.

Ustruktureret data format eksempler:

Email: Eml, msg, emlx, dbx, and wab

Præsentationer: ppt, keynote, gslides, or ppz

Ren tekst: text or txt

Komprimerede filer: 7z, zip, rar, rar5

Tekst kolonner: csv or tsv

Regneark: xls, xlsx, numbers, cal, and ots*

Lydfiler: mp3, mp4a, wma, ram, aac

Video filer: mpeg, mpg, h263, h264, 3gp, wmv

Billedfiler: jpeg, png, bmp, tiff

Design: model, stl, iges, art, 3dxml, psmodel

Udgivelser: pdf, pub, xfdf, ave

Krypto-nøgler og certifikater: crt, pem, pkipath, etc.

Desktop files: pdf, pub, xfdf, ave, etc.

Database filer: 4db, adt, box, kexic, contact, pdb

Binære filer: gsf, hex, exe, or bpk

Mark-up tekst: html, xhtml, markdown

Maskinlæsbar data: avro, parquet, xml, dtd, or xsd (semi-structured)

Maskingenereret medicinsk data: dicom and hl7

Kildekoder: a2w, amwandroidprojawdaxbbufferedimage, eller buildpath  

*Nogle datatyper, såsom regneark, bliver stadig debatteret. Selve regnearket har en vis struktur, men de data, som du indsætter i hver celle i et regneark, som Excel, er ikke reguleret af applikationen. 

Vil du have den seneste viden om at håndtere persondata?

Skriv dig op til vores nyhedsbrev her

    Fordele og ulemper: ustruktureret data

    Vi lægger ud med fordelene først: 
    • Det er mere tilpasningsdygtigt 
    • Det kan indsamles hurtigt og nemt 
    • Det er billigt og let at opbevare i større mængder 
    Derefter ulemperne herunder:  
    • Manglende synlighed 
    • Svært at gennemskue hvordan det bruges og beskyttes bedst 
    • Datastyringsværktøjer er nødvendige for at manipulere med ustrukturerede data

    Ustruktureret data: håndteringsudfordringer

    På verdensplan er ustruktureret data langt mere udbredt end struktureret data. Da ustruktureret findes i langt flere formater og er let at opbevare, så er det ikke unormalt at langt de fleste virksomheder har en betydelig større mængde ustruktureret data opbevaret i deres systemer. 
    Det er svært at administrere ustruktureret data uden de rette værktøjer, fordi dens rå og uorganiserede karakter gør det svært at søge og få adgang – og det giver en lav synlighed.  
    De primære udfordringer med ustruktureret data håndtering er følgende:
    • Manglende synlighed ved søgning  
    • Stor volumen 
    • Uorganiseret  

    Ustruktureret personlig data og GDPR

    Mængden af ustruktureret data og filer, som din virksomhed har indsamlet gennem årene, indeholder helt sikkert masser af personlig data og følsomme personlige data.  
    Den lave synlighed af ustrukturerede personlige data udgør en særlig udfordring for overholdelse af privatlivslovgivning om GDPR, CCPA og andre myndigheders forordninger.  
    Nye love om beskyttelse af personlige oplysninger sætter grænser for, hvor længe du opbevarer personlige data, og de kræver, at du overvåger og beskytter dem for at sikre, at de ikke vil blive tilgået af uautoriserede personer. 
    At efterlade ustrukturerede filer i “datasøer” uden at holde styr på de personlige data, der er indeholdt i dem, er en sandsynlig måde at få bøder på fra f.eks. Datatilsynet.  
    Sørg for, at personlige data ikke bliver hængende i dine systemer længere end højst nødvendigt. Når du ikke længere bruger dataen til det formål, at de er indsamlet, så bør de slettes. 
    For at opfylde disse krav skal du have systemer på plads til: at sortere, klassificere og overvåge ustrukturerede persondata. 

    AI og machine learning til håndtering af ustruktureret persondata

    Teknologien er nødt til at følge med den stigende efterspørgsel til håndtering af ustruktureret data. Vores dataopdagelsesværktøj, DataMapper, er ideelt til håndtering af både struktureret og ustruktureret data med fokus på privatliv for persondata og overholdelse af GDPR. DataMapper bruger AI og machine learning til at identificere struktureret persondata og ustruktureret persondata i de lokationer, som SMVer ofte gemmer det i: 
    • Lokal drev 
    • Netværksdrev (Windows Fileshare) 
    •  Dropbox 
    • Google Drive 
    • Microsoft Exchange 
    • Google Mail 
    • IMAP 
    • Microsoft Outlook 
    • Microsoft SharePoint 
    • Microsoft OneDrive 
    • Azure Blob drev 

    Øvrige cloudbaserede integrationer, såsom Amazon, SAP, etc. Kan tilføjes i din DataMapper ved at rette henvendelse til os.  

    Sebastian Allerelli

    Specialist i Ledelse, Risiko og GDPR