Hvad er forskellen på struktureret data og ustruktureret data?
Hvad er struktureret data?
Struktureret data er blevet formateret så det passer til en specifik struktur og er let at arbejde med. Det er velorganiseret og følger en pre-defineret datamodel, som kan læses via machine learning algoritmer. Strukturerede data ligger normalt i relationelle databaser, dvs. gemt i tabeller med rækker og kolonner, der er relateret til hinanden.
Eksempler på struktureret data
Data, der opbevares I større databaser (MySQL, Oracle m.v.), lagerstyringssystemer, weblogstatistik og POS data, flyselskabers bookingsystemer, bankers transaktionelle systemer, CRM-systemer, bogholderi og regnskabssystemer, stregkoder og mange andre.
- Tab-Separated Value files (tsv)
- Comma-Separated Value files (csv)
Herudover er der semi-struktureret data format eksempler:
- JavaScript Object Notation (JSON)
- Arvo
- Optimized Row Columnar (ORC)
- Apache Parquet
- XML
Start GDPR-oprydningen hvor det trænger mest
Følsomme data kan let ophobe sig i medarbejdernes mails. Med et GDPR Risiko-scan fra DataMapper får I en rapport, der viser potentielle GDPR-risici i virksomhedens Outlook-konti.
Fordele ved struktureret data
- Let at søge og tilgå med definerede machine learning (ML) algoritmer
- Let at spore og forstå udfaldet
- Kræver mindre behandling og er lettere at håndtere
Ulemper ved struktureret data
- Mindre fleksibelt da strukturen er pre-defineret og ikke kan rykkes ved
- Det tager flere tid og ressourcer at ændre og opdatere formatet
Hvad er ustruktureret data?
Omtrent 80-90% af hele verdens data er ustruktureret. Denne type data eksisterer ofte i sin rå form samt, at den er uregelmæssig og uorganiseret. Dataen kan ikke processeres og analyseres via konventionelle værktøjer og metoder. Ydermere kommer ustruktureret data I langt flere formater end struktureret data gør.
Eksempler på ustruktureret data
Typiske eksempler på ustruktureret data er listet herefter. Der vil sandsynligvis være enkelte, som du godt kender af navn – men ikke har overvejet, at det hører ind under ustruktureret data. Det drejer sig om: Emails, chats, fakturaer, registreringer af varierende art, præsentationer, rapporter – der indeholder data i form af tekst, tal, lyd, billeder eller video. Det kunne være:
Email: Eml, msg, emlx, dbx, and wab
Præsentationer: ppt, keynote, gslides, or ppz
Ren tekst: text or txt
Komprimerede filer: 7z, zip, rar, rar5
Tekst kolonner: csv or tsv
Regneark: xls, xlsx, numbers, cal, and ots*
Lydfiler: mp3, mp4a, wma, ram, aac
Video filer: mpeg, mpg, h263, h264, 3gp, wmv
Billedfiler: jpeg, png, bmp, tiff
Design: model, stl, iges, art, 3dxml, psmodel
Udgivelser: pdf, pub, xfdf, ave
Krypto-nøgler og certifikater: crt, pem, pkipath, etc.
Desktop files: pdf, pub, xfdf, ave, etc.
Database filer: 4db, adt, box, kexic, contact, pdb
Binære filer: gsf, hex, exe, or bpk
Mark-up tekst: html, xhtml, markdown
Maskinlæsbar data: avro, parquet, xml, dtd, or xsd (semi-structured)
Maskingenereret medicinsk data: dicom and hl7
Kildekoder: a2w, amw, androidproj, awd, axb, bufferedimage, eller buildpath
Vil du vide mere om ustruktureret data?
I vores nyhedsbrev du får tips og tricks til hvordan du lettere kan håndtere GDPR fra vores grundlægger Sebastian Allerelli.
Når du tilmelder dig vores nyhedsbrev, får du samtidig en gratis licens for én bruger til ShareSimple, som giver dig en e-mail i Outlook. Dette særlige tilbud er kun for nye kunder, med en grænse på én licens pr. virksomhed.
Fordele ved ustruktureret data
- Det er mere tilpasningsdygtigt
- Det kan indsamles hurtigt og nemt
- Det er billigt og let at opbevare i større mængder
Ulemper ved ustruktureret data
- Det er mere tilpasningsdygtigt
- Det kan indsamles hurtigt og nemt
- Det er billigt og let at opbevare i større mængder
- Manglende synlighed
- Svært at gennemskue hvordan det bruges og beskyttes bedst
- Datastyringsværktøjer er nødvendige for at manipulere med ustrukturerede data
Ustruktureret data i praksis
- Manglende synlighed ved søgning
- Stor volumen
- Uorganiseret
Ustruktureret personlig data og GDPR
En nemmere måde at håndtere ustrukturerede data
Sebastian Allerelli
Grundlægger & COO hos Safe Online
Specialist i Ledelse, Risiko og GDPR