Skip to main content

AIM III - del 1: Vores nye motor

Vi har skabt en ny kunstig intelligens og behandlingsmotor, nemlig AIM III

AIM III vil blive implementeret i DataMapper for at gøre løsningen hurtigere og mere kraftfuldt end nogensinde. I fremtiden kan man også forvente at se AIM III introduceret i resten af vores løsninger.

I denne første del ud af to, vil vi afsløre hvilke udfordringer der ledte op til nye motor, og hvad den nye behandlingsmotor specifikt gør for DataMapper. I del 2 af denne serie vil vi redegøre for den AI-motor der sidder i AIM III.

Hvorfor havde DataMapper brug for en ny motor?

DataMapper er et automatiseret data discovery-værktøj, der finder, klassificerer og overvåger personlige og følsomme oplysninger på tværs af alle virksomhedens lagersteder og e-mails; markering af data, der udgør en potentiel risiko. For at scanne alle disse data fra flere datakilder hurtigt, udviklede vi en motor med avancerede databehandlingsfunktioner. DataMapper havde brug for en behandlingsmotor, der ville gøre det muligt for virksomheder at:

  • Scan deres e-mail og datalokationer for dokumenter og billeder med de højest mulige sikkerhedsforanstaltninger.
  • Få hurtige og ensartede resultater.

Derudover ønskede vi at:

  • Holde DataMapper omkostningseffektiv.
  • Forberede brugere på en multi tenant-arkitektur – dvs. gem data i en kundes egen tenant.
  • Skalere DataMapper med en global infrastruktur.
  • Skab en arkitektur, som vi kunne overføre til resten af vores produktportefølje i fremtiden; en, der kunne håndtere uendelige individuelle brugerscanninger på samme tid og i hele verden.

Vil du have den seneste viden om at håndtere persondata?

Skriv dig op til vores nyhedsbrev her

    Sådan byggede vi motoren

    AIM III blev udtænkt af Razvan Ursachi, Andy Bosyi og resten af Safe Online-teamet med råd fra det danske Alexandra Institut.

    Det er en hændelsesdrevet arkitektur, der gør det nemt at analysere adfærden for behandlingsflows over tid og automatisk skalere, når det er nødvendigt.

    Vi brugte Apache Airflow til dataorganisering. Apache Airflow er et open source-værktøj til at oprette, planlægge og overvåge arbejdsgange. Det er en af de mest robuste platforme, der bruges af dataingeniører til at orkestrere arbejdsgange eller pipelines. Det lader os nemt visualisere vores datapipelines samt deres fremskridt, logfil, kode, trigger og status.

    Vi ændrede luftstrømsudførelsen fra lokal til Celery for at tilføje skalerbarhed, multiprocessing osv. Celery er en asynkron opgavekø eller jobkø med åben kildekode, som er baseret på distribuerede beskeder, der videregiver operationer i realtid. Når der behandles store mængder data, skalerer vi systemet ved automatisk at allokere flere ressourcer, når det er nødvendigt.

    Vi kombinerede disse elementer med en hændelses-dispatcher udløst af Azure Event Hubs (AEH). AEH blev valgt, fordi det er enkelt, pålideligt og skalerbart og lader os streame millioner af hændelser i sekundet fra enhver kilde for at bygge en dynamisk datapipeline, som kunne reagere med det samme.

    Alle AI-processer skaleres automatisk, drevet af et Kubernetes-miljø. Kubernetes er et open source container-organisationssystem til automatisering af computerapplikationsimplementering, skalering og administration. Kubernetes blev oprindeligt designet af Google.

    Som database bruger vi Azure Cosmos. Cosmos DB er en fuldt administreret NoSQL-database til moderne app-udvikling. Den leverer encifrede millisekundsvartider, samt dens automatiske og øjeblikkelige skalerbarhed garanterer hastighed uanset virksomhedsstørrelse og sikkerhedstype.

    Derefter udviklede vi et Service Integration Module (SIM). Serviceintegrationsmodulet var nødvendigt for at tilpasse DataMapper og vores andre tjenester til tredjeparts-connectors såsom Outlook, SharePoint, OneDrive, Amazon S3, Google Drive, Salesforce, HubSpot osv. for at kunne hente filstrukturer og filer.

    Vi har implementeret vores egen AI i Kubernetes, baseret på vores eget datasæt, Archii’s AI, SpaCy og Azure Cognitive Service.

    Vi kan nu nemt tilføje yderligere AI-tjenester som Microsoft Information Protection, Google DLP, StoredIQ by IBM og andre for at sikre skalerbarhed og det bedste i racen.

    Den nye arkitektur giver os mulighed for at skalere og automatisere alle processer under onboarding for nye kunder i DataMapper.

    Fordele for vores brugere

    Den nye AIM III motor giver følgende forbedringer i DataMapper:

    Mange brugere kan simultant scanne og få resultater

    Vi kan nu administrere belastninger samt båndbredder og prioriteringe mellem kunder

    Systemet kan adminsitrere sig selv automatisk uden menneskelig indblanding

    Konfigurationer som ressourceallokering og sikkerhed kan lettere håndteres af brugeren

    Efter at en bruger har scannet deres datalokationer med DataMapper, kan brugeren nu se følgende detaljer om de følsomme fil, der er fundet fundet:

    Meta data: Filens lokation, filens type, titet, etc.

    Risikable fund (højrisiko-tal, dokument-kategori, højrisiko-nøgleord, risiko-navne)

    Fremhævede placeringer for eventuelle risikodata i hvert dokument

    Prøv DataMapper selv, og oplev selv hvor hurtigt det er nu at samle alle jeres virksomheds følsomme data fra flere lagersteder, organisere dem og derefter overvåge dem fra ét dashboard.

    Lær mere og få en prøveversion af DataMapper gratis →

    Sebastian Allerelli

    Specialist i Ledelse, Risiko og GDPR