Skip to main content

Bedre søgninger med LLM

Vi er stolte over at kunne meddele, at vi hos Safe Online nu har integreret Azure OpenAIs Large Language Models (LLM) til DataMapper for at sikre avanceret detektering, når der findes følsomme data.

Hvorfor har vi gjort dette?

Ved at kombinere disse nye teknologier, fokuserer vi på at transformere tekst-kontekst til numeriske vektorer (embeddings). Denne teknologi giver mulighed for en nuanceret forståelse af konteksten, der omgiver følsomme numeriske data, såsom dokumentnumre, uden behov for komplet tekstgenerering. Målet var bedre at kunne administrere og gennemsøge omfattende ustrukturerede data for at lokalisere potentielle risiko-tal, der indeholder følsomme oplysninger.

Teknologien bag

Bag den nye tilgang, gemmer der sig en række avancerede teknologier:

  • Optical Character Recognition (OCR): Konverterer visuelle dokumenter til tekst ved at bruge værktøjer som Textract, NLTK, spacy og Microsoft Azure AI’s OCR.
  • Mønstergenkendelse (RegEx): Anvender regulære udtryk til at identificere og validere specifikke numeriske mønstre, der kan repræsentere følsom information.
  • Kontekstanalyse: Anvender en genfindingsalgoritme svarende til Retrieval Augmented Generation (RAG) for at kunne skelne konteksten omkring risiko-tal, hvilket øger nøjagtigheden af identifikation.
  • Large Language Models (LLM): Anvendelse af Azure OpenAI’s LLM’er til at konvertere tekstmæssige kontekster til indlejringer, med fokus på kontekstuel forståelse snarere end tekstgenerering.
  • Machine Learning: Implementerer maskinlærings-modeller til binære beslutningsprocesser, som optimerer  søge-effektivitet og nedbringer omkostninger ved verificering af risiko-tal.

Betydning for vores kunder

Ved at udnytte denne sofistikerede kombination af OCR, LLM’er, tekstindlejring og maskinlærings-teknikker har DataMapper væsentligt forbedret sin evne til at identificere og administrere følsom information inden for ustrukturerede data. Forbedringen sker for alle vores kunder på tværs af sektorer og nationaliteter. Denne nye teknologi har ikke kun gjort søgeprocessen mere effektiv, men vi har også formået at nedbringe DataMappers driftsomkostninger, hvilket forbedrer dens skalerbarhed og konkurrenceevne.

Andy Bosyi

Lead Data Scientist hos Safe Online ApS og Medstifter af MindCraft.ai

GUIDE

How to handle sensitive personal data

GUIDE

How to find personal data with datamapping tool

GUIDE

How to prepare for a data audit