Den dyreste feilen i dokumentpersonvern er å behandle «sladdet» og «anonymt» som synonymer. Det er de ikke. Rettslig ligger de på hver sin side av en linje som avgjør om GDPR fortsatt gjelder for filen. Teknisk ligger de på hver sin side av en mer interessant linje, en som personvernforskningen har kartlagt gjennom to tiår. Denne artikkelen går gjennom det kartet.

Målgruppen er de som allerede har den rettslige rammen inne og vil ha det tekniske bildet: dataforskere, ML-ingeniører, personvernombud med statistikkbakgrunn, og arkitektene bak sladde-pipelines som må gjøre mer enn å hake av en sjekkliste.

Referansehendelsen

I 2000 publiserte Latanya Sweeney en kort artikkel ved Carnegie Mellon som har kastet en lang skygge over dataanonymisering. Ved hjelp av folketellingsdata fra USA fra 1990 viste hun at 87 % av USAs befolkning kunne identifiseres unikt ut fra kombinasjonen av 5-sifret postnummer, kjønn og full fødselsdato.^[1] En oppfølger fra Golle i 2006, med 2000-tallets folketellingsdata og en metodisk forfining, satte tallet nærmere 63 %, noe som fortsatt er høyt for det de fleste data-utgivere ville kalt «anonymisert demografi».

Poenget med Sweeney-resultatet var ikke det eksakte prosenttallet. Det var den strukturelle innsikten: identifikatorer er ikke bare det vi merker som identifikatorer. Kombinasjoner av uskyldige felt kan identifisere unikt. Anonymiseringsforskningen har brukt årene siden på å formalisere den innsikten i et sett definisjoner, der hver retter opp svakheter i den forrige.

k-anonymitet: den første formelle definisjonen

Sweeneys artikkel fra 2002 introduserte k-anonymitet.^[3] Et datasett er k-anonymt med hensyn til et sett kvasi-identifikatorer hvis hver oppføring ikke kan skilles fra minst k-1 andre oppføringer på de kvasi-identifikatorene. Konkret: er kvasi-identifikatorene , har et 5-anonymt datasett minst fem oppføringer som deler hver kombinasjon av postnummer, aldersgruppe og kjønn som forekommer.

Intuisjonen er enkel: en motstander som kjenner målets kvasi-identifikatorer, kan snevre målet inn til en gruppe på minst k oppføringer som ikke kan skilles fra hverandre. Jo større k, desto svakere blir slutningen.

k-anonymitet oppnås gjennom generalisering (videre aldersgrupper, kortere postnumre) og undertrykking (å fjerne uteliggere). Kostnaden er tap av analytisk oppløsning. Fordelen er en egenskap man kan bevise at hvert publiserte datasett oppfyller.

Hvor k-anonymitet feiler

To angrep undergravde påstanden om at k-anonymitet var tilstrekkelig.

For det første: homogenitetsangrepet. Hvis alle k oppføringene i en uskillbar gruppe deler et sensitivt attributt, lærer motstanderen det attributtet uansett hvilken oppføring som er målet. Fem oppføringer som alle står med «HIV-positiv», forteller motstanderen at målet er HIV-positivt, selv om vedkommende ikke vet hvilken rad det er.

For det andre: bakgrunnskunnskapsangrepet. En motstander med tilleggsinformasjon kan utelukke verdier i en gruppe. Har en 5-gruppe fire «diabetes»-oppføringer og én «tuberkulose»-oppføring, og motstanderen vet at målet ikke har diabetes, kollapser identifiseringen til én enkelt oppføring.

l-diversitet: gjøre de sensitive verdiene heterogene

Machanavajjhala m.fl. foreslo l-diversitet i 2007 for å løse homogenitetsangrepet.^[4] Et datasett er l-divers hvis hver k-anonyme gruppe har minst l godt representerte verdier for hvert sensitive attributt. Ulike definisjoner av «godt representert» gir ulike varianter (distinkt l-diversitet, entropi-l-diversitet, rekursiv (c, l)-diversitet).

l-diversitet er sterkere enn k-anonymitet. Den er også vanskeligere å oppnå uten å miste nytte, og semantikken avhenger av hva som regnes som et sensitivt attributt, og det er kontekstspesifikt.

Hvor l-diversitet også feiler

l-diversitet kontrollerer ikke hvor like de diverse verdiene er hverandre. En 5-gruppe med fem diabetesrelaterte diagnoser er l-divers etter distinkt antall, men motstanderen får likevel vite at målet har en diabetesrelatert diagnose. Skjevhetsangrepet utnytter dette: har den samlede befolkningen 1 % prevalens av en tilstand, mens målets gruppe har 100 %, lærer motstanderen at målet har den tilstanden, selv uten å plukke ut raden.

t-nærhet: tilnærme fordelingen i befolkningen

Li m.fl. foreslo t-nærhet i 2007 som en forfining.^[5] En k-anonym gruppe har t-nærhet hvis fordelingen av sensitive attributtverdier i gruppen ligger innenfor avstand t fra fordelingen i den samlede befolkningen, målt med en valgt avstandsmetrikk (Earth Mover's Distance er standarden).

t-nærhet er den sterkeste av de syntaktiske anonymiseringsdefinisjonene. Den løser skjevhetsangrepet direkte. Kostnaden er alvorlig tap av nytte for sterkt skjeve sensitive attributter, som de fleste interessante attributter faktisk er.

Det strukturelle problemet med syntaktiske definisjoner

k-anonymitet, l-diversitet og t-nærhet deler en felles form: de definerer hvordan et publisert datasett må se ut, og antar at motstanderens bakgrunnskunnskap er begrenset til det data-utgiveren forutser. Ekte motstandere respekterer ikke de antakelsene. Nye supplerende datasett blir tilgjengelige, nye koblingsteknikker dukker opp, og utgiverens trusselbilde går ut på dato.

Nature Communications-artikkelen fra 2019 av Rocher, Hendrickx og de Montjoye viste dette konkret.^[2] De bygde en generativ modell som med 99,98 % treffsikkerhet kunne anslå om en oppføring tilhørte et bestemt mål, basert på 15 demografiske attributter, selv i et sterkt utvalgsbasert datasett. Konsekvensen: standard syntaktisk anonymisering, selv kompetent utført, lar fortsatt rom for re-identifisering med moderne teknikker.

Differensiell personvern: en annen form

Differensiell personvern, formalisert av Dwork og kolleger fra 2006 og samlet i Dwork og Roths lærebok fra 2014^[6], tar en fundamentalt annerledes tilnærming. I stedet for å definere en egenskap ved datasettet som gis ut, definerer den en egenskap ved publiseringsmekanismen.

En randomisert algoritme er ε-differensielt privat hvis sannsynligheten for ethvert utfall av algoritmen endrer seg med høyst en faktor exp(ε) når to datasett skiller seg på én enkelt oppføring. ε-parameteren kvantifiserer personvernbudsjettet; lavere ε betyr sterkere personvern.

Den strukturelle fordelen er komponerbarhet. Bruker to analyser henholdsvis ε₁ og ε₂ av budsjettet, bruker kombinasjonen høyst ε₁ + ε₂. Motstanderens bakgrunnskunnskap er ikke en fri variabel; garantien holder mot enhver motstander. Personvernpåstanden lar seg revidere på en måte de syntaktiske definisjonene ikke gjør.

Den strukturelle kostnaden er nytte. For å oppnå sterkt personvern på finmaskede spørringer må du legge til nok støy til å drukne signalet. Aggregert statistikk og mange treningsscenarier i maskinlæring tåler dette godt. Sladding på dokumentnivå gjør det ikke; differensiell personvern er ikke det riktige verktøyet for «sladd denne PDF-en og lever den tilbake uendret».

Hvor hvert verktøy passer i en dokument-pipeline

For en sladde-pipeline som arbeider på dokumenter som skal deles med bestemte mottakere, endrer regnestykket seg etter brukstilfelle.

Brukstilfelle: regulatorisk utlevering

Dokumenter går til et tilsyn, en domstol, eller en bestemt navngitt tredjepart etter avtale. Trusselbildet er veldefinert: mottakeren er kjent og bundet. Pseudonymisering ved nøye sladding av direkte identifikatorer og kvasi-identifikatorer, sammen med avtalefestede begrensninger på re-identifiseringsforsøk, er som regel tilstrekkelig. GDPR behandler resultatet som personopplysninger, og det er greit. Mottakeren har behandlingsgrunnlag til å motta det.

Brukstilfelle: offentlig utgivelse av sladdet dokument

Dokumenter går til allmennheten (innsyn, rettsdokumenter, journalistikk). Trusselbildet er ubegrenset. WP216 sin test med tre kriterier (utskilling, kobling, slutninger)^[7] gjelder, og de fleste pipelines består den ikke for ikke-trivielle dokumenter. De ærlige valgene er: gi ut dokumentet med den rettslige forutsetningen at det er pseudonymiserte personopplysninger og at GDPR fortsatt gjelder, eller la være å gi det ut.

Fristelsen her er å oversladde. Å erstatte hver potensielt kvasi-identifiserende frase gir et lite informativt dokument, og oppnår fortsatt ikke formell anonymisering. Det strukturelle problemet er det samme som med k-anonymitet: du gjetter på motstanderens bakgrunnskunnskap.

Brukstilfelle: treningsdata for AI

Du vil trene eller finjustere en modell på dokumenter som inneholder personopplysninger, uten å beholde informasjon på individnivå i modellen. Differensiell personvern er det riktige rammeverket her: tren med en differensielt privat optimerer (DP-SGD), godta nyttekostnaden, og publiser en modell med en kvantifisert ε.

Dette er mønsteret de store modell-leverandørene bruker når de gjør offentlige uttalelser om personvern i treningsdata. Grunnen til at det fortsatt er sjeldent i praksis, er at DP-trening er tregere, mer minnekrevende, og gir modeller som ligger etter de ikke-private variantene på benchmark. For sensitive dokumentkorpora er avveiningen ofte verdt det.

Brukstilfelle: statistisk analyse av dokumentkorpora

Du vil publisere tellinger, fordelinger eller aggregerte mål utledet fra et sensitivt korpus, uten å gi ut selve dokumentene. Bruk differensiell personvern på det som publiseres. Dette gjorde det amerikanske folketellingsbyrået med folketellingen i 2020, og det er det mange akademiske statistikkbyråer nå gjør for arbeid med sensitive populasjonsdata.

En pipeline-arkitektur som tar begge linjer på alvor

En dokument-AI-pipeline som tar de tekniske og rettslige linjene på alvor, har som regel følgende form:

Sladding av direkte identifikatorer i hvert dokument, kjørt automatisk gjennom et NER-trinn med høy presisjon, med en saksbehandler som tar funn med lav konfidens.
Gjennomgang av kvasi-identifikatorer, dokument for dokument, med et definert trusselbilde: hvem skal se dette, med hvilken sideinformasjon, og under hvilke avtalefestede begrensninger.
Separasjon av usladdet kilde fra sladdet utdata, i tråd med EDPBs konsept fra 2025 om pseudonymiseringsdomenet.
Differensiell personvern brukt på all aggregert statistikk utledet fra korpuset.
Ingen påstand om anonymisering for enkeltdokumenter som gis ut til allmennheten, med mindre WP216 sin test med tre kriterier faktisk er kjørt og bestått.

Det femte punktet er der de fleste pipelines feiler. Å si «anonymisert» fordi navnene er fjernet, er den feilen litteraturen har dokumentert i tjuefem år.

En kort leseliste

For alle som bygger en sladde-pipeline og vil forstå den tekniske linjen:

Sweeney 2000 for den strukturelle innsikten om kvasi-identifikatorer.^[1]
Sweeney 2002 for k-anonymitet.^[3]
Machanavajjhala m.fl. 2007 for l-diversitet.^[4]
Li m.fl. 2007 for t-nærhet.^[5]
Dwork og Roth 2014 for differensiell personvern.^[6]
Rocher m.fl. 2019 for hvordan moderne re-identifisering ser ut i praksis.^[2]

Lest i rekkefølge tegner de en bue fra en optimistisk syntaktisk forestilling til en sannsynlighetsgaranti med streng semantikk. Det riktige verktøyet for et gitt problem er sjelden «alle sammen»; det er ett eller to, valgt bevisst, mot et trusselbilde som er skrevet ned.

Den avsluttende observasjonen er den samme som Sweeneys artikkel fra 2000 endte på, og den har bare blitt tyngre med årene: folk er enklere å identifisere enn vi tror, og det riktige svaret er å designe systemet ut fra den antakelsen.

Når sladding blir anonymisering, og når den ikke gjør det