Det første du bør vite om «HIPAA-klar AI», er at det ikke finnes noe slikt som et HIPAA-sertifisert produkt. HIPAA sertifiserer ikke programvare. Det setter standarder som dekkede virksomheter (covered entities) og deres forretningspartnere må oppfylle. Om et AI-verktøy hjelper dem å nå disse standardene eller stille bringer dem i brudd, avhenger av spørsmål som ikke har noe med markedsføringsteksten å gjøre.

Denne artikkelen er for kjøpere innen helseteknologi, interne etterlevelsesteam og leverandører som vil kalle seg «HIPAA-klare» uten å bløffe. Vi går gjennom hva Privacy Rule og Security Rule faktisk krever når AI berører beskyttet helseinformasjon, de to veiene til anonymisering, når Business Associate Agreements får betydning, og hvilke utrullingsmønstre som holder.

De to dørene ut av HIPAA

HIPAA gjelder for beskyttet helseinformasjon (PHI) som dekkede virksomheter (sykehus, helseforsikringer, oppgjørssentraler) og deres forretningspartnere håndterer. Det vanligste strategiske grepet når man bygger AI oppå helsedata, er å komme seg utenfor forordningen ved å anonymisere dataene. Det finnes nøyaktig to regulatoriske veier til den utgangen, begge definert i 45 CFR § 164.514.^[2]

Safe Harbor

Safe Harbor er sjekklistemetoden.^[1] Fjern alle 18 spesifikt opplistede identifikatorer fra journalen, og ha ingen faktisk kjennskap til at de gjenværende dataene kan re-identifiseres av en forventet mottaker. De 18 identifikatorene er konkrete: navn, geografisk underinndeling mindre enn delstat, alle datoelementer mer detaljerte enn år, telefon, faks, e-post, personnummer, journalnummer, helseforsikringsnummer, kontonummer, sertifikat- eller lisensnummer, kjøretøyidentifikator, enhetsidentifikator, nettadresse, IP-adresse, biometrisk identifikator (fingeravtrykk, stemmeprøve), ansiktsfoto i full størrelse, og enhver annen unik identifiserende kode.

Styrkene ved Safe Harbor: deterministisk, reviderbar, rask å integrere i en sladdeprosess. Svakheten: den er et grovt verktøy. Å fjerne postnummer under delstatsnivå kan ødelegge nytten av dataene for f.eks. regional folkehelseanalyse. Datoer ut over år trengs rutinemessig for overlevelsesanalyse. Safe Harbor er riktig metode for utleveringer i stort volum og med lav kontekst (forskningsdatasett, logger som er tilgjengelige for leverandører, AI-treningssett der geografi er underordnet). For analytiske bruksområder som krever finkornede data, er den ofte for grov.

Expert Determination

Expert Determination er den risikobaserte metoden.^[2] En kvalifisert statistiker eller forsker analyserer det aktuelle datasettet, de aktuelle forventede mottakerne og det rimelig tilgjengelige eksterne datamaterialet de mottakerne kan nå, og konkluderer med at risikoen for re-identifisering er «svært liten». Eksperten dokumenterer metoden og konklusjonen. Den dekkede virksomheten oppbevarer denne dokumentasjonen, helst med årlig gjennomgang.

Expert Determination er riktig metode for data som krever analytisk presisjon, særlig alt som brukes til å trene eller evaluere AI-modeller. Godt gjort bevarer den informasjon som Safe Harbor fjerner. Dårlig gjort er den et papir som ikke overlever et tilsyn.

Når AI kommer inn i bildet

Tre utrullingsmønstre dominerer AI-bruken mot helsejournaler. Hver av dem har sin egen etterlevelsesprofil.

Mønster 1: Identifisert PHI inn, sladdet utdata ut

Dette er arbeidsflyten de fleste «HIPAA-klare» AI-sladdeverktøy hevder å støtte: et klinisk notat eller utskrivningssammendrag kommer inn i systemet, en NER-modell finner PHI, en saksbehandler godkjenner sladdingen, og utdataen går videre.

Etterlevelsen er rett fram dersom leverandøren er en forretningspartner. Den dekkede virksomheten trenger en Business Associate Agreement etter 45 CFR § 164.502(e),^[4] BAA-en må inneholde de materielle bestemmelsene HHS har laget eksempelformuleringer for,^[5] og leverandørens miljø må faktisk ha på plass de administrative, fysiske og tekniske sikkerhetstiltakene i Security Rule. § 164.308 sine administrative tiltak alene omfatter risikoanalyse, opplæring av ansatte, sanksjoner, beredskapsplanlegging og jevnlig sikkerhetsevaluering.^[3]

Det hyppigste feilgrepet: en leverandør tilbyr en «gratis prøveperiode» eller et «selvbetjent» nivå som tar imot PHI uten BAA. HIPAA har ingen unntak for små mengder. Den dekkede virksomheten er ansvarlig i det øyeblikket dataene krysser grensen uten en avtale.

Mønster 2: Anonymiserte data for AI-trening og evaluering

Det er her Expert Determination gjør jobben sin. Vil et sykehus bruke journalene sine til å trene eller finjustere en AI-modell, er den reneste veien å kjøre journalene gjennom en anonymiseringspipeline som produserer et datasett eksperten fastslår at har svært liten risiko for re-identifisering, og deretter trene på det datasettet.

Fellene er subtile. Klinisk fritekst inneholder identifikatorer på overraskende steder: en pasient som sier «jeg så dr. Hansen forrige uke på Lillehammer-klinikken» i et transkribert konsultasjonsopptak, kan slå beina under Safe Harbor for hele filen selv om de strukturerte feltene er rene. Generative modeller som trenes på utilstrekkelig anonymiserte data, kan huske og gjengi PHI ordrett, og det er både et brudd på Expert Determination og et separat brudd. Forskningen fra 2024 på treningsdata-uttrekk fra store språkmodeller er den relevante tekniske litteraturen her.

Mønster 3: AI-assistanse på PHI inne i den dekkede virksomheten

Stadig vanligere: et sykehus tar i bruk en generativ assistent for klinikere på identifiserte journaler, uten å sende data ut av den dekkede virksomhetens miljø. Dette er ikke anonymisering; det er å holde PHI innenfor BAA-grensen.

Etterlevelsen her dreier seg om hvorvidt modellleverandøren regnes som en forretningspartner. For on-prem eller VPC-isolerte oppsett der modellen aldri ser data utenfor den dekkede virksomhetens miljø, ofte ikke. For skybaserte modeller med prompts som inneholder PHI, nesten alltid. Det avgjørende spørsmålet er om modellleverandøren kan få tilgang til PHI-en; tilgang krever ikke at et menneske leser den, bare at den tekniske muligheten finnes.

Hvor AI-leverandører bommer

Fire påstander går igjen i leverandørmateriell, og er verdt å flagge.

«HIPAA-samsvar» uten å tilby BAA

En leverandør som behandler PHI uten å tilby en Business Associate Agreement, er ikke HIPAA-samsvarende, punktum. Den dekkede virksomheten kan ikke bruke verktøyet på ekte PHI uten å bryte § 164.502(e). «Samsvar» uten BAA betyr «utformet på en måte som ville vært samsvarende dersom en BAA fantes». Det er en markedsføringspåstand, ikke en regulatorisk status.

«Anonymisert utdata» uten å oppgi metoden

Hvis leverandøren ikke kan fortelle deg om anonymiseringen følger Safe Harbor eller Expert Determination, kan ikke anonymiseringspåstanden revideres. Å spørre hvilken metode, mot hvilken identifikatorliste og med hvilken risikoterskel, er den første etterlevelsestesten for enhver sladdeleverandør.

«Selvhosting betyr automatisk HIPAA»

Selvhosting løser ett spesifikt problem (data ut av huset til leverandøren) og skaper et annet (kunden drifter nå systemet, og må dermed selv stå ansvarlig for alle Security Rule-tiltakene på det oppsettet). Leverandøren er ikke fritatt; kunden får mer å ta ansvar for. Et seriøst selvhostet tilbud leveres med dokumentasjonen, konfigurasjonene og gjennomgangsmateriellet kundens etterlevelsesprogram trenger for å integrere det.

«HIPAA er lik kryptering»

Kryptering er ett teknisk tiltak under § 164.312, og det betyr noe, men det er minimumet. Security Rules administrative tiltak under § 164.308 krever risikoanalyser, opplæring av ansatte, sanksjoner, hendelseshåndtering og beredskapsplanlegging som en «vi bruker AES-256»-påstand overhodet ikke berører.^[3]

En kjøpers etterlevelses-sjekkliste

For virksomheter som vurderer et AI-verktøy for dokumentbehandling som vil berøre PHI, skiller seks spørsmål de seriøse leverandørene fra de markedsføringsdrevne.

Vil dere signere en Business Associate Agreement? Nærmere bestemt: signerer dere kundens BAA, eller leverer dere deres egen, og hva er ikke forhandlingsbart i den?
Hvor behandles og lagres data? Region, tenant-modell, kryptering i hvile og under overføring, og hva skjer etter at behandlingsjobben er ferdig.
Hvilken anonymiseringsmetode bruker dere? Safe Harbor (18 identifikatorer) eller Expert Determination (hvilken ekspert, hvilken metode, sist gjennomgått når)?
Hvordan samhandler modellen deres med dataene under behandling? Trenes det på kundens data, noen gang? Beholdes prompts til noe formål, noen gang?
Hvordan logger dere tilgang? Per bruker, per journal, med tidsstempler, oppbevart i hvor lang tid, og kan loggen eksporteres for revisjon?
Hva er prosessen ved varsling om brudd? Mer presist: hvor raskt, gjennom hvilken kanal og med hvilket detaljnivå.

Svarene trenger ikke være lange. De må være konkrete.

Hva «HIPAA-klar» bør bety

En forsvarlig bruk av uttrykket er: verktøyet er laget for å rulles ut innenfor en dekket virksomhets etterlevelse; det tilbys med en Business Associate Agreement når PHI vil berøre det; det utfører anonymisering med en navngitt, dokumentert metode; og dets sikkerhetsposisjon under Security Rule (administrativ, fysisk, teknisk) er dokumentert på et nivå kundens etterlevelsesprogram kan revidere.

En villedende bruk: enhver variant av uttrykket som mangler noe av det over.

Den gode nyheten for genuint kapable verktøy er at den ærlige versjonen av «HIPAA-klar» også er den beste markedsføringsposisjonen. Helsekjøpere styres i økende grad av etterlevelse og risiko; leverandøren som kan svare konkret på de seks spørsmålene over uten å gardere seg, er den som lander avtalen. De andre kjører forlengede prøveperioder som aldri blir til kontrakter.

HIPAA-klar AI for dokumentbehandling: hva «klar» faktisk betyr