I mai 2023 leverte en Manhattan-advokat et føderalt prosesskriv som siterte seks rettsavgjørelser. Ingen av dem fantes. ChatGPT hadde generert dem. Dommeren beskrev innleveringen som «sludder» og «oppspinn».[3] Mata v. Avianca ble den mest siterte saken når man diskuterer AI i juridisk arbeid; ikke for det den sa om jusen, men for det den sa om hvordan AI ble tatt i bruk.
Åtte måneder senere publiserte Stanfords RegLab og HAI den første store empiriske studien av juridiske hallusinasjonsrater i store LLM-er.[1] Funnene, oppsummert i overskriften hos Stanford HAI[2], var skarpere enn det meste av juridisk-tech-pressen hadde innrømmet: 58 % hallusinasjonsrate på GPT-4 for verifiserbare juridiske spørsmål om føderale saker, 88 % på Llama 2, med rater som steg jo mer komplekse spørringene ble.
Det finnes to lite produktive måter å reagere på de tallene på. Den første er å forby AI i juridisk arbeid fullstendig, noe som ignorerer kostnadsbesparelsene AI faktisk gir på oppgaver med lavere innsats. Den andre er å hevde at problemet vil bli løst i neste modellversjon, noe som har vært hevdet uavbrutt siden GPT-3.
Den produktive måten er å behandle hallusinasjoner som en strukturell egenskap ved LLM-er, og bygge juridiske pipelines som absorberer dem. Denne artikkelen viser hvordan det ser ut.
Hva hallusinasjoner faktisk er
En stor språkmodell genererer plausible fortsettelser av en prompt. Den har ingen forestilling om sannhet, ingen intern database med verifiserte fakta å sjekke mot, og ingen pålitelig måte å vite hva den ikke vet. Når den får spørsmål om en føderal sak, vil den produsere tekst som ser ut som en saksbeskrivelse, uansett om saken finnes eller ikke. Resultatet er et statistisk produkt av treningsfordelingen, ikke et oppslag i en kunnskapsbase.
Dette gjør feilen systematisk, ikke leilighetsvis. Juridisk arbeid er særlig utsatt fordi:
- Sitater er tette og spesifikke. Saksnavn, tidsskriftvolum, sidetall, parentetiske beskrivelser. Modellen kan produsere alt på korrekt form, mens hvert enkelt element er oppspunnet.
- Det høres rimelig ut, har ingenting med korrekthet å gjøre. En oppspunnet sak kan lyde mer «rimelig» enn en ekte. Det finnes ikke noe nyttig overflate-signal.
- Verifisering er dyrt. Å sjekke sitater manuelt tar omtrent like lang tid som å skrive prosesskrivet selv, og spiser opp produktivitetsgevinsten som var hele poenget med å bruke modellen.
Hva Stanford-studien faktisk målte
Dahl, Magesh, Suzgun og Ho satte sammen et evalueringssett av verifiserbare juridiske spørsmål, og testet GPT-3.5, GPT-4, PaLM 2 og Llama 2 mot fasit fra autoritative juridiske databaser.[1]
Tre funn nådde langt utover artikkelen:
- Hallusinasjonsratene var høye for verifiserbare, veldefinerte spørsmål om tilfeldige føderale saker. Hovedtallene var 58 % for GPT-4, 70 % for ChatGPT 3.5, 72 % for PaLM 2 og 88 % for Llama 2.
- Kompleksitet ga oftere svikt. Spørsmål som krevde resonnement om presedensforhold, dissenser eller avgjørelser om spesifikke spørsmål, feilet oftere enn enkle faktaoppslag.
- Modeller leverte feil svar med selvsikkerhet. Selvtillit er ikke et signal om korrekthet, og å spørre modellen «er du sikker?» korrigerte ikke feilene på en pålitelig måte.
Stanfords oppfølger fra 2024 gikk videre og testet juridisk-spesifikke RAG-produkter fra de store juridisk-tech-leverandørene.[5] Selv disse produktene, som kombinerer LLM-er med oppslag mot kuraterte juridiske databaser, hallusinerte på 17-33 % av spørringene. Påstanden om at «RAG fikser hallusinasjoner», som dominerte juridisk-AI-markedsføringen i 2023, overlevde ikke den empiriske testen.
Hvor RAG faktisk hjelper
Retrieval-augmented generation, formalisert i Lewis m.fl. sin NeurIPS 2020-artikkel[4], fungerer ved å hente relevante avsnitt fra en kunnskapsbase ved inferenstidspunktet, og betinge modellens generering på de avsnittene. For juridisk arbeid er kunnskapsbasen som regel et korpus av rettsavgjørelser, lover, forskrifter eller interne presedenser.
Gjort riktig gir RAG tre fordeler:
- Sitater peker til hentede kilder. Hvis modellen er betinget på hentede avsnitt, er det større sjanse for at sitatet refererer til et reelt dokument. Stanford-studien fra 2024 fant fortsatt at dette ikke er en garanti, men raten er mye lavere enn for modeller med åpen prompt.
- Oppdateringer uten retrening. Å legge til en ny sak eller lov i kunnskapsbasen krever ikke at modellen retrenes.
- Sporbare sitater. Systemet kan vise brukeren hvilket hentet avsnitt som lå bak hver påstand, og det er grunnlaget for verifiserbare arbeidsflyter.
Slik RAG svikter:
- Retrieveren returnerer irrelevante avsnitt, og modellen skriver rundt dem.
- Retrieveren returnerer relevante avsnitt, men modellen omskriver dem feil.
- Retrieveren returnerer ingenting, og modellen fyller gapet med selvsikkert oppspinn.
- Modellen behandler hentede avsnitt som forslag i stedet for begrensninger.
Å bygge rundt disse feilmønstrene er det som skiller en seriøs juridisk-AI-utrulling fra en innpakning rundt ChatGPT.
Hva «verifiserbar pipeline» faktisk betyr
En juridisk-AI-pipeline som tar hallusinasjoner på alvor, har et lite antall ikke-forhandlingsbare egenskaper. Mønsteret går igjen hos de kompetente leverandørene, og er stort sett fraværende hos resten.
Sitater må kunne sjekkes maskinelt
Hver sitert kilde i modellens utdata skal kunne slås opp i en kjent database (Westlaw, Lexis, EUR-Lex, norske Lovdata eller den aktuelle domstolens saksregister) på genereringstidspunktet. Kontrollen skal være automatisk, ikke manuell. Lar et sitat seg ikke slå opp, må systemet flagge eller fjerne det; det skal ikke slippe gjennom.
Dette krever at modellen leverer sitater i et strukturert format ettersjekkeren kan tolke. «Mata v. Avianca, 678 F. Supp. 3d 443 (S.D.N.Y. 2023)» bør sendes ut som et typet objekt, ikke som fri tekst blandet inn i prosa.
Hentede avsnitt må være synlige for brukeren
Brukeren som leser modellens utdata, skal kunne se selve avsnittet fra kunnskapsbasen som støtter hver påstand. Ikke bare saksnavnet. Selve avsnittsteksten, med sitatet. Hover, sidebar eller fotnote-lignende lenker er alle gode UI-valg. Å utelate det underliggende avsnittet, er det ikke.
Grunnen er feilmønsteret der hentingen er korrekt, men omskrivingen er feil. Brukeren må kunne sammenligne modellens påstand med den hentede teksten uten å forlate arbeidsflyten.
Selvtillit og usikkerhet må vises ærlig
En modell som er usikker, bør si det. En modell som ikke finner relevant kilde, bør si det, ikke finne opp noe. Kalibrering av modellens selvtillit er fortsatt et åpent forskningsspørsmål, men gulvet er at systemet ikke skal presentere usikre utdata med samme visuelle vekt som godt underbygde. UI-signaler (nedtonet tekst, merket «lav selvtillit», skille mellom «syntetisert» og «sitert» tekst) gir reell sikkerhetsverdi.
Revisjonssporet må overleve arbeidsflyten
For regulert juridisk arbeid må hele prompten, hentesettet, modellens utdata, resultatet av sitatkontrollen og handlingen ved menneskelig gjennomgang logges og oppbevares. Dette er Sarbanes-Oxley-ekvivalenten for AI-tiden: når noe går galt, må du kunne rekonstruere nøyaktig hva systemet så og hva det bestemte. Det er også her den juridisk-AI-leverandørens holdning til konfidensialitet for klientdata blir satt på prøve.
Menneske i sløyfen, ikke ved siden av sløyfen
Datatilsynets sandkasse-rapporter for PrevBOT og Doorkeeper gjelder direkte her: «det er et menneske i sløyfen» uten spesifikasjoner er tom påstand. For juridisk AI er det disse spesifikasjonene som teller: hvilke utdata krever gjennomgang (standard: alle utdata med sitater), hva gjennomgåeren skal verifisere (slår sitatet opp, samsvarer påstanden med det hentede avsnittet), hvilken opplæring gjennomgåerne har, og hva de forventes å gjøre når AI-en tar feil.
En arbeidsarkitektur
En utrullingsbar arkitektur for juridisk AI på regulerte dokumenter, som tar det over på alvor, ender ofte opp med samme form. Vi har sett varianter av den hos kompetente juridisk-AI-leverandører, i interne utrullinger ved advokatfirmaer, og i de offentlige rapportene fra tilsyn.
- Dokumentinntak, med PII-sladding av identifiserende detaljer som ikke er juridisk relevante, kjørt på klientsiden eller i et suverent miljø.
- Oppslag mot et kuratert juridisk korpus (rettsavgjørelser for jurisdiksjonen, lover, forskrifter, interne presedenser).
- LLM-generering betinget på de hentede avsnittene, med en prompt som eksplisitt sier at modellen skal forankre hver påstand i et avsnitt, og avstå hvis ingen relevante avsnitt finnes.
- Sitatvalidering i etterkant, mot kildekorpus og eksterne sitatdatabaser. Uverifiserte sitater flagges eller fjernes.
- Kildehenvisning synliggjort i UI, slik at advokaten som leser utdataen, ser det støttende avsnittet ved siden av hver påstand.
- Menneskelig gjennomgang med eksplisitte verifiseringssteg for hver utdata som inneholder sitater.
- Revisjonslogg av prompt-, hente-, generering-, validerings- og gjennomgangstrinn.
Dette er mer arbeid enn å pakke ChatGPT inn i en egen prompt. Det er arbeidet sanksjonene i Mata v. Avianca, Stanford-studiene og bølgen av domstolspålegg fra 2023 og utover som krever åpenhet om AI-bruk, alle peker mot.
Hva advokater faktisk bør spørre leverandører om
Listen over spørsmål som skiller ærlige juridisk-AI-leverandører fra resten, er kort.
- Hvilken hallusinasjonsrate måler dere, på hvilken benchmark, og hvor ofte revurderer dere? En leverandør som ikke har et tall, vet det ikke.
- Hvordan håndterer dere en sak der modellen produserer et sitat som ikke kan slås opp? Undertrykke, flagge, prøve på nytt? Det ærlige svaret er konkret.
- Hvor vises kildeavsnittet i bruker-UI-et? Det riktige svaret er «ved siden av påstanden som bruker det», ikke «i en sidebar tre klikk unna».
- Hvor oppbevares revisjonsloggen, hvem har tilgang, og hvor lenge?
- Hvilken jurisdiksjonsdekning har hentekorpuset deres? En US-trent juridisk AI brukt på norsk eller EU-rett, vil hallusinere mer, ikke mindre. Dekningsgap må komme tydelig fram.
- Har dere vært uavhengig evaluert? Stanfords RAG-studie fra 2024 er en nyttig baseline. Leverandører bør kunne snakke om sine resultater mot publiserte benchmarks.
Den gode nyheten er at den samtalen, ubehagelig i 2023, er rutine i 2026. Anskaffelser av juridisk AI har modnet raskt under presset fra Mata, Stanford-studiene og den jevne strømmen av domstolspålegg som krever åpenhet. Leverandørene som overlever de neste to årene, blir de som bygde verifiserbare pipelines, ikke de som bygde smarte prompts.
Kilder
- Dahl, Magesh, Suzgun, Ho, Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models, Journal of Legal Analysis (2024) ↩
- Stanford HAI, AI on Trial: Legal Models Hallucinate in 1 out of 6 (or More) Benchmarking Queries ↩
- Mata v. Avianca, Inc., 678 F. Supp. 3d 443 (S.D.N.Y. 2023) ↩
- Lewis m.fl., Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, NeurIPS 2020 ↩
- Magesh m.fl., Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools, Stanford RegLab (2024) ↩