Formidling av legemiddelinformasjon ved hjelp av generativ KI – er det trygt?

Felleskatalogen har testet ut chat-baserte KI-løsninger og funnet at de kan gi svar som inneholder alvorlige feil om legemidler, dosering og bruk.

Publisert 16. januar 2026
Bente Jansen, direktør i Felleskatalogen.

Det forteller Bente Jansen, direktør i Felleskatalogen. I flere innlegg og presentasjoner det siste halvåret har hun delt hvordan kunstig intelligens (KI) gir svar som kan gi alvorlige konsekvenser dersom man følger dem ukritisk. I dag holdt hun innlegg på et webinar i regi av Nasjonalt senter for e-helseforskning.

– Bakgrunnen for at vi har gjort oss noen erfaringer på språkmodeller og generativ KI i Felleskatalogen er at det er flere aktører som ønsker å lage kunnskapschatter med helseinformasjon, og bruke blant annet Felleskatalogens informasjon til å svare på spørsmål om legemidler. For hvordan kan vi vite med sikkerhet at KI er til å stole på når gjelder legemiddelinformasjon?

Hvordan virker generativ KI og språkmodeller?

Ved generativ KI brukes kunstig intelligens i form av språkmodeller som er trent opp med masse informasjon. Språkmodellen trenes til å forutsi neste ord basert på det den har «sett» mange ganger før». Så i praksis er dette statistikk, forteller Jansen.

– Det første som er viktig å være klar over er at språkmodellene har en kunnskapsgrense. Siste versjon av ChatGPT har en kunnskapsgrense fra august 2025, det vil si at alt som har skjedd siden august 2025 har den ikke i sitt treningsmateriale.

Retrieval-augmented generation (RAG) og search-augmented generation løftes frem som lovende metoder for å gjøre oppdaterte fagkilder tilgjengelige for språkmodeller, slik at svarene kan forankres i pålitelig kunnskap.

– Og det er jo i utgangspunktet en god idé. Men så har vi nå testet, og ser at det heller går i motsatt retning. Informasjonen på Felleskatalogen er strukturert i avsnitt, tabeller og punktlister som gir mening til innholdet, og hvis modellene gjør om dette til en flat struktur fører det til et informasjonstap som kan det føre til at den ikke blir forstått, forteller Jansen.

Noen konkrete eksempler på feil svar

– Vi har testet en kunnskapschat hvor Felleskatalogen er en av flere kilder. Vi har stilt den en rekke spørsmål, og fått noen urovekkende svar der den svarer med feil legemiddel eller fiktivt legemiddel, samt fiktiv kildehenvisning. Den blander også doseringsinformasjon fra ulike indikasjoner, og trekker noen egne rare konklusjoner, sier hun.

Illustrasjonsfoto

Mest alvorlig er spørsmål – og ikke minst svar – om dosering. Jansen stiller den blant annet spørsmålet: «Hvor mange mikrogram Evrysdi skal gis til et spedbarn på 6 uker med vekt 3600 gram?».

– Her er det viktig at detaljene blir riktige, og svaret ser først tilsynelatende riktig ut. Problemet er at den oppgir feil dosering. Den har ikke skjønt tabellen på Felleskatalogen.no og gir meg informasjon om dosering for spedbarn fra 2 måneder til 2 år, ikke spedbarn 6 uker.

Medisinsk utstyr?

For eksemplet med Evrysdi gjør også kunnskapschatten en beregning av dose, den fungerer derfor som en medisinsk kalkulator.

Med tanke på at den faktisk gjør beregninger mener Jansen spørsmålet er om kunnskapschatten da defineres som medisinsk utstyr, og faller inn under regulativet om det? Og hva gjelder i forhold til KI-forordningen som kommer nå i 2026? I denne forordningen har man klassifisert ulike KI-løsninger i forhold til hvilken risiko de utøver. Og hvor ligger ansvaret? På leverandørene eller på de som bruker kunnskapschattene?

Føler på et stort ansvar

– Vi i Felleskatalogen føler på et stort ansvar, at hvis noen skal bruke vår informasjon skal den bli brukt på en god måte. Og hvis folk ser at det er brukt en troverdig kilde i bakgrunnen er det mindre sjanse for at man faktisk klikker seg inn og dobbeltsjekker svaret chat-boten har gitt, sier Jansen.

Tester ut egen informasjon for å gi best mulig svar

I det siste har Felleskatalogen jobbet med et KI-assistert søk for å utforske hvordan de kan og bør utlevere informasjon til andre.

– Vi ser på hvordan et legemiddel kan identifiseres og kombinerer dette med et vanlig konvensjonelt søk. Slik at hvis man ikke oppnår 100 % likhet med spørsmålet må søkemotoren alltid spørre «er det dette legemiddelet du mener?». Vi mener også at struktur er viktig, så vi gir språkmodellen HTML-filen – altså den filen dere ser på Felleskatalogens nettside, forklarer Jansen.

Når hun stiller det samme spørsmålet som nevnt tidligere, «Hvor mange mikrogram Evrysdi skal gis til et spedbarn på 6 uker med vekt 3600 gram?» klarer språkmodellen å genere et svar som inkluderer hele tabellen som står i kildegrunnlaget fra Felleskatalogen.

– Språkmodellen generer et svar som er eksakt slik det står i Felleskatalogteksten, for det har vi instruert den om å gjøre. Den svarer også «Av sikkerhetshensyn kan jeg ikke beregne dose», for det har den også fått beskjed om.

Det viktigste med dette prosjektet er Felleskatalogen utforsker hvordan de kan levere KI-tilpasset innhold.

– Vi er usikre på om vi noen gang kommer til å tilgjengeliggjøre et KI-basert søk, men vi ønsker å hjelpe de som lager KI-løsninger til å bruke Felleskatalogens innhold på en forsvarlig måte. Vi ønsker å levere informasjonen på en måte som gjør at språkmodellen forstår den bedre, ved å ivareta strukturen, berike innholdet med mer informasjon enn det som står i selve teksten (f.eks. «Her kommer det et avsnitt om dosering, og den doseringen gjelder barn, og for denne indikasjonen»). Vi vil gi innhold som språkmodellene kan bruke til å gi korrekte svar. Det er så viktig!

Min største bekymring er at kunnskapschatter som henviser til troverdige fagkilder, som RELIS, Norsk legemiddelhåndbok og Felleskatalogen, skaper en falsk trygghet hos helsepersonell og andre som bruker det, og at de derfor ikke klikker seg inn på lenkene og dobbeltsjekker svarene.

Les også Bente Jansens innlegg i Dagens Medisin:

Kunstig intelligens i kliniske verktøy – når tilgang til fagkilder gir dårligere svar