Kort rapport
Bruk av produksjonsdata til estimering av referansegrenser for p-ferritin - en blandet erfaring
1. Avdeling for medisinsk biokjemi, Stavanger universitetssjukehus
Bioingeniøren er godkjent som vitenskapelig tidsskrift. Artikkelen er fagfellevurdert og godkjent etter Bioingeniørens retningslinjer.
Last ned pdf
Innledning
Referansegrenser er etterspurt for alle analytter (1). Slike grenser er relativt tungvinte og kostbare å estimere fordi estimatene er basert på analysering av prøver fra friske referansepersoner. Hvis vi trenger referanseverdier (prøvesvar) fra minst 120 referansepersoner i hver gruppe og har flere grupper, kan det totale behovet bli flere hundre referansepersoner. Gruppeinndelingen er som regel etter kjønn og alder, men inndeling etter andre faktorer, som for eksempel lengden av svangerskap, kan også være aktuelt. Referansepersoner blant barn er spesielt vanskelige å skaffe. For hver gruppe beregnes referansegrenser som 2,5- og 97,5-persentilen i fordelingen av referanseverdier. Dette kalles “direkte metoder”. Deres motstykke, “indirekte metoder”, baserer seg på bruk av gratis prøvesvar fra produksjonsdata. Slike prøvesvar kommer fra ulike pasientgrupper. Vi kan tenke på den totale fordelingen av prøvesvar som en blanding av ulike fordelinger fra syke og friskere pasienter. De indirekte metodene skal finne den fordelingen av prøvesvar som kommer fra friske individer. Ved hjelp av litt ulike teknikker finner de den mest sannsynlige, matematisk definerbare, største fordelingen (den som rommer de fleste prøvesvarene). Skal dette være prøvesvar fra friske, må selvsagt mesteparten av prøvesvarene i den totale fordelingen stamme fra friske individer. Et annet krav er at den sentrale delen av den totale fordelingen må bestå nesten utelukkende av prøvesvar fra friske. I flere tilfeller kan dette gi troverdige resultater (1), men ikke alltid (1, 2). Hvordan kan vi stole på resultatene? Gir de indirekte metodene omtrent samme referansegrenser som de direkte, tror vi gjerne at resultatene er til å stole på (1, 3). Vi mener at de indirekte metodene er til mest hjelp når vi ikke kan eller vil bruke de direkte metodene. Ta for eksempel referansegrenser for p-ferritin for yngre kvinner. Et referansemateriale bestående av yngre kvinner uten jernmangel er vanskelig å identifisere klinisk, siden mange med tomme jernlagre ikke føler seg syke. Friske blodgivere er heller ikke representative da de har økt tap av jern, så her kunne indirekte metoder være til hjelp. Vi har prøvd to datamaskinprogrammer for indirekte metoder, refineR (4) og TMC13 (5). Som fasit brukte vi publiserte data om fordelingen av p-ferritin hos yngre kvinner med påvist jern i benmargen.
Metoder
Fra perioden 3. januar 2022 til 1. september 2025 ble det samlet inn data om p-ferritin fra pasienter i primærhelsetjenesten, kun ett prøvesvar (det eldste) fra hver pasient. Av disse var 25109 kvinner i alderen fra og med 30 år til 40 år. P-ferritin ble analysert med Abbott Alinity fra Abbott Diagnostics, Abbott Park, Illinois, USA, med reagenser fra produsenten. Analysemetoden var sporbar til den internasjonale standarden 80/602, også kalt “First WHO Human Liver Ferritin International Standard” (6). Den totale variasjonskoeffisienten var omtrent 5 %. Vanlige prosedyrer for intern og ekstern statistisk kvalitetskontroll ble fulgt. Laboratoriet var akkreditert for analysen. På grunnlag av disse p-ferritin-data ble referansegrenser (2,5- og 97,5-persentilene) estimert med datamaskinprogrammene refineR (versjon 1.6.2) og TMC13.
Som en kontroll brukte vi data om persentiler i fordelingen av p-ferritin hos 38 år gamle kvinner med og uten jern i benmargen (7). Av 203 kvinner ble 105 klassifisert som jernsuffisiente (uten jernmangel) fordi de hadde «clearly visible reticuloendothelial iron» i benmargen, mens 69 ble klassifisert med jernmangel fordi de hadde «no stainable iron in their bone marrow smears». I tillegg var det 29 kvinner som ikke kunne klassifiseres. Hos kvinner uten jernmangel var 50- og 97,5-persentilene henholdsvis 42 µg/L og 145 µg/L. Hos kvinner med jernmangel var 50- og 97,5-persentilene henholdsvis 9 og 35 µg/L. Analysemetoden for p-ferritin skulle være sporbar til den internasjonale standarden 80/602 (7). Vi forutsatte at log(p-ferritin) er normalfordelt, siden det er en rimelig antakelse for mange analytter (8). Som gjennomsnitt i fordelingen av log(p-ferritin) brukte vi log(50-persentilen i fordelingen av p-ferritin). Avstanden fra gjennomsnittet til 97,5-persentilen i fordelingen av log(p-ferritin) er 1,96 standardavvik i den fordelingen, siden det er en normalfordeling. Som standardavvik i fordelingen av log(p-ferritin) brukte vi derfor [log(97,5-persentilen i fordelingen av p-ferritin) – log(50-persentilen i fordelingen av p-ferritin)] / 1,96. Referansegrenser ble estimert som gjennomsnitt ± 1,96 standardavvik i fordelingen av log(p-ferritin) for kvinner med påvist jern i benmargen, og deretter transformert til måleskala.
Til en ekstra prøve av de indirekte metodene laget vi en samling av 10 000 p-ferritin-verdier med gjennomsnitt og standardavvik i fordelingen av log(p-ferritin) som for kvinner med jernmangel, og 90 000 med gjennomsnitt og standardavvik i fordelingen av log(p-ferritin) som for kvinner uten jernmangel. Programmene refineR og TMC13 fikk så i oppgave å finne referansegrenser for p-ferritin basert på denne samlingen av kunstige data fra kvinner med og uten jernmangel. Stata (versjon 16.1) ble brukt til å lage kunstige data og til grafisk framstilling av deres fordelinger.
Pasientenes identitet var ukjent for oss. Studien var godkjent av Regionale komiteer for medisinsk og helsefaglig forskningsetikk under søknadsnummer 155292, som gir oss anledning til å bruke produksjonsdata til beregning av referansegrenser.
Resultater
Basert på produksjonsdata estimerte refineR referansegrensene 8,53 µg/L (95 % konfidensintervall 7,84-11,1) og 181 µg/L (95 % konfidensintervall 174-209), mens medianen var 50,7 µg/L. TMC13 kom ut med grensene 8,71 µg/L (95 % konfidensintervall 8,40-9,02) og 180 µg/L (95 % konfidensintervall 177-184). Ingen median var oppgitt. I utskriften fra TMC13 var det et varsel om at estimeringen kanskje ikke var optimal. Basert på fordelingsparametre hos de 105 kvinnene med jern i benmargen var referansegrensene 12,2 og 145 µg/L.
Fordelingen av de kunstige data er framstilt i figur 1. For kvinner uten jernmangel var 2,5- og 97,5-persentilen henholdsvis 12,1 og 147 µg/L. Andelen uten jernmangel var 90 %. Basert på de samme data estimerte refineR referansegrensene 11,5 og 144 µg/L (figur 2), mens andelen ikke-patologiske verdier ble estimert til 92,4 %. TMC13 kom fram til referansegrensene 8,0 og 117 µg/L (figur 3) og en andel ikke-patologiske verdier på 93,8 %.
Diskusjon
Vi valgte ut produksjonsdata fra kvinner i 30-årsalderen fordi vi hadde kjennskap til fordelingen av p-ferritin hos friske kvinner på 38 år (7), og kunne kontrollere resultatene mot referansegrenser utregnet fra disse. Basert på produksjonsdata var programmene refineR og TMC13 nokså samstemte om referansegrensene for p-ferritin. Punktestimatene fra refineR var innenfor 95 % konfidensintervallene for TMC13 sine grenser. De nedre referansegrensene (8,5 og 8,7 µg/L) var litt høyere enn median nedre referansegrense for premenopausale kvinner (6 µg/L) i en oversiktsartikkel fra 2024 (9), men vesentlig lavere enn den (12,2 µg/L) som ble estimert fra fordelingsparametre for kvinner uten jernmangel (7). Det kan hevdes at p-ferritin-metoden til Hallberg et al. (7) og Abbott Alinity-metoden ikke var likt kalibert, og det kan ikke motbevises, for prøvene til Hallberg et al. kan ikke reanalyseres med Abbott Alinity-metoden. Median p-ferritin for kvinner uten jernmangel var 42 µg/L i Hallberg-materialet og 50,7 µg/L i den “friske” delen av produksjonsdata. Det indikerer at Abbott Alinity-metoden måler litt høyere, så ulik kalibrering kan ikke forklare at de lave referansegrensene estimeres lavere med de indirekte metodene som brukte Abbott Alinity-resultater. Ulik kalibrering kan uansett ikke forklare at referanseområdene er bredere med estimatene fra produksjonsdata. Kanskje kvinnene i Hallberg-materialet var ekstra friske og at de bredere referanseintervallene basert på produksjonsdata er et bedre uttrykk for fordelingen av p-ferritin hos friske kvinner i 30-årsalderen. Det vet vi ikke. Benmargsundersøkelser av friske kvinner er heldigvis sjeldne. I en oversiktsartikkel fra 2018 nevnes bare Hallberg-materialet og tre langt mindre (10). En svakhet ved Hallberg-materialet er likevel størrelsen, det vil si at fordelingsparametrene for p-ferritin baseres på bare 69 og 105 kvinner med og uten jernmangel. Dessuten kan manglende aldersvariasjon gjøre at materialet blir mindre representativt for alle kvinner i 30-årsalderen. Det er selvsagt også mulig at forutsetningen om at log(p-ferritin) er normalfordelt i Hallberg-materialet ikke holder. I mangel av rådata kan det ikke kontrolleres.
Da vi prøvde refineR og TMC13 med det kunstige datasettet, kom refineR rimelig godt fra det. De estimerte referansegrensene var ikke langt fra fasit, henholdsvis 11,5 mot 12,1 µg/L og 144 mot 147 µg/L. Sammenligner vi figur 2 (refineR) med figur 1 (fasit), er fordelingen av p-ferritin fra individer uten jernmangel (grønne kurver) ganske lik i de to figurene, mens fordelingen av p-ferritin fra de med jernmangel (røde kurver) er litt for smal i figur 2. TMC13 greide ikke prøven så bra som refineR, med estimerte referansegrenser på 8,0 og 117 µg/L. Programmet fant også noen patologisk høye verdier, se figur 3. På forhånd hadde vi trodd at det kunstige datasettet med bare to veldefinerte fordelinger skulle være en lett oppgave for både refineR og TMC13.
Vi er fortsatt usikre på hvilke referansegrenser for p-ferritin som er de riktige for kvinner i 30-årsalderen. Det er ingen stor ulykke, for legene bør ikke bruke referansegrensene til diagnostikk av verken jernmangel eller jernoverskudd. For å stille en diagnose ved hjelp av en sykdomsmarkør må man kjenne fordelingen av markøren hos pasienter både med og uten sykdommen. De to delpopulasjonene må til sammen utgjøre en klinisk relevant populasjon. Når vi skal finne den riktige beslutningsgrensen, må vi også ta hensyn til pretestsannsynlighet og de kliniske konsekvensene av diagnosen (11). I den forbindelse har referansegrenser ingen selvstendig betydning. Valgte vi nedre referansegrense i figur 1 (12,1 µg/L) som beslutningsgrense for jernmangel, ville spesifisiteten bli 97,5 %, men sensitiviteten ville bare være 66,1 %. Det finnes ingen grunn til å velge akkurat den verdien som beslutningsgrense. Selv for pasienter uten betennelse er riktige beslutningsgrenser for p-ferritin i diagnostikk av jernmangel høyere enn nedre referansegrense (9, 10). For pasienter med betennelse er riktige beslutningsgrenser høyere enn for pasienter uten betennelse (10).
Konklusjon: Referansegrenser lar seg lett estimere med indirekte metoder, men riktigheten av grensene er vanskelig å kontrollere. Uansett må referansegrenser ikke oppfattes som riktige beslutningsgrenser.
Forfatternes bidrag
Arne Åsberg: Idé, statistiske analyser, utkast til artikkel.
Øyvind Skadberg: Idé, uthenting av data fra laboratoriedatasystemet, utforming av artikkelteksten.
Interessekonflikter
Ingen.