Vitenskapsteoretiske begreper


De vitenskaplige egenskapene til en test eller gruppe med tester kan uttrykkes ved hjelp av en rekke statistiske og metodiske redskaper. Vi vil i denne artikkelen gå gjennom de vanligste.

Et godt utgangspunkt for å forklare en del av de aktuelle begrepene er et 2x2 kvadrat som fremstiller de fire mulige utfallene ved en klinisk test hvor svaret enten er positivt eller negativt.

Sensitivitet
Sensitivitet angir andelen pasienter med en diagnose som faktisk har positiv test. Altså hvor sensitiv en test er til å plukke ut de som har en diagnose. Sensitivitet angis som et prosent tall. Jo nærmere 100% dess sikrere er det at testen vil plukke ut alle som har en diagnose. En høy sensitivitet betyr at testen egner seg som screening test for en diagnose.
Eksempel: Av 100 pasienter med impingement er det 80 som har positiv neers test. Da har neers test en sensitivitet på 80%.

Sensitivitet =
Antall sanne positive (TP)

Totalt antall med diagnosen (n1)

Spesifisitet
Spesifisitet angir antallet med negativ test som faktisk ikke har diagnosen. Spesifisitet angis som et prosent tall. Jo nærmere 100% dess mer spesifikk er testen for den aktuelle diagnosen. Jo lavere spesifisitet jo større er sjansen for at pasienten faktisk har en annen diagnose enn den man tester for.

Spesifisitet =
Antall sanne negative (TN)

Totalt antall med negativ test (m0)

Høy sensitivitet og høy spesifisitet er ofte faktorer som "utelukker hverandre". Det er derfor uvanlig at en test har både høy spesifisitet og sensitivitet. En høy sensitivitet betyr at testen plukker ut alle med den gitte diagnosen. Da stiger også sannsynligheten for at pasienter med andre diagnoser "blir med på lasset". Høy spesifisitet betyr at kun pasienter med den aktuelle diagnosen har positiv test, men da stiger sannsynligheten for at testen var negativ men at den som ble testet likevel har diagnosen.

Kappa verdier

Brukes for å justere for inter tester enighet som oppstår tilfeldig. Kappa (k) måler enighet ut over det som forventes helt tilfeldig. jo nærmere 1 dess bedre.
Kappa (k) verdi
Forklaring
0
Dårlig⁄ mindre enn tilfeldig sjanse for enighet
.01–.20
Litt enighet (Slight)
.21–.40
Noe enighet (Fair)
.41–.60
Moderat enighet (Moderate)
.61–.80
Betydelig enighet (Substantial)
.81–.99
Nesten perfekt enighet (almost perfect)


QUADAS verdier
QUADAS verdier brukes i en del metaanalyser og bøker for å vurdere kvaliteten til randomisert kontrollerte studier (RCT). Det tas utgangspunkt i en sjekkliste og man gir 1 poeng for hver av punktene på listen som er oppfylt, og 0 poeng for hvert av punktene som ikke oppfylles. QUADAS har 14 punkter. STARD er en sjekkliste utarbeidet av Cochrane for det samme, men med 25 punkter. Nedenfor er QUADAS sjekklisten gjengitt.

QUADAS Quality Assessment Tool
Yes
NO
Unclear
Was the spectrum of participants representative of the patients who will receive the test in practice?



Were selection criteria clearly described?



Was the reference standard likely to classify the target condition correctly?



Was the period between performance of the reference standard and the index test short enough to be reasonably sure that the target condition did not change between the two tests?



Did the whole sample or a random selection of the sample receive verification using the reference standard?



Did participants receive the same reference standard regardless of the index test result?



Was the reference standard independent of the index test? (that is, the index test did not form part of the reference standard)



Was the execution of the index test described in sufficient detail to permit its replication?



Was the execution of the reference standard described in sufficient detail to permit its replication?



Were the index test results interpreted without knowledge of the results of the reference standard?



Were the reference standard results interpreted without knowledge of the results of the index test?



Were the same clinical data available when the test results were interpreted as would be available when the test is used in practice?



Were uninterpretable, indeterminate or intermediate test results reported?



Were withdrawals from the study explained?




Positiv og negativ predikasjonsverdier (PPV)
Positiv predikasjonsverdi angir hvor mange med positiv test som faktisk har den gitte diagnosen. Eks: hvor mange med positiv neers test som har impingement syndrom. Positiv predikasjonsverdi angis som en prosentverdi – jo høyere dess bedre. Positiv predikasjonsverdi regnes ut ved å ta antall sanne positive (de med positiv test som faktisk har diagnosen) og dele på det totale antallet med positiv test.

eksempel:  100 personer testes og har positiv neers test.  Med artroskopi viser det seg at kun 60 av disse har impingement syndrom. Da blir positiv predikasjonsverdi for neers test

PPV = 60⁄100 = 60% – altså vil 60% av alle pasienter med positiv neers test ha impingement syndrom.

Negativ predikasjonsverdi er det samme men motsatt vei, altså antallet pasienter med negativ neers test som faktisk ikke har impingement syndrom. Eks: 100 pasienter med vonde skuldre har negativ Neers test. Med artroskopi viser det seg at 10 av disse likevel har impingement syndrom. 90 av pasientene med negativ test hadde altså ikke diagnosen, og ble korrekt diagnostisert. 10 prosent ble feil diagnostisert.

NPV=  90⁄100 = 90% – altså 90% av alle pasienter med negativ test har altså ikke diagnosen.

Positiv og negativ Likelihood ratio
Likelihood ratio sier noe om hvor sannsynlig det er at pasienten har en viss diagnose hvis en test er positiv eller negativ. Likelihood ratio sammenfatter spesifisitet og sensitivitet for en test og regnes for et av de bedre målene for om en test er god eller dårlig.  For å finne positiv likelihood ratio brukes dette regnestykket:

LR+ =
Sensitivitet

100– spesifisitet

Negativ likelihood ratio beregnes med det "motsatte" regnestykket:

LR–=
100– Sensitivitet

Spesifisitet

En test med likelihood ratio på 1 har ingen diagnostisk verdi, fordi sensitivitet og spesifisitet begge er 50 og det derfor er ren tilfeldighet om pasienten har en diagnose eller ikke uavhengig av om testen er positiv eller negativ. Jo høyere positiv likelihood ratio dess større sannsynlighet er det at testen er positiv for pasientene med en diagnose og negativ for pasientene uten diagnosen. Likelihood ratio har ingen øvre grenseverdi, men kan stige til det uendelige.

Eksempel:
Neers test har en sensitivitet på 89% og en spesifisitet på 31%. Det betyr at 89% av alle med impingement har positiv test og 31% av alle med positiv test har faktisk impingement. Positiv Likelihood ratio blir da

LR+ =
89     
=
89 
=
1,29

100–31

69



Negativ Likelihood ratio verdi blir

LR– =
100 – 89
=
11 
=
0,35

31

31



For positiv likelihood ratio gjelder det at jo høyere tallet er over 1 jo større sjanse er det for at alle pasientene med en diagnose, og kun disse fanges opp av testen. Ved verdier under 1 gjelder det at jo nærmere null dess mindre sannsynlig er det at pasienten har den gitte diagnosen.

Positiv og negativ likelihood ratio er gjensidig utelukkende, på den måten at hvis den ene er over 1 vil den andre være tilsvarende under 1.

Det kan gjøres beregninger for å regne ut prosentsjansen for en diagnose i forhold til positiv eller negativ predikasjonsverdi. Disse er derimot forholdsvis avanserte og i klinisk praksis kan derfor tabellen som er gjengitt nedenfor brukes. Den viser at en likelihood ratio på 0,1 reduserer sannsynligheten for den aktuelle diagnosen med 45%, mens en likelihood ratio på 10 øker sannsynligheten for den aktuelle diagnosen med 45% .

Likelihood Ratio
Omtrentlig sannsynlighet i prosent
0,1
–45
0,2
–30
0,3
–25
0,4
–20
0,5
–15
1
0
2
+15
3
+20
4
+25
5
+30
6
+35
8
+40
10
+45

Ved å bruke likelihood ratio vil man oppdage at de fleste testene som brukes innen diagnostisering av bevegelsesapparatet har begrenset klinisk betydning alene, siden de sjelden er både spesifikke og sensitive.

Overall accuracy
Overall Accuracy(eller bare Accuracy) kan brukes som et mål på hvor nøyaktig en test er i å skille personer med en diagnose og uten diagnosen. Overall Accuracy tar utgangspunkt i sensitivitet og spesifisitet, og kan sees som et forsøk på å sammenfatte disse to verdiene. Overall accuracy beregnes med følgende formel:

Accuracy =  Prevalens  x  Sensitivitet + (1– prevalens) * Spesifisitet

Prevalens er antallet med den gitte diagnosen i en populasjon.

Alberg og medarbeidere (2004) kritiserer bruken Overall Accuracy og mener verdien blir spesielt problematisk ved stor forskjell mellom sensitivitet og spesifisitet og når prevalensen er under 50%.

Pre test probability
Pre test probability er et mål for sannsynligheten for at et individ i et utvalg har en gitt diagnose. Pre test probability er uavhengig av testene som gjennomføres og angir enkelt og greit hvor mange av det totale utvalget som har det aktuelle diagnosen.

Pre  test probability = sanne positive + falske positive ⁄ totalt utvalg

Post test probability
Post test probability er et mål for sannsynligheten for at et individ har en gitt diagnose etter en gitt undersøkelse. Post test probability angir altså hvor stor del av de med positiv test som faktisk har den gitte diagnosen. En lav spesifisitet vil gi en lav positiv post test probability. En høy spesifisitet vil gi en høy post test probability. På samme måte angir en negativ post test probability sannsynligheten for at et individ som tester negativt likevel skal ha den gitte diagnosen. Lav sensitivitet gir høy negativ post test probability.

Positiv post test probability = sanne positive ⁄ (sanne positive + falske positive)

Negative posttest probability = Falske negative ⁄ (Falske negative + sanne negative)

ROC kurve
Receiver operating characterisitic (ROC) kurve
ROC kurven fremstiller forholdet mellom sanne positive og falske positive. Hvis forholdet mellom sanne positive og falske positive havner nedenfor den skrå linjen for tilfeldighet så har testen ingen diagnostisk verdi. Dess lengre bort fra tilfeldighetslinjen en test havner på den øvre halvdel av grafen dess bedre diagnostisk verdi har den. En test med sanne positive på 1 (altså 100%) og falske positive på 0 (0%) vil altså havne helt oppe i det venstre hjørnet på kurven.





Referanser