Spoľahlivosť diagnostických testov – zhoda posudzovateľov (inter-rater agreement)
P. Slezák(1), P. Námer(2), I. Waczulíková(2)
1 Ústav normálnej a patologickej fyziológie, Slovenská akadémia vied, Bratislava
2 Katedra jadrovej fyziky a biofyziky, Oddelenie biomedicínskej fyziky, Fakulta matematiky fyziky a informatiky, Univerzita Komenského v Bratislave
Spoľahlivosť diagnostického testu – teda to, do akej miery sú výsledky diagnostického testu v definovanej oblasti posudzované konzistentne – je súčasťou klinickej užitočnosti daného testu. Hodnotenie kvality diagnostického testu je predmetom rigorózneho vedeckého výskumu. Pri čítaní medicínskej literatúry zameranej na interpretáciu výsledkov diagnostických testov sa najčastejšie sústreďujeme na pojmy ako senzitivita, špecificita, pozitívna a negatívna prediktívna hodnota atď. Avšak dôležitou súčasťou prác zameraných na problematiku diagnostických testov a ich výstupov sú analýzy zamerané na kvantitatívne hodnotenie stupňa zhody medzi metódami, alebo častejšie medzi lekármi-posudzovateľmi (hodnotiteľmi – v angličtine označované ako interrater or interobserver or intercoderagreement). Doteraz spomínané miery výkonnosti a kvality diagnostických procedúr však nie sú vo väčšine prípadov priamo aplikovateľné na analýzu tohto typu klinického problému, pretože ukazovatele senzitivita a špecificita predpokladajú porovnanie so „zlatým štandardom“, teda s výsledkom, ktorý je uznaný ako presný. V tomto prípade presný výsledok nepoznáme a skutočnosť sa snažíme odhadnúť okrem iného aj na základe zhodnotenia stupňa zhody medzi lekármi posudzujúcimi nález rádiologického alebo iného vyšetrenia. To sa nemusí týkať len klinických štúdií, ale aj situácií z každodennej klinickej praxe, ak vznikne domnienka, že sa lekári, ktorí posudzujú a interpretujú výsledky daného testu, v istej špecifickej situácii/ diagnóze nie vždy úplne zhodujú na interpretácii jednotlivých nálezov. V takom prípade je žiaduce vedieť posúdiť, do akej miery sú pozorované proporcie zhody a nezhody náhodné, alebo spôsobené nejakým faktorom. V článku sa budeme pre jednoduchosť venovať len najčastejšej situácii – hodnoteniu zhody medzi dvoma posudzovateľmi, ktorí kódujú svoje rozhodnutia na nominálnej škále (t. j. kategorickej, ktorá nie je usporiadaná) s dvoma kategóriami.