Diagnostische Sicherheit
Ist positiv immer positiv?
Die Bedeutung einer richtigen Diagnose liegt auf der Hand. Nichtsdestoweniger kann man sowohl im klinisch veterinärmedizinischen Bereich als auch im züchterischen Bereich nicht mit absoluter Sicherheit davon ausgehen, dass eine aktuelle Diagnose den tatsächlichen Zustand des untersuchten Hundes widerspiegelt. Die Intention bei der Etablierung diagnostischer Verfahren liegt aber immer darin eine möglichst hohe Diagnosequalität zu gewährleisten. Dabei sind es im Wesentlichen zwei Qualitätskriterien die eine Aussage über die diagnostische Sicherheit einer bestimmten Methode liefern.
-
Die Wiederholbarkeit eines Verfahrens. Definitionsgemäß versteht man darunter die Wahrscheinlichkeit, dass bei einer wiederholten Untersuchung durch den selben oder einen anderen Untersucher das selbe Ergebnis resultiert. Die Wiederholbarkeit kann u.a. in Prozent angegeben werden, mit einem Maximalwert von 100%. 100% Wiederholbarkeit bedeutet also dass mit einer Wahrscheinlichkeit von 100% eine wiederholte Untersuchung der selben Tiere das selbe Ergebnis liefert. Nach eigenen Untersuchungen (unveröffentlicht) liegt die Wiederholbarkeit z.B. der HD-Diagnostik bei etwa 80%, das gleiche gilt für die Wiederholbarkeit der Untersuchung auf Patellaluxation. Das heißt dass zwar bei etwa 80% der Tiere die wiederholte Untersuchung den selben Befund ergibt, bei immerhin etwa 20% weicht der zweite Befund vom ersten ab. Diese Abweichung beträgt in den meisten Fällen nur eine Befundstufe, in einer eigenen Untersuchung an insgesamt 500 HD-Röntgenbildern fanden wir aber Fälle in denen ein Untersucher den Befund "HD-frei" erhob, ein anderer Untersucher hingegen den Befund "mittel/hochgradige HD" (siehe Stur, I., E. Köppel und K. Schröder(1996)).
-
Die Validität oder Gültigkeit eines Verfahrens: Definitionsmäßig versteht man darunter die Wahrscheinlichkeit, dass die erhobene Diagnose mit dem tatsächlichen Zustand der Tieres übereinstimmt. Um die Validität eines Diagnoseverfahrens bestimmen zu können braucht man daher immer Informationen über den tatsächlichen Zustand eines Tieres. Das ist auch ein wenig die Problematik der Validitätsbestimmung, da man in jedem Fall ein anderes sicheres Verfahren benötigt, um den wahren Zustand eines Tieres feststellen können. Dieses Verfahren wird als der sogenannte Goldstandard bezeichnet. Die Validität eines diagnostischen Verfahrens wird nun über vier verschiedene Validitätsparameter beschrieben. Zum Verständnis dieser Parameter seien zunächst einmal die vier Möglichkeiten einer diagnostischen Situation aufgezeichnet.
| Befund / wahrer Zustand | krank | gesund |
|---|---|---|
| krank | a (richtig positiv) |
b (falsch positiv) |
| gesund | c (falsch negativ) |
d (richtig negativ) |
Die Validität wird nun über folgende Parameter beschrieben:
Die Sensitivität: darunter versteht man den Anteil richtig positiver an allen positiven. Rechnerisch aus der obigen Tabelle durch a / (a + c) zu ermitteln.
Die Spezifität: darunter versteht man den Anteil richtig negativer an allen negativen. Rechnerisch aus der obigen Tabelle durch d / (b + d) zu ermitteln
Der positive Vorhersagewert (positiv prädiktiver Wert): darunter versteht man die Wahrscheinlichkeit, dass ein als positiv befundetes Tier tatsächlich positiv ist. Rechnerisch aus der obigen Tabelle durch a / (a + b) zu ermitteln.
Der negative Vorhersagewert (negativ prädiktiver Wert): darunter versteht man die Wahrscheinlichkeit, dass ein negativ befundetes Tier tatsächlich negativ ist. Rechnerisch aus der obigen Tabelle durch d / (d + c) zu ermitteln.
Die folgende Tabelle zeigt ein hypothetisches Beispiel für die Berechnung der Validitätsparameter:
| Befund / wahrer Zustand | krank | gesund |
|---|---|---|
| krank | 45 (richtig positiv) |
30 (falsch positiv) |
| gesund | 5 (falsch negativ) |
70 (richtig negativ) |
Sensitivität = 45 / 50 = 0,90
Spezifität = 70 / 100 = 0,70
positiver Vorhersagewert = 45 / 75 = 0,60
negativer Vorhersagewert = 70 / 75 = 0,93
Diese Beispielsberechnung zeigt auch recht gut die Problematik der Diagnosegenauigkeit. Das hypothetische Beispiel zeigt ein Diagnoseverfahren mit einer recht hohen Sensitivität, bei gleichzeitig eher niedriger Spezifität. Die hohe Sensitivität gewährleistet, dass von den positiven Tieren ein sehr hoher Anteil auch tatsächlich gefunden wird, dafür sind von den Tieren, die als positiv befundet werden ein relativ hoher Anteil gar nicht positiv. Und das ist ein systemimmanentes Problem. Sensitivität und Spezifität sind immer negativ korreliert. Je höher die Sensitivität eines diagnostischen Verfahren ist umso geringer ist seine Spezifität. Dem hohen Anteil richtig positiv erkannter unter den positiven steht ein ebenfalls recht hoher Anteil falsch positiver gegenüber. Und umgekehrt: Bei hoher Spezifität einer Methode ist die Sensitivität entsprechend geringer. Ein hoher Anteil richtig negativ erkannter unter den negativen wird durch einen hohen Anteil falsch negativer erkauft.
Wenn wir das mal auf die Situation des züchterischen Screening am Beispiel der HD-Diagnostik umlegen. Nehmen wir an die Selektionsgrenze liegt bei HD-frei, d.h. es dürfen nur Tiere mit dem Befund HD-frei zur Zucht verwendet werden. Hohe Sensitivität bedeutet, dass von den Tieren, die nicht HD-frei sind entsprechend obigem Beispiel 90% entdeckt werden. Die Gefahr, dass ein Hund der nicht HD-frei ist irrtümlich zur Zucht kommt, ist daher recht gering. Allerdings ist von den Tieren, die als "Nicht HD-frei" befundet werden bei einem recht hohen Anteil davon auszugehen, dass sie tatsächlich HD-frei sind. Die Wahrscheinlichkeit, dass ein "nicht HD-frei" befundetes Tier auch tatsächlich nicht HD-frei ist liegt nur bei 60% (positiver Vorhersagewert). Schließt man alle "nicht HD-frei" befundeten Tiere aus der Zucht aus, gehen somit viele, die im Grunde für die Zucht geeignet wären, der Population verloren. In Hinblick auf die HD-Belastung einer Population mag das besser sein als umgekehrt, in Hinblick auf die genetische Varianz einer Population kann das verheerende Konsequenzen haben.
Es gibt aber Situationen wo die sehr hohe Sensitivität unseres Beispiels trotz des relativ hohen Anteils an falsch positiven Befunden als günstig zu beurteilen ist. Dann z.B. wenn es darum geht, Hunde für eine aufwändige Ausbildung z.B. als Blindenführhund auszuwählen. In solchen Fällen ist es sicher wichtiger ein Diagnoseverfahren mit hoher Sensitivität und einem hohen negativen prädiktiven Wert zu verwenden. In unserem hypothetischen Beispiel liegt der negative Vorhersagewert bei 93%. D.h. wird bei einem für die Ausbildung vorgesehenen Hund die Diagnose "HD-frei" gestellt, ist die Wahrscheinlichkeit, dass der Hund tatsächlich HD-frei ist, mit 93% recht hoch.
Es liegt also auf der Hand, dass ein für alle Situationen passendes Diagnosesystem gar nicht möglich ist und man sich je nach individueller Fragestellung für ein Diagnoseverfahren mit einer jeweils optimalen Kombination von Sensitivität und Spezifität entscheiden muss.
Das Problem bei manchen züchterischen Screeningverfahren wie z.B. bei der HD-Diagnostik ist, dass es keine oder kaum Informationen zur Sensitivität oder Spezifität der Methodik gibt. Lediglich zur Wiederholbarkeit gibt es einzelne Studien, wie oben angeführt. Damit hat man aber auch keine Information zu der tatsächlichen Aussagekraft eines bestimmten Befundes und muss im Grunde alle Befunde so behandeln, als hätte das Verfahren eine Sensitivität und Spezifität von jeweils 100%.
Um die diagnostische Validität derHD-Untersuchung festzustellen müssten Verlaufsuntersuchungen durchgeführt werden bei denen die Befunde im Rahmen der Screening-Diagnostik mit der Entwicklung des Hüftgelenkes bzw. späteren Befunden verglichen werden.. Das wäre zwar methodisch leicht durchführbar, das Problem hier ist die fehlende Kooperation von Seiten der Hundezüchter. Eine vor Jahren gestartete entsprechende Studie bei der über 2000 Hundebesitzer, die ihre Hunde im Rahmen der vorgeschriebenen HD-Screeninguntersuchung vorgestellt hatten, zu einer kostenlosen Nachuntersuchung eingeladen worden waren, ergab einen Rücklauf von nur 40 Besitzern die der Einladung gefolgt sind. Und das war für eine aussagekräftige Studie, bei der noch dazu Rassebesonderheiten berücksichtigt werden sollten, schlicht und einfach zu wenig.
In der amerikanischen Literatur finden sich Angaben zum Vorhersagewert der HD-Diagnostik, allerdings werden dort die in USA eingesetzten Verfahren (OFA-Diagnostik und Penn-Hipp-Verfahren) beschrieben bzw. verglichen. (siehe z.B. [http://www.pennhip.org/]).
In diesem Zusammenhang sei auch auf die Bedeutung einer internationalen Vergleichbarkeit von Befunden hingewiesen, die insbesondere bei der HD-Diagnostik nicht gegeben ist. Denn hier gibt es zumindest fünf unterschiedliche Diagnoseverfahren, die nicht direkt miteinander vergleichbar sind. Wenn man bedenkt, dass es heute durchaus nicht ungewöhnliches mehr ist wenn Belegungen von Hunden nicht nur über nationale sondern auch weit über kontinentale Grenzen stattfinden, ergibt sich dadurch ein zusätzliches organisatorisches Problem.
Screeningverfahren sind heute aus der praktischen Hundezucht nicht mehr wegzudenken. Aber nur bei bekannter bzw. ausreichender hoher Validität können sie den Nutzen bringen, der von ihnen zu erwarten ist.[weiter...]

