¿Es válida esta prueba diagnóstica?

Tanto la práctica de la medicina como la provisión de cuidados de salud depende continuamente de un diagnóstico preciso basado en la utilización de pruebas diagnósticas. Éstas pueden ser radiológicas (incluyendo ecografías o resonancias magnéticas nucleares), de laboratorio (incluyendo bioquímica, hematología, bactereología, virología, inmunología o pruebas genéticas) o fisiológicas (medición de temperatura, test de orina, pruebas de esfuerzo).
 

¿Cómo se puede saber si una prueba responde a lo que se pide de ella? ¿Cuáles son las reglas de la evidencia frente a las cuales una prueba nueva (o ya existente) debe ser valorada? Contamos con reglas para tratamientos (Bandolier 12), y por tanto, no sería pedir demasiado si contamos con reglas para el diagnóstico. 

Criterios metodológicos

Bandolier ha encontrado un fantástico documento [1] que establece siete criterios metodológicos de calidad para las pruebas diagnósticas. Se buscaron artículos publicados en Lancet, British Medical Journal, New England Journal of Medicine y Journal of the American Medical Association desde 1978 hasta 1993 para ver cuántos trabajos sobre pruebas diagnósticas cumplían estos criterios (¡y para aquellos que no puedan aguantar el suspense, la respuesta es que no muchos!). 

Este trabajo no es de una lectura fácil ni cómoda. Para aquellos de nosotros que estamos implicados en realizar pruebas diagnósticas, se trata de un duro recordatorio del poco tiempo que empleamos en pensar y de cuánto tiempo en "pedir y gastar". Para los que las utilizamos también se trata de un duro recordatorio de cuánta fe ponemos a menudo en un cifra o una opinión, quizá sin pensar en el peso que habría que darle a esa cifra. 

Por estas y otras muchas razones se trata de una publicación que conviene conseguir en la biblioteca y leer a texto completo, y luego tenerla a mano para consultarla. Bandolier resume el artículo aquí para asegurarse de su comprensión y para valorarlo en su justa medida. 

Los siete criterios

Criterio 1: Las características de la población 

La sensibilidad o especificidad de un test depende de las características de la población estudiada (ver Bandolier 3). Cambie usted la población y cambiarán estos índices. Los datos informados de sensibilidad y especificidad, que son evaluados en poblaciones con una tasa significativa de enfermedad, pueden no ser aplicables en otras poblaciones diferentes en las que se utilice la prueba. 

Para que este criterio se cumpla el artículo debe contener información sobre tres de estos cuatro aspectos: Distribución de edad, sexo, resumen de los síntomas clínicos iniciales y/o estadío de la enfermedad, y criterios de elección para los pacientes que entran en el estudio. 

Criterio 2: Subgrupos adecuados

La sensibilidad y la especificidad pueden representar valores promedios para una población determinada. A menos que el problema para el cual se utiliza el test haya sido definido con mucha precisión, aquellas pueden variar en diferentes subgrupos poblacionales. Para que la prueba pueda ser utilizada con éxito deberían tenerse en cuenta distintos niveles de precisión según los distintos subgrupos existentes en la población estudiada. 

Este criterio se cumple cuando se informa sobre la precisión de la prueba en relación con cualquier subgrupo demográfico o clínico (por ejemplo en pacientes sintomáticos versus pacientes asintomáticos). 

Criterio 3: Evitar el sesgo de selección

Este tipo de sesgo puede producirse cuando los pacientes con los resultados positivos o negativos de una prueba son derivados de forma preferente para verificar el diagnóstico mediante otras prueba considerada patrón oro.. 

Los autores del trabajo discuten esto en profundidad debido a una discrepancia inicial a la hora de aplicar este criterio. Dan muchos ejemplos. Uno de ellos fue un nuevo test diagnóstico con DNA para detectar un un gen del cáncer de mama, que se administró a los pacientes biopsiados con cáncer de mama y a pacientes controles biopsiados sin cáncer. Puesto que la biopsia puede solicitarse preferentemente en mujeres con una historia familiar de cáncer de mama, el grupo de "casos" contendrá un factor clínico que por sí mismo puede estar asociado con el nuevo test con DNA. 

Para que este criterio se cumpla en los estudios de cohortes, todos los sujetos deberían de haber sido asignados para recibir tanto el test diagnóstico como el patrón oro, bien mediante un procedimiento directo o mediante el seguimiento clínico. En los estudios de casos y controles, la validez del criterio depende de si el test diagnóstico precede o es posterior a la aplicación del patrón oro. Si lo precede el criterio se cumple en caso de que la verificación de la enfermedad se realice en la serie consecutiva de los pacientes estudiados sin tener en cuenta los resultados del test diagnóstico. Si el test diagnóstico es a continuación del patrón oro, el criterio se cumple si los resultados del test se estratifican de acuerdo a los factores clínicos que podían estar implicados según el tipo de patrón oro. 

Criterio 4: Evitar el sesgo de medición

Este tipo de sesgo podría introducirse si la prueba diagnóstica o el patrón oro se realizan sin tomar precauciones para garantizar la objetividad en su interpretación, algo similar al ciego en el caso de los ensayos clínicos para tratamiento. Se puede evitar si el test y el patrón se interpretan de forma separada por personas independientes que desconocen los resultados dados por una y otra. 

Para que se cumpla este criterio, tanto en estudios de cohortes como en estudios de casos controles, debe afirmarse explícitamente que la evaluación de los dos test fue realializada de forma independiente. 

Criterio 5: Precisión de los resultados

La precisión de la sensibilidad y la especificidad depende del número de pacientes evaluados. Igual que otras medidas, el resultado estimado debe tener unos intervalos de confianza alrededor del mismo, que se calculan facilmente. 

Para que se cumpla este criterio, los intervalos de confianza o el error estandar deben estar reflejados independientemente de la magnitud. 

Criterio 6: Presentación de resultados indeterminados

No todos los tests dan lugar a un sí o un no como respuesta, a veces dan lugar a resultados equívocos o indeterminados. La frecuencia de resultados indeterminados limitará la aplicabilidad de la prueba o la hará más cara si da lugar a otros procedimientos diagnósticos posteriores. La frecuencia de resultados indefinidos y el modo en el que se usan en el cálculo de la precisión de la prueba constituyen una información de importancia crítica para conocer la eficacia de la misma. 

Para que este criterio se cumpla el trabajo debe reflejar de forma apropiada todos los resultados positivos, negativos o indeterminados generados durante el estudio, así como si los resultados indeterminados se incluyeron o excluyeron al calcular los indicadores de precisión de la prueba.

Criterio 7: Reproductibilidad de la prueba

Las pruebas no siempre dan el mismo resultado, por motivos relacionados con la variabilidad del test o la interpretación del observador. Los motivos y el impacto de este asunto deben ser tenidos en cuenta. 

Para que se cumpla este criterio en pruebas que requieren interpretación del observador, al menos alguno de los test debería ser evaluado con alguna medida que resuma la variabilidad inter-observador. Para pruebas sin interpretación del observador, el criterio se cumple cuando se refleja una media que resuma la variabilidad del instrumento. 

¿Se cumplieron los criterios?

Entre 1978 y 1993 los autores encontraros 112 artículos, predominantemente con pruevas de tipo radiológico o inmunológico. Se cumplieron de forma consistente pocos criterios, oscilando entre un 46% que evitaban el sesgo de selección y un 9% reflejando la precisión en subgrupos. 

Aunque se producía una mejoría en la calidad de los artículos a lo largo del tiempo, incluso en periodos más recientes, sólo el 24% cumplía cuatro criterios y sólo el 6% llegaba a los seis criterios. 

Implicaciones

Lo autores sugieren que, dado que estos informes se publicaron en las supuestas cuatro más importantes revistas médicas del mundo, se está sobreestimando el verdadero cumplimiento de los criterios de calidad en la evaluación y publicación de las pruebas diagnósticas. Puede ser cierto, y siéndolo, estos hallazgos dan lugar a un motivo real de preocupación respecto a la repugnancia tecnológica que suponen las pruebas diagnósticas de valor no probado. 

La evaluación sistemática de pruebas diagnósticas antes de su utilización debería dar lugar a beneficios en varias áreas: 

  1. Eliminación de pruebas de mala calidad o inútiles antes de que estén disponibles de forma generalizada. 
  2. Mejora en la calidad de la información relativa a pruebas diagnósticas. 
  3. Redución del gasto sanitario. 
  4. Mejora de la atención al paciente. 
Dada la confianza que se pone en las pruebas diagnósticas en la práctica médica moderna, lo correcto sería que las pruebas se sometieran a una evaluación de calidad estandarizada antes de que se generalice su utilización [2]. Esto podría parecer draconiano pero, ¿hay otro camino? 

Referencias:

  1. MC Read, MS Lachs, AR Feinstein. Use of methodological standards in diagnostic test research: getting better but still not good. Journal of the American Medical Association 1995 274:645-51. 
  2. GH Guyatt, PX Tugwell, DH Feeny, RB Haynes, M Drummond. A framework for clinical evaluation of diagnostic technologies. Canadian Medical Association Journal 1986 134:587-94. 
Traducido del url original por Santiago Alvarez.Madrid