Nuestro Blog

Conviviendo con los valores perdidos en los ensayos clínicos

Los valores perdidos son un verdadero desafío para el análisis de los datos de los ensayos clínicos. Si alguna vez has tenido algún quebradero de cabeza con ellos, o quieres saber más, ¡sigue leyendo!

Por Mercedes Ovejero Bruna (Senior Statistician/Data Scientist) e Iratxe Herráez Sánchez-Mariscal (Junior Statistician)

Unidad de Bioestadística y Gestión de Datos de Sermes CRO

Mercedes Ovejero Iratxe Herráez Bioestadística Sermes CRO

¿Qué son los valores perdidos?

Los valores perdidos son pérdidas de información que ocurren cuando no se almacena o no se dispone de uno o más valores en alguna variable en un paciente (o en varios). Los datos faltantes son algo indeseable pero común en los ensayos clínicos a pesar de implementar todos los esfuerzos posibles por evitarlos y pueden tener un efecto significativo en las conclusiones que se pueden extraer de los datos, dado que reducen la potencia del estudio y, en algunos casos, pueden introducir sesgos (Dziura et al., 2013).

Algunas de las causas de los valores perdidos más comunes son (Mack et al., 2018):

  • Preguntas sin contestar: esto ocurre cuando se completa el Cuaderno de Recogida de Datos (CRD) sin aportar el valor correspondiente para uno o más elementos. Suele ser la causa más común de los valores perdidos especialmente cuando se utilizan encuestas para evaluar alguna de las variables del ensayo clínico.
  • Truncamiento por la izquierda: se trata de una forma de sesgo de selección, surge cuando ocurren eventos de interés antes del reclutamiento de un paciente y (típicamente) se adelanta dicho reclutamiento.
  • Acontecimientos ocurridos durante el ensayo clínico: este tipo de circunstancias tiene que ver con las pérdidas de seguimiento, retirada del paciente del estudio, fallecimiento del paciente, etc. Si el paciente abandona el estudio antes de finalizarlo, no se dispondrá de información desde ese mismo momento.

Desde el punto de vista de los análisis de datos, existen tres categorías de valores perdidos (Allison, 2001; Mirzaei et al., 2022; Rubin, 1987):

  • Valores perdidos completamente al azar (MCAR o Missing Completely At Random): En esta categoría, la probabilidad de que nos encontremos con algún valor perdido no está relacionada con ninguna variable observada o no observada. Por tanto, este tipo de valores perdidos están asociados a un proceso aleatorio. Por ejemplo, la probabilidad de que falten datos es la misma para los individuos en diferentes grupos de tratamiento y para aquellos que tienen diferente gravedad de la enfermedad o respuesta al tratamiento. Cuando los datos perdidos son del tipo MCAR, el análisis realizado en los datos es imparcial, no resulta en estimaciones sesgadas, pero si generan una pérdida de precisión y potencia en los análisis. Sin embargo, los datos rara vez son MCAR en los ensayos clínicos.
  • Valores perdidos al azar (MAR o Missing At Random): Cuando la probabilidad de que falten datos está relacionada con las variables observadas. Esta categoría en ocasiones genera confusión, así que, veamos esto con un ejemplo. Si utilizamos una escala de calidad de vida y se observa que la pregunta número 5 suele dejarse en blanco con más frecuencia en las personas ancianas en comparación con la gente más joven, el mecanismo de los valores perdidos está asociados con la edad, una variable diferente a la de la calidad de vida. El origen de estos valores perdidos puede deberse a características de los participantes o a otras variables como el diseño del estudio, las consecuencias del tratamiento, etc. por eso es necesario realizar un buen diseño de estudio y predecir posibles desenlaces con el objetivo de minimizar el riesgo de aparición de estos valores perdidos.
  • Valores perdidos de forma no aleatoria (MNAR o Missing not at Random): En esta tipología, los valores faltantes de una variable están relacionados con los valores de esa variable en sí, incluso después de controlar otras variables. Un ejemplo de este tipo de caso sería la situación en la que los pacientes con síntomas más graves no responden un cuestionario sobre su sintomatología en comparación con pacientes con menor gravedad. En este caso, digamos que el propio estado de la sintomatología del paciente la que está influyendo directamente en la generación de valores perdidos.

 

Tipos de valores perdidos estadistica ensayos clinicos investigacion clinica Sermes CRO

En ocasiones no es fácil identificar la tipología de valores perdidos que tenemos, no obstante, existen algunas pautas que pueden ayudar a identificar si existe un patrón en los valores perdidos, o si determinadas variables están relacionadas con una mayor probabilidad de que existan valores perdidos. Por ejemplo, se pueden visualizar las variables que presentan valores perdidos y estudiar la relación entre la aparición de valores perdidos y determinado patrón en las variables del estudio, esto permitiría detectar situaciones relacionadas con casos MAR y MNAR. Para esta inspección visual, existen paquetes de R como VIM (Kowarik y Templ, 2016) y naniar (Tiener et al., 2021) que permiten, de forma sencilla, entender el patrón de los valores perdidos. También existen test estadísticos ómnibus para estudiar si los datos perdidos son del tipo MCAR, como el implementado en el paquete missmech en R (Jamshidian et al, 2014).

Estrategias para el tratamiento de los valores perdidos

El tratamiento de los valores perdidos se convierte en algo muy relevante, dado que un fallo a la hora de considerar los valores perdidos y su mecanismo durante el análisis puede conllevar a conclusiones erróneas (Kang, 2013). Por ello, existen diferentes estrategias de afrontamiento de los valores perdidos (Jakobsen et al., 2017) que, de forma resumida, serían:

  • usar solo datos de los participantes que completaron el ensayo sin datos faltantes;
  • utilizar todos los datos disponibles;
  • imputar valores (ya sea mediante imputaciones únicas o múltiples) para los datos faltantes y analizar con métodos utilizados en los casos completos;o
  • desarrollar un análisis para los datos que incluya un modelo para el proceso de datos faltantes.

No obstante, no todos los métodos son adecuados pues dependerá del tipo de valor perdido que se tenga y la cantidad de estos los que guíen la metodología a aplicar. La figura que se presenta a continuación indica los métodos para cada tipología de valor perdido además de prácticas que no se consideran adecuadas (Dziura et al., 2013; Fielding et al., 2008).

Si se trabaja con R, paquetes como mice (van Buuren y Groothuis-Oudshoorn, 2011) y Amelia (Honaker et al., 2011) son dos ejemplos de implementaciones del tratamiento de valores perdidos muy polivalentes.

El rol del análisis de sensibilidad

Como se ha visto, los valores perdidos en los ensayos clínicos son inintencionados, pero desafortunadamente inevitables. Cuando hay valores perdidos, surge una complejidad adicional, ya que cualquier análisis estadístico necesariamente hace una suposición no comprobable sobre la distribución de los datos no observados. Si se hace una suposición incorrecta, el efecto del tratamiento obtenido y su error típico estarán sesgados, lo que generará inferencias engañosas. Dado que no se puede saber el valor verdadero de ese dato, es necesario evaluar el impacto del enfoque utilizado en el análisis de sensibilidad (EMA, 2010).

Los análisis de sensibilidad pueden definirse como un conjunto de análisis en los que los datos se manejan de manera diferente en comparación con el análisis primario. Los análisis de sensibilidad pueden mostrar cómo las suposiciones, diferentes de las realizadas en el análisis primario, influyen en los resultados obtenidos (Jakobsen et al., 2017). Los análisis de sensibilidad deberían de quedar pre-especificados ya sea en el protocolo del ensayo clínico o bien en el Plan de Análisis Estadístico y no hacerse a posteriori (Mack et al., 2018).

En conclusión…

La estrategia para evitar los valores perdidos conlleva tener en cuenta todas las fases de desarrollo de un ensayo clínico, desde el diseño del estudio hasta el análisis de datos final, implementando métodos que permitan minimizar el riesgo de la falta de datos, así como estudiar planes de acción que permitan su detección y tratamiento (Pugh et al., 2022). Por ello, dentro de nuestro equipo de Sermes, todos de manera directa o indirecta trabajamos para que el impacto de los valores perdidos se reduzca y se puedan llevar a cabo los estudios de manera satisfactoria; tareas como el diseño del plan de monitorización de los pacientes, el cálculo del tamaño muestral o el diseño del CRD serán algunas de las muchas tareas fundamentales para este objetivo.

Desde el punto de vista del análisis de datos, no existe un único método universal para manejar los valores perdidos que proporcione resultados similares a un análisis con todos los datos completos. La mejor estrategia debe partir del estudio de los supuestos y causas que provocan la presencia de estos valores perdidos y comprender si existe un patrón que puede ayudar a detectar un mecanismo en estos datos faltantes.

En los ensayos clínicos, por norma general, se puede suponer que los datos faltantes pertenecen a las categorías MAR o MNAR, implicando, por tanto, que debe elegirse una metodología más adaptada para este tipo de casuística, descartando prácticas tradicionales que han mostrado su falta de fiabilidad e incluso mayor probabilidad de sesgo. Finalmente, se necesita llevar a cabo los análisis de sensibilidad para estudiar los posibles sesgos en los resultados (Cro et al., 2020).

Referencias

Allison, P. D. (2001). Missing Data. Sage publications.

Cro, S., Morris, T. P., Kenward, M. G., & Carpenter, J. R. (2020). Sensitivity analysis for clinical trials with missing continuous outcome data using controlled multiple imputation: a practical guide. Statistics in medicine, 39(21), 2815-2842.

Dziura, J. D., Post, L. A., Zhao, Q., Fu, Z., & Peduzzi, P. (2013). Strategies for dealing with missing data in clinical trials: from design to analysis. The Yale journal of biology and medicine, 86(3), 343.

European Medicines Agency (EMA) (2010). Committee for Medicinal Products for Human Use. Guideline on Missing Data in Confirmatory Clinical Trials. Available in: https://www.ema.europa.eu/en/missing-data-confirmatory-clinical-trials.

Fielding, S., Fayers, P. M., McDonald, A., McPherson, G., & Campbell, M. K. (2008). Simple imputation methods were inadequate for missing not at random (MNAR) quality of life data. Health and Quality of Life Outcomes, 6(1), 1-9.

Honaker, J., King, G., & Blackwell, M. (2011). Amelia II: A Program for Missing Data. Journal of   Statistical Software, 45(7), 1-47. URL https://www.jstatsoft.org/v45/i07/.

Jakobsen, J. C., Gluud, C., Wetterslev, J., & Winkel, P. (2017). When and how should multiple imputation be used for handling missing data in randomised clinical trials–a practical guide with flowcharts. BMC medical research methodology, 17(1), 1-10.

Jamshidian, M., Jalal, S., & Jansen, C. (2014). MissMech: An R package for testing homoscedasticity, multivariate normality, and missing completely at random (MCAR). Journal of Statistical software, 56, 1-31.

Kang H. (2013). The prevention and handling of the missing data. Korean journal of anesthesiology, 64(5), 402–406. https://doi.org/10.4097/kjae.2013.64.5.402.

Kowarik, A. & Templ, M. (2016). Imputation with the R Package VIM. Journal of Statistical   Software, 74(7), 1-16. doi:10.18637/jss.v074.i07.

Mack C, Su Z, Westreich D. Managing Missing Patient Data in Patient Registries. White Paper, addendum to Registries for Evaluating Patient Outcomes: A User’s Guide, Third Edition. (Prepared by L&M Policy Research, LLC, under Contract No. 290-2014-00004-C.) AHRQ Publication No. 17(18)-EHC015-EF. Rockville, MD: Agency for Healthcare Research and Quality; February 2018. www.effectivehealthcare.ahrq.gov. DOI: https://doi.org/10.23970/AHRQREGISTRIESMISSDATA.

Pugh, S. L., Brown, P. D., & Enserro, D. (2022). Missing repeated measures data in clinical trials. Neuro-Oncology Practice, 9(1), 35-42.

Rubin, D. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons, LTD.

Tierney, N., Di Cook, M., McBain, M. & Fay, C. (2021). naniar: Data Structures, Summaries, and Visualisations for Missing Data. R package version 0.6.1. https://CRAN.R-project.org/package=naniar.

van Buuren, S, & Groothuis-Oudshoorn, K. (2011). mice: Multivariate Imputation by Chained Equations in  R. Journal of Statistical Software, 45(3), 1-67. DOI 10.18637/jss.v045.i03.

Newsletter

Déjanos tu dirección de correo y te informaremos de todas las novedades

En colaboración con:

Certificados:

Encuentranos: