Nivel técnico del artículo

La leucemia mieloide aguda, o LMA, es una enfermedad caracterizada por un amplio espectro de alteraciones moleculares que conducen a la malignización de las células hematopoyéticas de la médula ósea; concretamente, aquellas que deberían convertirse en los glóbulos rojos, blancos y plaquetas de nuestra sangre. Este es el tipo más frecuente de leucemia en adultos, con una tasa de supervivencia a 5 años de tan solo un 30% aproximadamente. Solo en España, se estima que cada año se diagnostican unos 2000 casos nuevos (Ministerio de Sanidad).

El objetivo del tratamiento (o inducción de la remisión) es alcanzar la remisión completa, un estado en el que los signos de leucemia se vuelven indetectables. Sin embargo, incluso si la enfermedad responde de manera favorable al tratamiento, todavía puede seguir remanente y reaparecer en el futuro. Si bien la recaída en la enfermedad es uno de los problemas que más preocupación genera, también existen los casos en que una resistencia al tratamiento ralentiza o inhabilita la llegada a la remisión. Además, la toxicidad inherente al tratamiento puede contribuir a la alta mortalidad en las fases tempranas.

El trabajo realizado en el marco del proyecto PANAKEIA se centra precisamente en predecir el riesgo de padecer todas estas complicaciones como respuesta al tratamiento de la LMA. Se trata de una tarea vital para ajustar el tratamiento en cada caso, siempre buscando minimizar las complicaciones a corto plazo y alejar aquellas a largo plazo. La misión, en resumen, consiste en maximizar la supervivencia.

Esquema de un estimador que, con datos recogidos previos al tratamiento, predice el riesgo de complicaciones a diferentes horizontes temporales.

Esquema de un estimador que, con datos recogidos previos al tratamiento, predice el riesgo de complicaciones a diferentes horizontes temporales.

 

 

Para lograr estos objetivos, ITI ha desarrollado este trabajo  con el Hospital 12 de Octubre (Madrid) y el Instituto de Investigación Sanitaria La Fe (Valencia). Gracias a nuestros colaboradores, hemos reunido un conjunto de datos de pacientes diagnosticados con LMA que incluye información demográfica, resultados de análisis previos al tratamiento y datos de alteraciones genéticas y citogenéticas. Las variables genéticas nos indican qué proporción de células poseen mutaciones entre una amplia colección de genes, mientras que las citogenéticas dan información similar para grandes secciones del genoma.

Un trabajo preliminar, materializado en una publicación en medRxiv, encontró que cuatro factores eran capaces de predecir el riesgo de complicaciones a 3 meses con considerable éxito. Estos factores de riesgo son la edad, el conteo de glóbulos blancos en sangre, el sexo y las mutaciones del gen TP53 (el famoso «guardián del genoma»). Un modelo de inteligencia artificial entrenado con tan solo estas cuatro variables alcanza un AUROC de 0.85 cuando se evalúa por cross-validation, y un AUROC de 0.7 en validación con una cohorte externa. En base a este trabajo, construimos un modelo predictivo que, alojado en la nube, permite a cualquier usuario interesado introducir sus datos para predecir un riesgo asociado. Este modelo ya ha sido utilizado en los hospitales para comenzar a evaluar las predicciones en un entorno real. No obstante, una ventana temporal de 3 meses es relativamente corta, tan solo capaz de predecir las complicaciones más inminentes al inicio del tratamiento.

Partiendo de un primer trabajo alentador, ampliamos el punto de mira a tres horizontes temporales: 3 meses, 6 meses y 1 año después del diagnóstico. Cada uno se corresponde con nuevo modelo clasificador, dando así un total de tres predicciones. El subconjunto de variables con que mejor funciona cada modelo es seleccionado por un método basado en nuestro algoritmo SEQENS. Este algoritmo estima la fuerza de la relación que tiene cada variable predictora con el resultado a predecir (o target). Es capaz de identificar las variables más relevantes para una tarea dada sin desconsiderar sus interacciones, yendo así más allá que los métodos univariantes. En este trabajo, añadimos una novedad al método introduciendo un paso de barajado de target. Rompiendo las relaciones entre las variables y el target, podemos determinar la importancia mínima requerida por cada variable para asegurar que no hacemos una selección casual. Múltiples repeticiones del experimento dan mayor evidencia estadística al resultado de la prueba, donde podemos diferenciar qué variables podrían haber sido escogidas meramente por efectos del azar. Una vez tenemos aisladas las variables que, ahora con mayor seguridad, tienen algo que aportar, una «eliminación hacia atrás» (backwards selection) encuentra el grupo más reducido posible de variables que tiene el mayor poder predictivo.

La aplicación del método anterior ha resultado en tres listas de características relevantes, una por cada horizonte temporal propuesto. Entre estas listas coinciden la edad, mutaciones en los genes TP53 y EZH2, así como la pérdida de brazo largo del cromosoma 7. Estos resultados comunes se alinean muy bien con la bibliografía médica existente, aunque en el resto de variables encontradas específicamente para cada ventana temporal podría estar también la clave para facilitar la toma de decisiones precisas y personalizada para cada paciente. Los nuevos modelos entrenados con sus respectivos subconjuntos de características para predecir complicaciones a 3, 6 y 12 meses alcanzaron métricas de AUROC de 0.82, 0.84 y 0.85 respectivamente. Además, los resultados obtenidos con los conjuntos reducidos de variables fueron superiores en todos los casos respecto a utilizar el conjunto completo, evidenciando así la efectividad del método. Los tres modelos predictivos pueden probarse bajo demanda.

Más allá del trabajo de investigación que busca identificar las variables relevantes y mejorar el rendimiento de los modelos, un objetivo importante de este proyecto consiste en facilitar el uso de dichos modelos mediante una herramienta de apoyo a la decisión. La idea es que, a más o menos largo plazo, se logre su implantación en los sistemas de información de los centros sanitarios y se haga posible su uso directo por parte de los equipos clínicos. Por lo tanto, recortar el número de factores necesarios para obtener una predicción mientras que se preserva el poder predictivo (o incluso, en este caso, se potencia) es un gran paso en esta dirección.

Aunando fuerzas con nuestros hospitales colaboradores, seguimos investigando para lograr hallazgos que se traduzcan finalmente en mejoras palpables en la práctica clínica.

Autor
Pedro Pons Suñer | Investigador en Inteligencia Artificial en ITI

Posts relacionados