Nivel técnico del artículo

Inteligencia Artificial

Según la Real Academia Española de la Lengua, la Inteligencia Artificial (IA) es la “disciplina científica que se ocupa de crear programas informáticos que ejecutan operaciones comparables a las que realiza la mente humana, como el aprendizaje o el razonamiento lógico”. Se ha escrito mucho sobre cómo caracterizar y distinguir lo que llamamos “artificial” en oposición a lo que denominamos “natural”, pero aceptemos para nuestro análisis que con ese adjetivo nos referimos simplemente al hecho de que es un producto directo de la actividad humana y centrémonos en la partícula “inteligencia”. Si bien es cierto que el aprendizaje y el razonamiento lógico son cualidades que somos capaces de imitar hasta cierto punto utilizando algoritmos de IA, sería muy optimista y aventurado afirmar que se están produciendo comportamientos comparables a los de la mente humana, porque el aprendizaje, en las personas, entre otras diferencias importantes, se desarrolla en un contexto de culturalidad, sensorialidad, corporalidad y consciencia. Pero aquí queremos llamar la atención sobre una sorprendente cualidad que rara vez se menciona al hablar de los algoritmos de IA y que pueden llegar a compartir con el ser humano. Se trata de un rasgo específico que nos recuerda poderosamente a lo que, en las personas, popularmente denominamos “picardía”. Lo desarrollamos.

Imaginemos el problema de diferenciar dos tipos de aves, canarios y gaviotas, a través de una serie de imágenes. El ser humano, con ayuda de su contexto, tiene el conocimiento de que son animales voladores, de modo que su razonamiento lógico podría ser el de buscar diferencias por color, tamaño o forma del pico. Además, los seres humanos sabemos que los canarios son pájaros domésticos, mientras que las gaviotas, no. Actualmente no es habitual que este conocimiento previo se le proporcione a un algoritmo de IA, pero un posible mecanismo mediante el que un modelo puede aprender a clasificar estas imágenes es fijándose, por ejemplo, en si la imagen contiene barrotes que sugieren una jaula. A esto nos referimos con el término “picardía”. Si un modelo aprovecha características más sencillas, como los barrotes, franjas verticales fáciles de identificar en una imagen, y obvia las características complejas que diferencian las dos especies de aves, de alguna forma nos estará engañando. Mediremos sus prestaciones y las consideraremos satisfactorias. Sin embargo, el modelo no es correcto y dejará de funcionar en el momento aparezcan fotos de canarios en libertad o de gaviotas cerca de vallas o balcones.

Aunque esta crítica haya podido dar la impresión contraria, en el Instituto somos apasionados y fervientes defensores del uso correcto de la tecnología de IA y, por ello, trabajamos en generar conocimiento para poder exprimir de una forma adecuada toda la potencia de la IA. Es por ello que, a través de este artículo, os presentamos nuestro último trabajo enmarcado en el proyecto BIGSALUD y recientemente publicado en la revista IEEE Access

Planteamiento del problema

Los primeros meses de pandemia todos los grupos de investigación del mundo queríamos aportar nuestro granito de arena para “derrotar al virus”. Este ímpetu motivó la puesta en común de radiografías de pacientes con COVID-19 por parte de la comunidad científica, permitiendo que los equipos de investigación en IA pudiesen entrenar modelos con los que detectar las primeras señales de la COVID-19. Estos modelos, desde el principio, dieron rendimientos muy altos, pero una primera intuición crítica nos condujo al razonamiento que desarrollamos en el artículo y en los párrafos siguientes.

Como la enfermedad es pulmonar, el área del pulmón, en principio, debe contener toda la información relevante para detectar la enfermedad. Según esta hipótesis, podemos establecer dos premisas: cuando solo se ve el pulmón, los algoritmos de IA deberían obtener la máxima precisión, y cuando no se ve nada del pulmón, la decisión debería ser totalmente arbitraria, como tirar una moneda.

Figura 1: Planteamiento del problema.

Aprendizaje profundo (Deep Learning)

El Aprendizaje Profundo está en todas partes últimamente y ha demostrado ser una metodología muy potente que se aplica en campos muy diversos, por ejemplo, a la detección de peatones o vehículos en sistemas de conducción autónoma, a la ayuda al diagnóstico o pronóstico de enfermedades, a la traducción entre diferentes idiomas, etc. Se trata de un paradigma de aprendizaje automático muy poderoso: dada una entrada de la que conocemos su clase (muestra de entrenamiento), se especifica la salida esperada y una manera de medir el error de lo esperado frente a lo predicho, y el propio modelo puede adaptarse cada vez mejor para la resolución del problema sin especificar manualmente un diseño específico de la solución ni definir de antemano en qué parte de los datos de entrenamiento se debe fijar. Pero esta libertad en el aprendizaje tiene el peligro de que la red acabe “resolviendo” el problema de formas que no esperábamos y, en ocasiones, a la hora de la verdad, de no conseguir un modelo que sea realmente útil.

Principales resultados

En el estudio analizamos la presencia o ausencia de sesgo en tres bases de datos públicas de radiografías de tórax: BIMCV (creada en la Comunitat Valenciana), RSNA y CheXpert. Para ello, estableciendo la premisa anteriormente descrita sobre la zona donde debería estar la información, se estudia lo que ocurre realmente con la clasificación de cada imagen en dos análisis:

    1. El estudio de las áreas de la imagen que son discriminativas para la tarea. Viendo cuál es la zona de la imagen en la que realmente se está fijando el modelo para producir una clasificación de esa imagen como positiva (evidencias de covid-19) o negativa (sana) en cada caso, somos capaces de comparar este comportamiento con el esperado si la información estuviese contenida exclusivamente en la zona pulmonar y el algoritmo se estuviese focalizando en dicha zona para decidir.
    2. El entrenamiento de varios modelos con las imágenes procesadas de diferentes maneras y la evaluación de su rendimiento. En una primera fase ampliando gradualmente el fondo y, en la siguiente, eliminando paulatinamente los pulmones.

Según los resultados de la experimentación, la hipótesis original de la picardía se vio confirmada por dos hechos. Primero, el estudio de las zonas de activación (o área de la imagen en la que se fija la red neuronal para predecir) reveló que el clasificador de aprendizaje profundo se solía fijar en zonas externas al pulmón que, en principio, no contienen información relativa a la enfermedad, como se puede ver Figura 2. Así que haciendo uso de la ya mencionada “picardía” en la que los barrotes de la jaula decidían el tipo de animal, la red ha observado que las zonas de texto pueden ser usadas para diferenciar las radiografías de pacientes con y sin COVID-19, tal vez porque la máquina usada para tomar radiografías en pacientes con alta sospecha de COVID-19 es diferente e incluye una R o el hospital donde se tomaron suele hacerlo así por norma y donde se obtuvieron las imágenes de pacientes con poca probabilidad de COVID-19 siguen un protocolo diferente.

 

Figura 2: Áreas discriminativas de la imagen.

 

Y, especialmente, en segundo lugar, el hecho de eliminar los pulmones no “cegaba” al clasificador como debería (ver Figura 3), sino que este todavía arrojaba una precisión de detección bastante alta, más cuanto más sesgada era la base de datos. Además, el hecho de empezar con los pulmones solamente e ir incrementando la porción de fondo visible, hacía aumentar la precisión, hecho coherente con las zonas de activación externas que se apreciaron, pero no justificable según la naturaleza del problema.

 

Figura 3: Rendimiento de los modelos variando las imágenes.

En definitiva, siguiendo con el símil de canarios y gaviotas, el sistema de IA está aprendiendo a detectar la jaula y no el animal. Esto, obviamente, no aporta un conocimiento útil ya que, en el caso que nos ocupa, si en el hospital que proporcionó las imágenes de entrenamiento de pacientes sin COVID-19 empezasen a ingresar pacientes con COVID-19, la mayoría serían diagnosticados como libres de COVID-19, y viceversa.

A la vista de estos resultados, podemos considerar que las fuentes de datos utilizadas presentan un sesgo elevado. Para el caso concreto de los conjuntos de datos disponibles, la información que incorporan está indirectamente relacionada con la COVID-19. Sin embargo, también incorporan información que depende de las condiciones de adquisición o manipulación. Y justamente esa particularidad es la que puede provocar un entrenamiento inadecuado del modelo de IA.

Conclusión

Como idea final, podemos quedarnos con el hecho de que “no es oro todo lo que reluce”. En este caso concreto, mediante el trabajo llevado a cabo, se demuestra que los resultados de detección automática de patologías mediante el análisis de imágenes médicas, que han tenido amplia repercusión en los medios de comunicación dado el contexto de excepción en el que nos encontramos por causa de la pandemia de COVID-19, son a menudo demasiado optimistas al no tener en cuenta un análisis del sesgo.

En ocasiones, la realidad es bastante más compleja, y problemas de desbalanceo entre casos y controles, o problemas más profundos como el caso del sesgo intrínseco a la base de datos pueden generar falsas expectativas. Se tiende a considerar el Aprendizaje Profundo como una “navaja suiza” que lo resuelve todo de manera fácil, pero también hay que recalcar la necesidad de estudiar en profundidad los problemas, más aún en estos casos, en los que la salud es la que está en juego.

A partir de aquí…

Demostrada la existencia de fuentes de sesgo en las bases de datos, el siguiente paso natural, en la que el equipo del proyecto de BIGSALUD está trabajando, es la definición de una metodología que permita, de alguna manera, cuantificar el rendimiento que obtendríamos con una aproximación iterativa no supervisada. De esta manera, podríamos estimar una referencia para informar de qué parte del rendimiento del modelo es debida al sesgo y qué parte es debida al clasificador. Si la referencia es similar al rendimiento obtenido por el clasificador esto querrá decir que, a pesar de presentar una precisión elevada, los datos pueden presentar sesgo y debería hacerse un análisis más detallado.

Autor
Francisco Javier Pérez - Benito-ITI
Francisco Javier Pérez-Benito | Técnico 3 de I+D
Etiquetas

Posts relacionados