La audición por computador (AC) (machine listening) es el campo del conocimiento que tiene como objetivo la obtención de información relevante a partir de señales de audio. Debido a los avances que se han producido en los últimos años (aumento de en la cantidad de datos generados, mejora en la capacidad de computación, etc.) las soluciones basadas en Inteligencia Artificial (IA) se han establecido como el estado del arte. Dentro del dominio de la AC, existen varios subdominios como el reconocimiento del habla (speech recognition), música (fraude, generación, etc.), etc.
En este blog nos centraremos en el subdominio de los audios genéricos. Se definen estos audios como aquellos que no tienen componentes musicales ni de habla humana. Este tipo de audios tienen una serie de características que dificultan la implementación de soluciones de IA basadas en ellos. Dos diferencias respecto al reconocimiento del habla son:
- Los audios genéricos no tienen un vocabulario cerrado. En el reconocimiento del habla existe un número finitos de sonidos que pueden ser generados.
- Los audios genéricos no son causales, es decir, que suceda un evento no implica que posteriormente suceda otro. En el habla, la estructura de una oración es siempre la misma o muy similar y el algoritmo de IA puede aprender patrones casuales.
Algunas aplicaciones concretas que se pueden realizar con este tipo de audios pueden ser: clasificación de escenas sonoras, detección de eventos sonoros, definición del audio mediante una oración o la detección de anomalías sonoras en máquinas, entre otras.
Si bien el estado del arte académico ha avanzado mucho en los últimos años en las distintas aplicaciones previamente mencionadas, existe una principal limitación para la transferencia de dichas soluciones a la industria: falta de datos. A día de hoy, existen escasas bases de datos de audios genéricos disponibles para experimentar y proponer soluciones de IA. Algunas de ellas son UrbanSound8k, ESC-50 o Audioset por mencionar algunas. Audioset es una gran base de datos (la más grande hasta la fecha) creada mediante la extracción de audios de muchos vídeos de YouTube. Es cierto que esta base de datos es amplia y podría ser utilizada para algoritmos de IA, sin embargo, existe una gran limitación: la licencia. A día de hoy, las bases de datos disponibles tienen una licencia de uso académico o de investigación y no comercial. En el caso concreto de Audioset, la licencia de cada audio pertenece al creador del mismo, lo que imposibilita su uso para uso comercial.
Otra consideración de las bases de datos es su etiquetado. Definimos “etiqueta” como a la definición que se realiza del audio por una persona. Esta etiqueta puede ser una definición corta como, por ejemplo: “ladrido de pedro” o una oración más compleja: “perro ladrando en un parque con personas hablando en el fondo”. En el primer caso, estamos hablando de un problema de clasificación o detección y en el segundo de un problema de generación de oración. El objetivo final del algoritmo consiste en crear una función que sea capaz de mapear el audio en la etiqueta. El proceso de etiquetado o labeling en inglés es costoso en términos de tiempo ya que el audio debe ser escuchado por varias personas (validación cruzada o cross-validation en inglés) y posteriormente almacenado de forma eficiente en una base de datos.
El proyecto Soroll-IA tiene como objetivo la creación de una base de datos de audios genéricos en un entorno portuario. Para ello, se han desplegado una serie de nodos acústicos en lugares estratégicos del mismo. Debido a la gran cantidad de datos que se esperan recolectar, será imposible etiquetarlos todos en un futuro cercano. Por tanto, en el marco de este proyecto, se pretenden investigar técnicas de aprendizaje activo (AL) o active learning en inglés. Se conoce como AL al conjunto de técnicas que tienen como objetivo maximizar el rendimiento de un algoritmo de IA de un problema concreto optimizando el presupuesto de etiquetado (número de personas y horas totales que se pueden etiquetar). A modo de ejemplo, supongamos que se disponen de tres millones de audios y debido a limitaciones de tiempo solo se pueden etiquetar cincuenta mil. En este contexto, la elección de qué cincuenta mil es vital ya que esas pocas muestran deben ser representativas de toda la base de datos, es decir, de los tres millones. Las técnicas encargadas de seleccionar las muestras a etiquetar son las conocidas como de AL. A modo de resumen, las técnicas de AL deben garantizar la elección de audios representativos de los eventos presentes en el entorno bajo estudio.
La creación de la base de datos Soroll-IA dotará a ITI la posibilidad de encarar futuros problemas de AC de una forma eficiente y eficaz. Si bien el entorno no tiene por qué ser el mismo, la utilización de datos provenientes de otros entornos ha mostrado resultados prometedores en el estado del arte. Esta técnica, conocida como ajuste fino (fine-tuning) consiste en tener un modelo de IA pre-entrenado con datos propios (en este punto no es relevante el entorno en el que hayan sido grabados) y reajustarlo al problema concreto que se pretende solucionar. Esta aproximación muestra un comportamiento más robusto y preciso a la conocida como “desde cero” o from scratch en inglés en el que el modelo de IA es sólo entrenado con muestras del entorno concreto. Con esta aproximación de ajuste el algoritmo hace uso de un conocimiento previo y ajusta sus parámetros de una forma más rápida y precisa, reduciendo también el número de muestras necesarias del entorno que se quiere solucionar debido al conocimiento previo.
El objetivo a largo plazo por parte de ITI es ir incrementando Soroll-IA con audios de distintos entornos y poder dotar a un modelo IA de un conocimiento previo cada vez más valioso.