Nivel técnico del artículo

Llevamos años en un proceso de digitalización global de todos los ámbitos de nuestra vida, tanto de empresas, administraciones gubernamentales, acceso a información, hasta nuestro entretenimiento cada vez depende más del uso de tecnologías como, por ejemplo, plataformas de Streaming, redes sociales o videojuegos. Este imparable proceso tiene un efecto secundario, la cantidad de datos generados. Se estima que en 2020 cada segundo se generaba 1,7 MB de datos por persona. En este punto es donde entra el Big Data Analytics como medio para extraer un valor añadido de esos datos que permita optimizar los procesos de producción.

Las empresas pueden acceder a servicios de Big Data Analytics que ofrecen las grandes compañías tecnológicas en la nube, pero muchas veces el coste de estos servicios no es asumible por pequeñas y medianas empresas y se opta por soluciones on-premise que permitan explotar los recursos computacionales que posee la propia empresa.

Además, otro factor a tener en cuenta a la hora de decidir donde desplegar un servicio Big Data es la privacidad de los datos. Por su naturaleza, hay muchos conjuntos de datos con información sensible que las empresas necesitan proteger de ojos ajenos y las compañías que ofrecen servicios Big Data Analytics en la nube pueden garantizarte que nadie más va a acceder a tus datos una vez empiezas a procesarlos. Pero lo cierto es que el usuario no tiene ningún control sobre lo que realmente está pasando en los nodos computacionales en la nube.

Cuando una empresa decide desplegar servicios Big Data Analytics on-premise sobre sus propios recursos computacionales surgen ciertas complejidades. Por un lado, la complejidad de instalación, configuración, mantenimiento y actualización de cada una de las tecnologías que componen cada servicio, y, por otro lado, el cómo sacar el máximo partido a recursos computacionales que estén divididos en diferentes clusteres con diferentes redes de comunicación.

El proyecto Radiatus surgió como respuesta a todos estos problemas. Radiatus es una plataforma Big Data Analytics como servicio que permite el despliegue de tecnologías para el análisis de datos de una manera muy fácil e intuitiva. El proyecto se encuentra en la cuarta anualidad y ya dispone de más de una veintena de tecnologías de la comunidad integradas como: Jupyter, Zeppelin, Spark, Flink, Cassandra, Kafka, MySQL, HDFS, MinIO,… Además, hemos desarrollado tecnologías propias como DistributedML, un framework para el entrenamiento de modelos de Machine Learning. Radiatus dispone también de un sistema de gestión de usuarios multi-tenencia, que permite organizar dichos usuarios en grupos y asignarles recursos computacionales dedicados para el despliegue de sus servicios. Asimismo, Radiatus también puede hacer uso de recursos GPU para la ejecución de cómputo de altas prestaciones.

Uno de los últimos desarrollos de Radiatus ha sido el sistema de federación que permite interconectar diferentes plataformas para poder compartir los recursos computacionales de todas ellas con los usuarios. Esta funcionalidad es muy útil, por ejemplo, para enlazar diferentes plataformas Radiatus en los niveles Edge, Fog y Cloud, permitiendo así la ejecución de servicios de procesamiento de flujo de datos con un modelo de Data Continuum, o también para el aprovechamiento de recursos computacionales alojados en diferentes clústeres para el despliegue de servicios de Big Data.

Para el futuro, seguimos investigando sobre nuevas tecnologías que aporten un valor añadido a Radiatus y continuamos integrando nuevos servicios y actualizando los existentes para ofrecer la plataforma más completa posible.

Autor
Enrique Gil- ITI
Enrique Gil Arcas
Categorías
Etiquetas