Cada vez más empresas están adoptando soluciones de Big Data Analytics para obtener conocimiento y descubrir patrones subyacentes en las grandes cantidades de datos que se generan y recolectan hoy en día.
Aunque existen herramientas gratuitas y de código libre para implementar estas soluciones, la complejidad de su configuración y despliegue, así como la necesidad de definir los algoritmos a utilizar en los análisis, hacen que su utilización en las empresas se realice de forma indirecta, a través de servicios ofrecidos por centros especializados.
En este contexto, ITI realizó en 2017 la preparación de un entorno de infraestructura elástica para Análisis Big Data en la nube que facilite la configuración y despliegue de la misma, sin necesidad de inversión extra en recursos de Hardware.
Durante 2018, el proyecto Radiatus2 ha continuado con los trabajos iniciados en 2017, avanzando en la investigación, diseño y prototipado de servicios elásticos de Big Data Analytics (BDAaaS) en la nube sobre la plataforma ECloud – Platform as a Service (PaaS) para el tratamiento de datos en Tiempo Real (Streaming).
Así, en la primera fase del proyecto se realizó un análisis y evaluación de las tecnologías existentes para realizar el procesamiento y adquisición de datos en Streaming con el objetivo de definir aquellas que se podían adaptar al modelo de servicio PaaS de Ecloud utilizado en el proyecto, considerando la escalabilidad y la eficiencia del entorno. A continuación, se realizó el diseño arquitectónico de los servicios, identificando los componentes de los mismos con el fin de optimizar el rendimiento. A partir de aquí, se comenzó el proceso de preparación y adaptación con el fin de aprovechar las características de ECloud.
La primera versión de Radiatus (2017), se enfocó en el análisis de un conjunto de tecnologías habitualmente utilizadas en un análisis exploratorio, y se ha concluido con la integración de tres capas de tecnologías, tecnología analítica, sistema de procesamiento distribuido y finalmente una base de datos distribuida. Este primer enfoque cubría, en gran medida, los puntos relevantes para un análisis exploratorio de datos.
No obstante, para el diseño de un servicio que permita el soporte de procesamiento de datos en streaming, se han necesitado elementos claves para poder hacer la ingesta, procesamiento y almacenamiento de los datos provenientes de los elementos generadores de datos (dispositivos IoT, mensajes de redes sociales como twitter, Facebook, entre otros).
Para el desarrollo de estos servicios se han seleccionado dos alternativas, la primera permite a los analistas de datos hacer análisis de texto en tiempo real a través de un sistema de ingesta de datos y con una arquitectura que integra un motor de búsqueda de texto completo, distribuido y escalable.
La segunda alternativa permite la inyección de datos a través de una plataforma de alto rendimiento y de baja latencia que es compatible con Cloud y que permita la manipulación de los datos en tiempo real. Esta última principalmente diseñada para los nuevos desafíos de la industria 4.0.
Finalmente, se ha realizado la integración de las diferentes tecnologías y la evaluación de los servicios con el objetivo de analizar la calidad de prototipo implementado.
Con este proyecto, se ha creado un servicio de Big Data Streaming Analytics en el ecosistema de RADIATUS con el que se proporcione a las empresas TIC de la Comunitat Valenciana de una infraestructura elástica, permitiendo a su vez la democratización de las soluciones de Big Data Analytics entre la PYME valenciana.