Nivel técnico del artículo

Piensa en un puzle. Si tienes niñas pequeñas, como yo, tienes 100 piezas de Elsa y Anna frente a ti, pero esa no es la cuestión ahora. Cada una de esas 100 piezas es un fragmento de datos. Por sí mismos, probablemente no significan nada o no tienen un propósito definido. Sin embargo, cuando juntamos esas piezas somos capaces de crear una imagen, algo valioso. Hacer el puzle suele ser sencillo, puede tomar más tiempo o no, pero tienes un grupo perfecto de piezas, que combinan y se complementan entre sí y permiten extraer un valor agregado, conclusión… o una imagen de Frozen.

Ahora bien, todo se complica si tus hijas deciden mezclar tres puzles, cogen 20 piezas al azar para testear su flotabilidad en la bañera y un par más para ver si saben a chocolate o no. Ahora resulta que tenemos más datos de los que necesitamos (digamos unas 300 piezas), aunque, sin embargo, estos datos están incompletos (esas 22 piezas caídas en combate), y casi que mejor nos olvidamos de volver a ser capaces de montar el puzle de marras completo nunca más.

Estos son algunos ejemplos de los desafíos a los que se enfrentan las organizaciones con sus datos. Las organizaciones tienden a almacenar datos que acabarán sin ser usados nunca, tal vez porque no están bien descritos, o porque quien pudiera usarlos no es capaz de encontrarlos, o son inusables. Además, estos datos suelen tener problemas: pueden estar incompletos, puede haber outliers, puede que estemos haciendo referencia a una misma información de distintas formas …, básicamente, no tienes un puzle de 100 piezas. En general, encontramos que las organizaciones tienen grandes cantidades de datos, pero que estos no son datos de calidad. Esto tiene una consecuencia crítica y es que es extremadamente difícil monetizarlos.

Las organizaciones necesitan herramientas que les permitan enriquecer, de manera sencilla, sus datos con metadatos, de manera precisa y consistente, para que el personal no técnico que lo necesite pueda encontrarlos, usarlos y consumirlos fácilmente. También necesitan herramientas para garantizar que los datos sean buenos y, si no, poder ser capaces de identificar donde están los problemas y resolverlos. Es igualmente importante definir políticas de seguridad que aseguren que sólo aquellos que están autorizados puedan acceder a los datos, evitando brechas de seguridad. Una vez estos aspectos hayan sido tenidos en cuenta, podremos confiar en nuestros datos y pensar en cómo monetizarlos, cómo explotarlos internamente, o crear modelos o proyecciones confiables que ayuden a mejorar nuestro flujo de caja. Es más, hay incluso otras opciones a considerar, como compartir o intercambiar nuestros datos con terceros. Sin embargo, aquí, nuevamente, es necesario poder definir y hacer cumplir unos términos de uso que nos den garantías, lo cual no es trivial en absoluto. Y eso suponiendo que la empresa cuente con personal técnico y comercial que sepa cómo manejar sus datos.

Actualmente, existen herramientas que nos pueden ayudar con nuestros datos… pero no cubren todas las necesidades que tienen las empresas. Además, la mayoría de ellas requieren el pago de una licencia difícilmente asequible, especialmente para una pyme. También disponemos de herramientas de open-source que pueden ayudar con algunas de estas necesidades, pero no tenemos un paquete que combine esas herramientas de manera sencilla y que pueda servir a las organizaciones que forman el tejido productivo europeo a resolver sus problemas.

De estos problemas es de donde surge Datamite. Durante el proyecto, crearemos una plataforma modular y open-source que cubra un amplio abanico de funcionalidades relacionadas con el gobierno, la calidad, la seguridad y el intercambio de datos. Además, fomentaremos la creación de una comunidad open-source en torno al proyecto, con el objetivo de crear y distribuir distintos materiales de formación, tanto de tipo técnico sobre las herramientas de la plataforma, como con un objetivo más de negocio, centrado en la explotación y monetización de los datos. Todo ello tiene un objetivo, el de facilitar la formación de nuevos profesionales del dato en la Unión Europea, así como ayudar a las empresas a aumentar su nivel de madurez en todo lo relacionado con el dato.

Para conseguirlo, Datamite cuenta con un consorcio amplio y balanceado, que coordinaremos desde ITI y que se compone de 26 socios de 12 países. Para validar nuestro trabajo, desplegaremos hasta 6 pilotos diferentes en distintos contextos (industria y manufactura, energía, agroalimentación o meteorología) y con diferentes objetivos, como compartir datos en Data Spaces, la plataforma europea para la AI On Demand (AIoD) o EOSC; mejorar la forma en que se consumen los datos dentro de las grandes empresas; o en facilitar cómo estos datos pueden ponerse a disposición de la comunidad investigadora en la UE.

Tú decides, ¿qué prefieres? ¿un montón de piezas? ¿o montar tu propio puzle?

Autor
Jordi Arjona - ITI
Jordi Arjona | Coordinador del grupo de Sistemas Distribuidos (SiDi) de ITI
Categorías