Durante años se ha asumido y promulgado la idea de que es importante almacenar enormes cantidades de datos, todos los que fueran posibles y unos pocos más si es necesario. Estos datos, después, se analizaban, procesaban y utilizaban para entrenar modelos que nos permitieran, no sólo entender como había evolucionado nuestro activo en los últimos tiempos, sino también entender hacia dónde iba y hacer predicciones o incluso establecer relaciones de causalidad con otros aspectos que no hubiéramos advertido antes. Como aclaración, hay que decir que hablamos de activo porque esto aplica tanto a las ventas de un negocio, al funcionamiento de una máquina cuando fabrica unos componentes, o a la aceptación de un político cuando hace unas u otras acciones.
Sin embargo, aunque los datos son la joya de la corona, acumular por acumular no es garantía de éxito. Hay dos aspectos clave que durante mucho tiempo no han gozado de su sitio en el escaparate, siendo relegados al rincón oscuro de nuestra joyería. Hablamos de la calidad y de la gobernanza del dato.
Cuando hablamos de calidad del dato hablamos de cuan bueno es un conjunto de datos (dataset), según una serie de dimensiones relativamente objetivas. Estas dimensiones incluyen, por ejemplo, aspectos como la precisión, completitud, duplicación, validez o consistencia de los datos. Cuando hablamos de joyas está claro que unas nos pueden gustar más que otras o que unas pueden tener más valor inherente que otras, por su rareza, por ejemplo. Lo mismo pasa con los datos, a priori. Un dataset de movilidad de cientos de miles de usuarios de una compañía telefónica tiene, en principio, más valor que el histórico de ventas de la pequeña frutería de la esquina. Y decimos a priori porque al tendero de dicha tienda, la movilidad de cientos de miles de personas probablemente no le importe. Todos tienen su nicho y lo que no tiene sentido es comparar uno con otro.
Por ello, al igual que con ciertas joyas tenemos indicadores como su pureza, kilates, facetas, peso que nos permiten comparar diamantes con diamantes, oro con oro y, en jerga más habitual, manzanas con manzanas (que recubriremos de oro para seguir con nuestro símil), los indicadores de calidad del dato nos van a permitir, por una parte, comparar datasets del mismo tipo entre sí y, por otra, informar al proveedor de los datos de si sus datos son buenos o no, de manera objetiva, y debe hacer para mejorar sus datasets.
¿Y por qué queremos que nuestro dataset tenga mayor calidad? Porque toda la información que podamos extraer a partir de ellos será mejor y más fiable cuanto mayor sea su calidad. Desde aquí, mejores serán los modelos, más fácil será entrenarlos, más fácil será establecer correlaciones, relaciones de causalidad o hacer proyecciones y previsiones, por ejemplo. Además, en otra dimensión que hemos de empezar a considerar, más interesantes serán estos datos de cara a un tercero y mayores serán las posibilidades de poder llegar a obtener un rédito por nuestros datos.
En este punto es dónde también entra la otra gran ignorada, la gobernanza del dato. Volvamos a nuestra joyería. Pensemos en esa persona que no tiene ni idea del mundo de las joyas y entra por la puerta, o a la web. Si lo que encuentra es un cajón desastre, donde los distintos productos están mezclados, sin orden ni concierto, simplemente un listado con fotos o nombres, donde no se especifican detalles de los materiales o la composición de cada joya, el cliente comprará por intuición, apariencia o se irá frustrado. Esto puede ser peor si además es un cliente experimentado, que verá el caos y no perderá el tiempo con ello.
Con los datos tenemos el mismo problema. Si de lo que disponemos es de una serie de tablas en bases de datos, con columnas con nombres poco intuitivos, que no están descritas en ningún sitio, de las que no de no hay un esquema de relaciones entre datos, al final lo que estamos causando es frustración a la persona que quiere o debe utilizar esos datos. No sólo esto, además, si esa persona cobra por horas va a necesitar una cantidad ingente de ellas para entender qué tenemos almacenado en nuestras bases de datos, con lo que nuestro caos se habrá vuelto contra nuestro bolsillo.
El campo de la gobernanza de datos es amplio, pero dos de los aspectos básicos con los que se trabaja son los glosarios y los catálogos de datos. Los glosarios contienen términos y descripciones de nivel de negocio que se relacionan con nuestros datos. A qué nos referimos cuando hablamos de ventas, o de beneficio, o de cualquier otro concepto no técnico. Los catálogos de datos están orientados a la descripción técnica de los datos, qué tipo de campos, rangos entre los cuales puede estar comprendido un valor, etc. Hacer el esfuerzo inicial de estructurar nuestros datos en estas dos dimensiones va a facilitarnos la vida enormemente cuando demos el paso de querer explotarlos.
En ITI, estamos trabajando actualmente en proyectos como INDDIS en los que el objetivo es crear una arquitectura modular que ayude a las empresas a incorporar aspectos como la gobernanza o la calidad del dato a sus procesos. Estos pasos son necesarios para avanzar en los procesos de madurez tanto en digitalización como de explotación de datos. Igualmente, dentro de los objetivos de ITI como agente catalizador de la innovación en la Comunidad Valenciana, está el facilitar que las empresas puedan probar estas herramientas en nuestras instalaciones, para lo que estamos desarrollando una infraestructura con la que las empresas puedan trabajar con sus datos sin necesitar de hacer una cuantiosa inversión en recursos computacionales sin tener claro, de antemano, el potencial de dichas herramientas y los beneficios que pueden derivarse de su uso.