Nivel técnico del artículo

Durante la última década hemos asistido al auge imparable de los datos, a escuchar afirmaciones como que los datos son el nuevo oro negro, que mueven el mundo o que son el principal activo de una empresa. Paparruchas. Pongamos un ejemplo claro de ello:

«Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.»

Este párrafo son datos. Posiblemente, una de las series de datos más repetidas en los 180 Zettabytes de datos que se presume que habrá almacenadas en todo el mundo para 2025. Creo que podemos estar de acuerdo en que su valor es cero.

Esto no aplica sólo a los datos. ¿Cuánto vale un trozo de carbón? Podemos estar hablando de uno de los materiales más abundantes en la tierra y su precio por kilo rondará los 5-6€ aproximadamente. No es nada del otro mundo. No está mal para una piedra, pero tampoco nos hará ricos encontrarnos un pedazo por el campo. Igual nos sirve para hacer unas brasas o echarlo a la estufa. Lo mismo pasa con el papel, hay papeles de muchos tipos, más gramaje, espesor, brillo, rugosidad… pero, de manera similar, no esperaremos que un  rollo de papel higiénico tenga un valor fuera de lo normal.

Sin embargo, la cosa cambia si hablamos de estos materiales una vez “procesados”. Si hablamos de carbono en vez de carbón, de gran pureza y procesado, por ejemplo, aplicándole grandes cantidades de presión y temperatura, en las cantidades adecuadas, durante el tiempo adecuado, lo que tenemos son diamantes. Claro que cambia. Ahí ya no nos importaría cruzarnos con un kilo de ellos y, desde luego, no van a 5-6€/kilo. Lo mismo pasa con el papel, no es lo mismo el papel higiénico que otros tipos de papel, específicos, con un tratamiento adecuado, pintados de morado y con un 500€ escritos en ellos. Con los datos pasa lo mismo. Ni todos los datos valen lo mismo, ni valen lo mismo unos datos trabajados que otros sin trabajar.

Hay múltiples aspectos a tener en cuenta cuando hablamos de datos. El primero podría ser el valor intrínseco de los datos. Como hemos comentado, no todos los datos valen lo mismo. No es lo mismo hablar de unos datos de pagos con tarjeta en una ciudad durante un periodo de tiempo que hablar de datos actualizados cada medio segundo de un sensor de temperatura en un garaje. El primero puede ser de interés para descubrir hábitos de consumo, aspectos de movilidad o cambios en el atractivo de las zonas de una ciudad, entre muchos otros. El sensor en el garaje tiene una aplicación mucho más limitada.

Otro aspecto relevante podría ser la visibilidad de los datos. Un personaje casi desconocido mencionó algo como que “De nada sirve que tengas el mejor producto, si no sabes comunicarlo. Ese personaje era Steve Jobs. Con los datos pasa lo mismo. Si nuestros datos no son visibles, nadie podrá ver la utilidad en ellos y su potencial valor se mantendrá oculto. Por eso es fundamental disponer de herramientas como catálogos de datos, pero también de glosarios con nuestra terminología de negocio y de hacer el trabajo de enriquecer datos con metadatos. Recordemos los principios FAIR (Findability, Accessibility, Interoperability, Reusability), es imperativo que nuestros datos puedan ser encontrados. Volviendo a nuestros datos del garaje o de las tarjetas, si nadie conoce de la existencia de esos datos de pagos con tarjeta, nadie les dará uso. Si los datos de temperatura se explotan para, por ejemplo, mejorar la eficiencia energética del edificio, ya estarán siendo más valiosos que los primeros.

Por último, debemos mencionar también, como no, la calidad del dato. Cualquier dataset, sea cual sea su valor intrínseco y sea cual sea su visibilidad tiene un valor no sólo nulo, sino incluso negativo, si su calidad es pobre. La calidad del dato debe evaluarse desde dos perspectivas distintas, las características inherentes del dataset y las relacionadas con el contexto o negocio. Los indicadores inherentes reflejan aspectos que podríamos calificar como técnicos del dataset, es decir, estadísticos, distribución de valores, longitud de una cadena de texto, bitrate, resolución, etc. Los indicadores basados en negocio reflejan un aspecto cualitativo, que ha de ser definido por el usuario que es quien conoce el negocio y cuando puede haber problemas en ellos. Ejemplos de esto podría ser la definición de umbrales máximo, mínimos o ambos y comprobar que porcentaje de valores está en los rangos definidos, fijando reglas que definan a partir de qué porcentaje puede considerarse que el dato no es de buena calidad. Estas métricas también pueden basarse en indicadores inherentes, por ejemplo, considerar como negativo que un campo de datos tenga una completitud menor al 90%.

Wisephere tiene por objetivo ayudar a las empresas a potenciar la monetización de sus datos. Obviamente, no podemos hacer nada para cambiar el valor intrínseco de sus datos, pero si poner a su disposición herramientas que les permitan mejorar las otras dimensiones. Wisephere puede ayudar a potenciar la visibilidad de los datos, tanto internamente, mediante el uso de catálogos y glosarios de datos, enriqueciendo los datos con terminología de negocio y facilitando que estos puedan ser encontrados por cualquier trabajador de la empresa, independientemente de si es o no técnico, como externamente, creando un entorno de confianza donde esos datos puedan ser puestos a disposición de terceros para su compartición o intercambio. Igualmente, en cuanto a calidad del dato, Wisephere ofrece tanto la posibilidad de calcular indicadores que permiten evaluar la calidad del dato tanto desde el punto de vista inherente a los datos, como la posibilidad de definir indicadores de negocio, que reflejen el contexto de los mismos. Además, esta información se almacena siguiendo estándares internacionales, como DQV, pensando en fomentar la interoperabilidad de los datos.

Por tanto, no asumamos que nuestros datos son valiosos porque sí. Trabajémoslos, sólo así se convertirán en ese activo que puede ser disruptivo para nuestra empresa, mejorando nuestras decisiones empresariales, la relación con nuestros clientes o generando nuevas fuentes de ingresos.

Autor
Jordi Arjona - ITI
Jordi Arjona | Coordinador del grupo de Sistemas Distribuidos (SiDi) de ITI