Uno de los conceptos que más se oye hoy en día cuando se habla de nuevas tecnologías es el de Big Data y, aunque no directamente, ya lo he introducido al hablar de la Inteligencia Artificial (IA).
Repasemos: en las últimas entradas os he estado contando lo que es la Inteligencia Artificial y los problemas de sesgo (de género, de raza, de religión,…) que puede acarrear si no hay algún tipo de supervisión en su desarrollo. Os decía que la IA actual utiliza lo que denominamos Machine Learning, o Aprendizaje Automático, que permite que las máquinas (ordenadores) aprendan por sí mismas entrenándolas con miles, millones de ejemplos (datos). Este enorme volumen datos normalmente no puede ser tratado con herramientas de software convencionales porque superan sus límites de capacidad de almacenamiento y de procesamiento. Y aquí es donde aparece el Big Data. De manera general se denomina Big Data a las infraestructuras y tecnologías de almacenamiento, procesamiento y análisis de enormes volúmenes de datos de todo tipo: mensajes en redes sociales, señales de móvil, archivos de audio, mediciones de sensores, imágenes digitales, vídeos, datos de formularios, emails, datos de encuestas, logs, etc.
Quizá pueda parecer que hasta ahora las empresas no manejaban grandes volúmenes de datos para sus análisis internos, y no es así. En muchas empresas, especialmente en las grandes, los departamentos de Business Intelligent (BI) han desarrollado grandes DataWarehouses (almacenes de datos) y potentes herramientas analíticas para tratar grandes volúmenes de datos procedentes de los departamentos de ventas, de marketing, operaciones, etc. La diferencia con el Big Data es que los datos que se tratan, aunque son muchos, se pueden organizar en Bases de datos convencionales.
Las 5 Vs del Big Data
La irrupción de las redes sociales, con la ingente cantidad de información no estructurada que los usuarios proporcionan en ellas fue uno de los catalizadores del Big Data. A esto se suma la enorme cantidad de información que proporcionan los dispositivos conectados (¿os acordáis de la entrada sobre el Internet de las Cosas?). Creo que ahora ya se puede entender porque el Big Data se caracteriza por lo que en la mayoría de los artículos denominan las “3 Vs”:
– Volumen: Mucho mayor que los datos tradicionales. En Big Data hablamos de Terabytes, Petabytes,… Hay que tener en cuenta que se generan 2.5 trillones de bytes de información nuevos al día. Y aun así, la evolución tecnológica hace que este concepto de volumen cada vez sea mayor.
– Variedad: Se refiere a la inclusión de otros tipos de fuentes de datos diferentes a las que se utilizan de forma tradicional. Es, como comentábamos, la información que se obtiene de redes sociales, de dispositivos conectados, de emails, de logs, etc. Se estima que este tipo de información es aproximadamente el 95% del total.
– Velocidad: Se refiere a la rapidez con que los datos se reciben, se procesan y se toman decisiones a partir de ellos. Los DataWarehouses tradicionales no pueden analizar en tiempo real los grandes volúmenes de datos que les llegan, sin embargo, incorporar este concepto es imprescindible para, por ejemplo, sistemas de detección del fraude o para hacer ofertas personalizadas a los clientes.
Pero en los últimos años, han surgido otras “2 Vs” que están intrínsecamente relacionadas con el objetivo del Big Data:
– Veracidad: se refiere a la calidad y confianza de los datos. Se trata de quedarse con los datos buenos, eliminando aquellos originados por factores imprevisibles que puedan distorsionar los resultados.
–Valor: Los datos en sí mismos carecen de valor. De nada sirve almacenar gran cantidad de información si no se va a utilizar para nada. El valor de los datos está en que se puedan transformar en información útil.
Y es que el objetivo del Big Data, al igual que los sistemas analíticos convencionales, no es otro que convertir los datos en información que facilite la toma de decisiones, que incluso puede requerir que sea en tiempo real.
Por tanto, como acabamos de ver, la implantación del Big Data requiere de profesionales especializados que sean capaces de, aplicando la 5 Vs del Big Data, generar conocimiento útil. Son los llamados científicos de datos (data scientists), profesionales con perfil científico, tecnológico pero que también han de tener visión de negocio. Se supone que ésta es una de las profesiones más prometedoras de hoy en día.
Para más información pincha aquí

Deja un comentario