Diego Gago, arquitecto de software de Coremain, imparte estos días en nuestras oficinas un curso intensivo sobre Big Data, como parte del plan formativo anual de la compañía. Con esta formación, los empleados pueden conocer y ampliar sus conocimientos sobre uno de los principales ejes de las TIC en la actualidad. Durante estos días, desde Coremain se están compartiendo múltiples experiencias desarrollando así un conocimiento adquirido que permitirá su aplicación al ecosistema de soluciones y servicios tecnológicos ofrecidos por la empresa. Preguntamos a Gago sobre el contenido de esta formación para conocer más sobre el Big Data.

¿Cuál es el objetivo de esta formación?

La formación, dirigida a los profesionales que tienen ya un conocimiento de informática muy avanzado, tiene como objetivo conocer en profundidad el entorno de tratamiento y gestión de grandes cantidades de datos (Big Data), el análisis o la transformación de esa larga lista de datos en información de valor, disponible en tiempo real (Smart Data), o el uso del aprendizaje automático de las máquinas (Machine Learning).

¿Cuál es la utilidad final de esta captación masiva de datos?

El Big Data nos aporta una ingente cantidad de datos, muy diversos y procedentes de diferentes agentes, lo que nos permite adelantarnos a potenciales conductas de actuación a través de diferentes modelos de predicción en base a los datos manejados, gestionar expectativas, predecir comportamientos, y poder así, por ejemplo, desarrollar un producto que el mercado está demandando… y con ello, mejorar la satisfacción y fidelización de los usuarios.

¿Qué hacemos con estos datos? ¿Se procesan en tiempo real?

Efectivamente. Trabajamos con una respuesta prácticamente a tiempo real, de 10 segundos de retardo como mucho. Esto nos permite aportar una gran flexibilidad e inmediatez en la toma de decisiones basadas en los datos recabados.

¿Un ejemplo de uso de Big Data?

El de las tarjetas de crédito. Se pueden extraer multitud de datos (sin afectar a la seguridad y anonimato de los usuarios) de transacciones realizadas con tarjetas de crédito, datos con los que se pueden conocer los lugares, días y horarios en los que se produce un mayor movimiento de dinero. Este es sólo un ejemplo, pero en sectores como las telecomunicaciones o la sanidad, algunas de las áreas principales de Coremain, las posibilidades del Big Data se multiplican. Ejemplo de ello es el proyecto Big Data Analytics for Telecoms (BDA4T), que desarrollamos junto a Optare, Quobis y R, y con el apoyo del Centro para el Desarrollo Tecnológico Industrial (CDTI). Con este proyecto se busca crear una plataforma integrada específica para el sector de los operadores de telecomunicaciones, que la analítica sobre los datos internos del operador.

¿Qué herramientas se están utilizando en el curso para tratar estos grandes volúmenes de datos?

Durante los primeros días de curso hemos utilizado herramientas como Hive, Impala y Pig para poder agrupar, consultar y analizar los datos obtenidos. Podemos hablar del “Sentiment Analysis” como ejemplo del funcionamiento de esta analítica en redes sociales. Se trata del estudio de las opiniones expresadas mediante texto. Con Hide puedes consultar, del total de comentarios vertidos en Twitter, aquellos que estén hablando de un tema concreto. De esa selección previa, puedes hacer una búsqueda aún más exhaustiva y cribar sólo aquellos que incluyan palabras concretas que selecciones.

Una de las temáticas del curso es el Machine Learning. ¿En qué consiste y cuál es su utilidad?

Esta técnica se basa en dotar a la máquina de una capacidad que le permita sacar conclusiones a partir de datos previos. En realidad, son un conjunto de algoritmos capaces de analizar datos para obtener la solución a un determinado problema. Al permitir la anticipación de comportamientos (patrones de comportamiento), podemos elaborar acciones proactivas que permitan mejorar las acciones de negocio. Es importante resaltar que el resultado que obtenemos de esta predicción es siempre un porcentaje. Sin embargo, su gran interés radica en que el Machine Learning tiene la capacidad de retroalimentarse a través de un proceso de autoaprendizaje, es decir, de asumir patrones complejos a partir de las ingentes cantidades de datos recopilados.