Big Data: Ciencia e Ingeniería de Datos

Rubén Casado, especialista en Big Data, nos habla de la importancia que tienen actualmente los profesionales de la ciencia e ingeniería de datos y de la creciente demanda existente en el mercado laboral de especialistas en estas materias.

Los profesionales que nos dedicamos al ámbito de los Datos llevamos mucho tiempo avisando de la necesidad de este tipo de perfiles y de la gran oportunidad laboral que abre a las personas que se especializan en estas materias. Suele aparecer en esta ecuación dos conceptos: Ingeniería de Datos y Ciencia de Datos.

¿Pero qué es eso de la ciencia e ingeniería del dato? ¿Qué es el Big Data y por qué ahora es tan importante? ¿Cuál es su relación con la Inteligencia Artificial? Vamos a intentar explicar su contexto.

El mundo de la informática, tal y como la conocemos hoy, no ha parado de evolucionar desde sus inicios allá por los años 30 del siglo pasado cuando genios como Alan Turing y John Von Newman ponían las bases teórico-físicas para lo que algunos consideran la Tercera Revolución Industrial. En sus primeras fases, el objetivo de la Informática era explotar sus capacidades de computación para realizar cálculo complejos en tiempos razonables. Estas habilidades permitieron el avance científico en múltiples campos incluyendo matemáticas, física, biología o química.

La primera revolución, en los años 90

Con la aparición de Internet en los años 90 del siglo XX, la informática vislumbra en las comunicaciones un nuevo campo que abordar. Internet ganó rápidamente una gran aceptación entre la sociedad convirtiéndose en un pilar básico de nuestro día a día en estos comienzos del siglo XXI. Aparece el concepto de Internet de las Cosas (IoT, Internet of Things) para englobar el amplio número de dispositivos electrónicos que se conectan a la red de redes. Podríamos decir que los dispositivos IoT no son más que una evolución tecnológica de los sensores, con la característica añadida de que la información que reciben ahora pueden comunicarla en tiempo real a cualquier parte del mundo a través de Internet.

Un ejemplo muy claro de este tipo de dispositivos es nuestro Smartphone. Nuestros teléfonos inteligentes pueden registrar nuestra posición mediante coordenadas GPS o disponer información gráfica mediante su cámara de fotos y video. Y todo ello conectado a Internet gracias a la conexión 4G y WiFI. Comienza una era donde la información generada en las comunicaciones es tan valiosa como la misma comunicación. Pero no toda la información que se genera es por la captación de sensores. Por ejemplo, referido a los smartphones, a todo los datos anteriores podemos añadirle aquellas actividades que la mayoría de nosotros realizamos varias veces al día: búsquedas en Internet, redes sociales, etc.

Según un informe de OBS, en un minuto, en Internet se generan 4,1 millones de búsquedas en Google, se escriben 347.000 twitts, se comparten 3,3 millones de actualizaciones en Facebook, se suben 38.000 fotos a Instagram, se visualizan 10 millones de anuncios, se suben más de 100 horas de vídeo a Youtube, se escuchan 32.000 horas de música en streaming, se envían 34,7 millones de mensajes instantáneos por Internet o se descargan 194.000 apps. En total, en un minuto se transfieren más de 1.570 terabytes de información.

Internet y las comunicaciones no son los únicos orígenes de datos. La generación masiva de datos la podemos encontrar en diversas industrias donde las compañías mantienen grandes cantidades de datos transaccionales acerca de sus clientes, proveedores, operaciones, etc. En el sector público vemos como se administran enormes bases de datos que contienen datos de censo de población, registros médicos, impuestos, etc.

Máquina a máquina

Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de información, existe también la comunicación denominada máquina a máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante. Sensores digitales instalados en contenedores para determinar la ruta generada durante una entrega de algún paquete y que esta información sea enviada a las compañías de transportación, sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares para que sea enviada esta información a las compañías del sector energético, etc. Según un informe de IBM, se estima que hay más de 30 millones de sensores interconectados en distintos sectores como automotriz, transportación, industrial, servicios, comercial, etc. y se espera que este número crezca en un 30% anualmente.

Como resumen, se calcula que el 90% de la información que la humanidad ha generado en toda su historia se ha creado en los últimos dos años. Esta explosión de información trae consigo una serie de retos tecnológicos así como nuevas posibilidades de negocio.

Conoce las tres ‘Uves’

Desde el punto de vista puramente técnico, se denomina Big Data a los sistemas de información que sobrepasan las capacidades de las tecnologías tradicionales basadas principalmente en base de datos relacionales. Las características de la información que hace que se requiera nueva tecnologías son principalmente 3: Volumen, Velocidad y Variedad. Podemos encontrar en otros textos nuevas “Vs” añadidas en esta definición (por ejemplo Valor, Veracidad, Variabilidad…) pero a nivel tecnológico, las 3 Vs originales son las importantes:

  • Volumen: Hace referencia al tamaño de los datasets a manejar. Actualmente es habitual tener que procesar cantidades de datos en la escala de los Gigabytes o Terabytes por lo que las técnicas de almacenamiento en memoria no son viables.
  • Velocidad: Se refiere no solo a la alta frecuencia con la que se generan nuevos datos, sino a la necesidad de dar respuesta a la información en tiempo real.
  • Variedad: Se refiere a la naturaleza diversa de la información a manejar. Venimos de información estructurada que encajaba perfectamente en el modelo relacional pero ahora nos encontramos con información semi- y des- estructurada (video, audio, imágenes, redes sociales, etc.) que requiere de nuevos métodos de persistencia y consulta.

La revolución tecnológica del Big Data nació en el mundo industrial para dar respuesta a las problemáticas derivadas de las 3 Vs. Empresas como Google, Yahoo!, Twitter, Facebook o Linkedin crean tecnologías innovadoras para cubrir sus necesidades antes inéditas. La comunidad Open Source hizo el resto. Se encargó de evolucionar y democratizar el uso de ese tipo de tecnologías para cualquier empresa o usuario. Algo rupturista: el potencial de las tecnologías más punteras no estaba detrás del pago de una costosa licencia.

Aprovechar el valor de los datos

Hemos comentado los problemas y soluciones tecnológicos de los sistemas Big Data derivados de esas famosas 3 Vs. Parece entonces que la problemática Big Data es un problema de Ingeniería. ¿Es también un problema de Ciencia? ¿Dónde entra en el concepto de Data Science? Para dar respuesta a esa pregunta tenemos que incluir una 4 V en la ecuación: Valor. De nada sirve procesar más cantidad de información, información de diferente naturaleza, o de forma más rápida, si con ello no conseguimos un valor extra para nuestros intereses. Es ahí donde entran los procesos analíticos de datos. Data Science es un concepto acuñado recientemente para agrupar estrategias de análisis de datos que beben de diferentes campos incluyendo matemáticas, estadística, aprendizaje automático y minería de datos. Data Science por tanto no es más que un corpus mayor denominado Inteligencia Artificial (boots, sistemas autónomos inteligentes, etc.) aún por explotar.

Originalmente el concepto Big Data hace referencia a las estrategias de Ingeniería del Software para el diseño e implementación de sistemas escalables intensivos en datos. Por tanto Big Data se centra en el desarrollo de software capaz de gestionar grandes cantidades de datos (Volumen), datos que se generan en tiempo real y/o que necesitan ser procesados para dar una respuesta en tiempo real (Velocidad), y datos con una estructura diversa (Variedad).

El objetivo de Big Data es construir la infraestructura que soporte la escalabilidad horizontal y los tiempos de respuesta adecuados según el proyecto concreto. Sobre esas arquitecturas, se desarrollarán posteriormente los procesos analíticos de datos para extraer valor de la información. Es tarea de Data Science el análisis y aplicación de las estrategias de explotación de datos (métodos estadísticos, Aprendizaje Automático, etc.) más adecuados en cada situación.

Por tanto se puede derivar que Big Data y Data Science son dos campos complementarios. Existirán proyectos Big Data donde el objetivo será hacer escalable un sistema que actualmente no lo es y que por tanto no requiera estrategias de Data Science. También existirán proyectos donde será necesario analizar de forma inteligente ciertos datasets pero que no se requiera el potencial de las tecnologías Big Data. Y por último, existirán proyectos donde se necesite la construcción de sistemas Big Data escalables y aplicar sobre esas infraestructuras, algoritmos inteligentes de Data Science para extraer el auténtico valor de los datos.

Empresas con buenos datos, empresas con poder

Desde el punto de vista de negocio, aquellas empresas que sean capaces de analizar y generar valor a través de estos datos, a gran velocidad y con una flexibilidad sin precedentes, conseguirán una importante ventaja competitiva, mejorando el conocimiento de su empresa, de sus productos y de sus clientes, propiciando que se abran nuevas oportunidades de crecimiento y expansión completamente impensadas hasta el momento. Así, el tratamiento masivo y analítico de los datos de la empresa aumenta la capacidad de crear nuevos productos y permite conocer mejor el comportamiento de su negocio, optimizar las ventas cruzadas, tener una visión integral del cliente, detectar oportunidades de negocio, obtener resultados centrados en el cliente, gestionar el riesgo de liquidez o mejorar sus ecosistemas de información.

Por tanto se le puede sacar provecho en sectores tan distintos como el financiero –para determinar con más precisión el riesgo de crédito de un individuo a partir de sus datos financieros y su comportamiento en las redes sociales–; el sanitario –identificando correlaciones existentes entre patologías a priori independientes ayudando así a una mejor prevención de las mismas–; o el deportivo –en base al análisis el equipo técnico puede tomar decisiones incluso en tiempo real–.

Como conclusión podemos decir que los conocimientos en Ciencia e Ingeniería de Datos abren un campo de posibilidades para obtener nuevos beneficios en diversas áreas que van desde el científico y médico al empresarial o deportivo pasando por el financiero y el marketing. Aquellos que sepan aprovechar este potencial conseguirán aventajar a sus competidores. Y esto es solo el pistoletazo de salida para la siguiente revolución que llegará con la Inteligencia Artificial.

Rubén Casado es Big Data Lead en Accenture y Director del Máster de Arquitectura de Big Data en KSchool.

Gestionar Cookies