Mejora tu currículum con la mejor formación

9%

¿Qué quieres estudiar?

Rubén Casado

Ruben-Casado

Big Data, Data Science y Negocio

El mundo de la informática, tal y como la conocemos hoy, no ha parado de evolucionar desde sus inicios allá por los años 30 del siglo pasado cuando genios como Alan Turing y John Von Newman ponían las bases teórico-físicas para lo que algunos consideran la Tercera Revolución Industrial. En sus primeras fases, el objetivo de la Informática era explotar sus capacidades de computación para realizar cálculo complejos en tiempos razonables. Estas habilidades permitieron el avance científico en múltiples campos incluyendo matemáticas, física, biología o química.

Con la aparición de Internet en los años 90 del siglo XX, la informática vislumbra en las comunicaciones un nuevo campo que abordar. Internet ganó rápidamente una gran aceptación entre la sociedad convirtiéndose en un pilar básico de nuestro día a día en estos comienzos del siglo XXI. Aparece el concepto de Internet de las Cosas (IoT, Internet of Things) para englobar el amplio número de dispositivos electrónicos que se conectan a la red de redes. Podríamos decir que los dispositivos IoT no son más que una evolución tecnológica de los sensores, con la característica añadida de que la información que reciben ahora pueden comunicarla en tiempo real a cualquier parte del mundo a través de Internet.

Un ejemplo muy claro de este tipo de dispositivos es nuestro Smartphone. Nuestros teléfonos inteligentes pueden registrar nuestra posición mediante coordenadas GPS o disponer información gráfica mediante su cámara de fotos y video. Y todo ello conectado a Internet gracias a la conexión 4G y WiFI. Comienza una era donde la información generada en las comunicaciones es tan valiosa como la misma comunicación. Pero no toda la información que se genera es por la captación de sensores. Por ejemplo referido a los smartphones, a todo los datos anteriores podemos añadirle aquellas actividades que la mayoría de nosotros realizamos varias veces al día: búsquedas en Internet, redes sociales, etc.

Según un informe de OBS, en un minuto, en Internet se generan 4,1 millones de búsquedas en Google, se escriben 347.000 twitts, se comparten 3,3 millones de actualizaciones en Facebook, se suben 38.000 fotos a Instagram, se visualizan 10 millones de anuncios, se suben más de 100 horas de vídeo a Youtube, se escuchan 32.000 horas de música en streaming, se envían 34,7 millones de mensajes instantáneos por Internet o se descargan 194.000 apps. En total, en un minuto se transfieren más de 1.570 terabytes de información.

Internet y las comunicaciones no son los únicos orígenes de datos. La generación masiva de datos la podemos encontrar en diversas industrias donde las compañías mantienen grandes cantidades de datos transaccionales acerca de sus clientes, proveedores, operaciones, etc. En el sector público vemos como se administran enormes bases de datos que contienen datos de censo de población, registros médicos, impuestos, etc.

Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de información, existe también la comunicación denominada máquina a máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante. Sensores digitales instalados en contenedores para determinar la ruta generada durante una entrega de algún paquete y que esta información sea enviada a las compañías de transportación, sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares para que sea enviada esta información a las compañías del sector energético, etc.

Según un informe de IBM, se estima que hay más de 30 millones de sensores interconectados en distintos sectores como automotriz, transportación, industrial, servicios, comercial, etc. y se espera que este número crezca en un 30% anualmente.

Como resumen, se calcula que el 90% de la información que la humanidad ha generado en toda su historia se ha creado en los últimos dos años. Esta explosión de información trae consigo una serie de retos tecnológicos así como nuevas posibilidades de negocio.

Desde el punto de vista puramente técnico, se denomina Big Data a los sistemas de información que sobrepasan las capacidades de las tecnologías tradicionales basadas principalmente en base de datos relacionales. Las características de la información que hace que se requiera nueva tecnologías son principalmente 3: Volumen, Velocidad y Variedad. Podemos encontrar en otros textos nuevas “Vs” añadidas en esta definición (por ejemplo Valor, Veracidad, Variabilidad…) pero a nivel tecnológico, las 3 Vs originales son las importantes:

La revolución tecnológica del Big Data nació en el mundo industrial para dar respuesta a las problemáticas derivadas de las 3 Vs. En 2003, Google publica dos artículos científicos explicando cómo resuelven el problema del procesamiento masivo de datos mediante computación distribuida. Describen los conceptos del sistema de ficheros distribuido (Google File System) y el framework de programación MapReduce que la comunidad abierta de desarrolladores convertiría en la archifamosa tecnología Hadoop (compuesto por Hadoop File System y Hadoop MapReduce).

En los siguientes años, empresas como Yahoo! (S4, 2010), Twitter (Storm, 2011) o LinkedIn (Kafka, 2011) presentaron tecnologías para procesar información en streaming en tiempo real. Paralelas a las tecnologías de procesamiento Big Data también se evolucionó los sistemas de persistencia para dar respuesta a la problemática de la variedad de datos.

Durante la primera década del siglo XXI, se empiezan a poner en práctica nuevos bases de datos basadas en grafos (Neo4J), en documentos (MongoDB), toman nueva importancia algunas existentes basadas en clave-valor (BerkeleyDB), algunas evolucionan al almacenamiento puro en memoria (Redis), o para la escalabilidad horizontal máxima (Amazon Dynamo, Facebook Cassandra, Linkedin Voldemort, HBase, etc.).

Teniendo en cuenta la problemática derivada de las 3 Vs, podemos agrupar las soluciones en tres grandes paradigmas:

Cuando se implementa un sistema Big Data es posible la necesidad afrontar varias de las 3 Vs por lo que tendremos que combinar las estrategias propuestas. Un caso concreto es cuando se tiene que procesar por un lado grandes cantidades de información estática (batch processing) pero también tener en cuenta la nueva información que se está generando en tiempo real (streaming processing). Esta combinación de estrategias de denomina hybrid processing y existen varias soluciones arquitectónicas para implementarlo como son las Arquitecturas Lambda y Kappa.

Anteriormente hemos comentado los problemas y soluciones tecnológicos de los sistemas Big Data derivados de esas famosas 3 Vs. Parece entonces que la problemática Big Data es un problema de Ingeniería. ¿Es también un problema de Ciencia? ¿Dónde entra en el concepto de Data Science? Para dar respuesta a esa pregunta tenemos que incluir una 4 V en la ecuación: Valor. De nada sirve procesar más cantidad de información, información de diferente naturaleza, o de forma más rápida, si con ello no conseguimos un valor extra para nuestros intereses. Es ahí donde entran los procesos analíticos de datos. Data Science es un concepto acuñado recientemente para agrupar estrategias de análisis de datos que beben de diferentes campos incluyendo matemáticas, estadística, aprendizaje automático y minería de datos.

Originalmente el concepto Big Data hace referencia a las estrategias de Ingeniería del Software para el diseño e implementación de sistemas escalables intensivos en datos. Por tanto Big Data se centra en el desarrollo de software capaz de gestionar grandes cantidades de datos (Volumen), datos que se generan en tiempo real y/o que necesitan ser procesados para dar una respuesta en tiempo real (Velocidad), y datos con una estructura diversa (Variedad).

El objetivo de Big Data es construir la infraestructura que soporte la escalabilidad horizontal y los tiempos de respuesta adecuados según el proyecto concreto. Sobre esas arquitecturas, se desarrollarán posteriormente los procesos analíticos de datos para extraer valor de la información. Es tarea de Data Science el análisis y aplicación de las estrategias de explotación de datos (métodos estadísticos, Aprendizaje Automático, etc.) más adecuados en cada situación.

Por tanto se puede derivar que Big Data y Data Science son dos campos complementarios. Existirán proyectos Big Data donde el objetivo será hacer escalable un sistema que actualmente no lo es y que por tanto no requiera estrategias de Data Science. También existirán proyectos donde será necesario analizar de forma inteligente ciertos datasets pero que no se requiera el potencial de las tecnologías Big Data. Y por último, existirán proyectos donde se necesite la construcción de sistemas Big Data escalables y aplicar sobre esas infraestructuras, algoritmos inteligentes de Data Science para extraer el auténtico valor de los datos.

Desde el punto de vista de negocio, aquellas empresas que sean capaces de analizar y generar valor a través de estos datos, a gran velocidad y con una flexibilidad sin precedentes, conseguirán una importante ventaja competitiva, mejorando el conocimiento de su empresa, de sus productos y de sus clientes, propiciando que se abran nuevas oportunidades de crecimiento y expansión completamente impensadas hasta el momento. Así, el tratamiento masivo y analítico de los datos de la empresa aumenta la capacidad de crear nuevos productos y permite conocer mejor el comportamiento de su negocio, optimizar las ventas cruzadas, tener una visión integral del cliente, detectar oportunidades de negocio, obtener resultados centrados en el cliente, gestionar el riesgo de liquidez o mejorar sus ecosistemas de información.

Por tanto se le puede sacar provecho en sectores tan distintos como el financiero –para determinar con más precisión el riesgo de crédito de un individuo a partir de sus datos financieros y su comportamiento en las redes sociales–; el sanitario –identificando correlaciones existentes entre patologías a priori independientes ayudando así a una mejor prevención de las mismas–; o el deportivo –en base al análisis el equipo técnico puede tomar decisiones incluso en tiempo real–.

Como conclusión podemos decir que las tecnologías Big Data y las estrategias Data Science abren un campo de posibilidades para obtener nuevos beneficios en diversas áreas que van desde el científico y médico al empresarial o deportivo pasando por el financiero y el marketing. Aquellos que sepan aprovechar este potencial conseguirán aventajar a sus competidores. ¿A qué esperas para empezar a explotar los beneficios del Big Data?


Síguenos en nuestras RRSS


Te puede interesar

Contenido relacionado

Salir de la versión móvil