Si hoy nadie duda del valor de la información para las empresas, el fenómeno de Big Data ha acelerado el interés de las organizaciones alrededor de la explotación masiva del valor que para el negocio se oculta en los datos.

Sin embargo, lo normal es que esta información siga estando prisionera de los sistemas que la generaron así tenemos los registros financieros, los de ventas, los que vienen de sensores de la línea de fabricación, los contratos, los vídeos de seguridad…aunque transformamos y enviamos algunos de estos datos a un Data Warehouse, esto no significa una completa reutilización de la información por distintas aplicaciones, o lo que es lo mismo, no significa una explotación integral de los datos por distintas unidades de negocio.

EMC DATA LAKES

El concepto de Data Lake, un repositorio lógico e hiperescalable de información, viene motivado por la necesidad de movilizar la información, haciéndola accesible bien para su uso estadístico y analítico, bien para ser embebida en otro tipo de aplicaciones y procesos. Esto es, tiene que ver con liberar y explotar la información de los silos en los que se encuentra estancada.

Toda la Información

Pero ¿de qué tipo de información estamos hablando? De toda. Estructurada o desestructurada, interna o externa, de seguridad o financiera, tiempo real o batch. El Data Lake ideal contiene toda la información que el negocio necesita para su actividad, crecimiento y desarrollo competitivo.

Por ejemplo, la información de las redes sociales recolectada por el área de Marketing es relevante para conocer mejor a tu cliente, verificar el grado de aceptación de un competidor en el mercado o para entender el ruido generado por un determinado incidente con uno de nuestros productos; o sea, todo eso que llamamos análisis de sentimientos, tan importante en la estrategia de ventas e imagen de marca. Pero esa misma información también puede ser de utilidad para perfeccionar nuestros mecanismos de atención al cliente, de fabricación o de logística, incluso adelantando necesidades antes de que éstas realmente se manifiesten.

De la misma forma, los registros de actividad (logs) y secuencias de clics generados por los distintos dispositivos de nuestra plataforma de comercio electrónico, contienen información valiosa que nos permite entender el comportamiento de los usuarios, lo que es tan relevante para las áreas de seguridad como para las áreas de marketing. La misma información puede ser utilizada para proporcionar distintos ángulos a distintas unidades de negocio.

El Data Lake no sólo se nutre de datos internos de la organización. Cierta información externa, como la que tiene su origen en los mercados de futuros, los datos meteorológicos o calendarios de eventos, puede servirnos para planificar nuestras finanzas o definir nuestras políticas de precios, incluso de forma automática: si conozco el impacto del encarecimiento del petróleo en mis costes, puedo adaptar de forma automática mis tarifas, lo que reduce la posibilidad de errores e incrementa mi agilidad frente a la competencia.

Data Lake no es igual que Data Base.

A diferencia de las bases de datos, en el Data Lake se almacenan los datos tal cual se generaron, en su formato original y antes de someterlos a ninguna transformación o modelización, lo que permite garantizar que no han perdido ningún aspecto de la información original. Esta ingesta masiva es posible porque su escalabilidad es muy grande y sus costes muy bajos, tanto en términos de software como de hardware o gestión; no son comparables a los costes de una base de datos tradicional.

Otro aspecto diferencial es la riqueza de metadatos, datos que hablan de los datos, necesarios para mantener la seguridad y trazabilidad del dato, y que constituyen una fuente de valor añadido al aportar información sobre el contexto.

El concepto del Data Lake no es el de un archivo estático donde la información envejece y cumple su ciclo de vida; se trata de un repositorio activo y estratégico, capaz de crecer al ritmo que lo hagan la organización y las nuevas ideas, facilitando la ingesta, el cruce y la reutilización de información en cualquier formato. También permite la construcción de aplicaciones que puedan utilizar sus datos directamente, incluso en tiempo real, incrementando la inteligencia del negocio y posibilitando la respuesta inmediata ante ciertos eventos.

El Data Lake conjuga el valor de la información del negocio con las posibilidades que la ciencia de los datos proporciona, y es el sustrato en el que se apoya el desarrollo de un nuevo tipo de aplicaciones predictivas, de alto valor añadido, embebidas en los procesos de la organización y que favorecen el desarrollo de innovadores modelos de negocio.

 

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf
Tags: , , , ,

One Comment

  1. Jose Maria Sotomayor says:

    Excelente exposición Alejandro.
    La verdad es que todo lo relacionado con la ciencia de datos que implica este tema me llama mucho la atención. Extraer datos significativos y conocimiento a partir de tal cantidad de datos en bruto me resulta una idea apasionante.

Leave a Comment

Comments are moderated. Dell EMC reserves the right to remove any content it deems inappropriate, including but not limited to spam, promotional and offensive comments.

Videos Recomendados

Expand The Data Lake: New Data Lake, New Breakthroughs

Archivo del Blog

  • 2016 3
  • 2015 20
  • 2014 7
  • 2013 16
  • 2012 21
facebook
twitter
linkedin
youtube
rss