Posts Tagged ‘Datos estructurados’

El sueño del Data Lake

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Si hoy nadie duda del valor de la información para las empresas, el fenómeno de Big Data ha acelerado el interés de las organizaciones alrededor de la explotación masiva del valor que para el negocio se oculta en los datos.

Sin embargo, lo normal es que esta información siga estando prisionera de los sistemas que la generaron así tenemos los registros financieros, los de ventas, los que vienen de sensores de la línea de fabricación, los contratos, los vídeos de seguridad…aunque transformamos y enviamos algunos de estos datos a un Data Warehouse, esto no significa una completa reutilización de la información por distintas aplicaciones, o lo que es lo mismo, no significa una explotación integral de los datos por distintas unidades de negocio.

EMC DATA LAKES

El concepto de Data Lake, un repositorio lógico e hiperescalable de información, viene motivado por la necesidad de movilizar la información, haciéndola accesible bien para su uso estadístico y analítico, bien para ser embebida en otro tipo de aplicaciones y procesos. Esto es, tiene que ver con liberar y explotar la información de los silos en los que se encuentra estancada.

Toda la Información

Pero ¿de qué tipo de información estamos hablando? De toda. Estructurada o desestructurada, interna o externa, de seguridad o financiera, tiempo real o batch. El Data Lake ideal contiene toda la información que el negocio necesita para su actividad, crecimiento y desarrollo competitivo.

Por ejemplo, la información de las redes sociales recolectada por el área de Marketing es relevante para conocer mejor a tu cliente, verificar el grado de aceptación de un competidor en el mercado o para entender el ruido generado por un determinado incidente con uno de nuestros productos; o sea, todo eso que llamamos análisis de sentimientos, tan importante en la estrategia de ventas e imagen de marca. Pero esa misma información también puede ser de utilidad para perfeccionar nuestros mecanismos de atención al cliente, de fabricación o de logística, incluso adelantando necesidades antes de que éstas realmente se manifiesten.

De la misma forma, los registros de actividad (logs) y secuencias de clics generados por los distintos dispositivos de nuestra plataforma de comercio electrónico, contienen información valiosa que nos permite entender el comportamiento de los usuarios, lo que es tan relevante para las áreas de seguridad como para las áreas de marketing. La misma información puede ser utilizada para proporcionar distintos ángulos a distintas unidades de negocio.

El Data Lake no sólo se nutre de datos internos de la organización. Cierta información externa, como la que tiene su origen en los mercados de futuros, los datos meteorológicos o calendarios de eventos, puede servirnos para planificar nuestras finanzas o definir nuestras políticas de precios, incluso de forma automática: si conozco el impacto del encarecimiento del petróleo en mis costes, puedo adaptar de forma automática mis tarifas, lo que reduce la posibilidad de errores e incrementa mi agilidad frente a la competencia.

Data Lake no es igual que Data Base.

A diferencia de las bases de datos, en el Data Lake se almacenan los datos tal cual se generaron, en su formato original y antes de someterlos a ninguna transformación o modelización, lo que permite garantizar que no han perdido ningún aspecto de la información original. Esta ingesta masiva es posible porque su escalabilidad es muy grande y sus costes muy bajos, tanto en términos de software como de hardware o gestión; no son comparables a los costes de una base de datos tradicional.

Otro aspecto diferencial es la riqueza de metadatos, datos que hablan de los datos, necesarios para mantener la seguridad y trazabilidad del dato, y que constituyen una fuente de valor añadido al aportar información sobre el contexto.

El concepto del Data Lake no es el de un archivo estático donde la información envejece y cumple su ciclo de vida; se trata de un repositorio activo y estratégico, capaz de crecer al ritmo que lo hagan la organización y las nuevas ideas, facilitando la ingesta, el cruce y la reutilización de información en cualquier formato. También permite la construcción de aplicaciones que puedan utilizar sus datos directamente, incluso en tiempo real, incrementando la inteligencia del negocio y posibilitando la respuesta inmediata ante ciertos eventos.

El Data Lake conjuga el valor de la información del negocio con las posibilidades que la ciencia de los datos proporciona, y es el sustrato en el que se apoya el desarrollo de un nuevo tipo de aplicaciones predictivas, de alto valor añadido, embebidas en los procesos de la organización y que favorecen el desarrollo de innovadores modelos de negocio.

 

Reflexiones sobre VIG Data (Sí, con V de Volumen, Variedad, Velocidad, Valor…)

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Ayer se presentó el estudio de IDC “Eclosión del mercado Big Data”, en el cual tuve la suerte de participar representando a EMC, uno de las empresas patrocinadoras de dicho estudio. Digo suerte porque el evento contaba con la asistencia de periodistas, y profesionales del mundo de TI, y estos eventos son siempre un interesante foro de intercambio de opiniones donde pulsar el estado de las iniciativas del mercado.

De este estudio me han interesado diversos aspectos, sobre los que querría compartir algunas reflexiones. No pretendo hacer un análisis exhaustivo, algo que IDC ya ha llevado a cabo de forma solvente, sino simplemente compartir algunas de mis interpretaciones personales.

¿Qué es Big Data?

Un primer aspecto que ha llamado mi atención es el del conocimiento acerca del concepto de Big Data. Aproximadamente un 20% de las empresas encuestadas declara que le resulta familiar. Es curioso, porque aquellos que estamos siguiendo de cerca el desarrollo de este concepto incipiente y tan interesante, a veces estamos tentados a pensar que el mercado está haciendo demasiado ruido con este concepto. Sin embargo, el grado de conocimiento o familiaridad me inclina hoy hacia el lado contrario, seguramente el concepto de Big Data no está llegando a las empresas con la velocidad y profundidad que debería por su potencialidad para el negocio.

Una rápida línea para comentar la dificultad de las definiciones formales. “Big Data es un concepto diferente a Business Intelligence pero ambos conceptos están relacionados”. He entrecomillado la cita porque no es mía, sino que ha sido la definición que las empresas encuestadas han encontrado más acertada. Ya he comentado en alguna entrada de este blog los distintos matices que a veces hacen difícil definir con precisión un concepto. Sucedió con Cloud, y otras muchas veces anteriormente. Todos tenemos un cierto concepto de Big Data, no es el mismo para un Banco, que para una Productora Cinematográfica o una empresa de Logística.

En cuanto a las ‘V’ que definen Big Data, y que han sugerido el título de este post,  la percepción es que el problema más acuciante es el del volumen que los datos están alcanzando, por encima de la velocidad a la que se generan o consumen y por encima incluso de la variedad de fuentes.  Esta sensación de crecimiento, a la que a veces nos referimos como la explosión digital, responde a una realidad sobradamente conocida y sobre la que IDC ya ha publicado estudios. Lidiar con esa V, la de volumen, almacenar y gestionar cantidades ingentes de información de forma sencilla forma parte del corazón de nuestro negocio desde hace más de tres décadas. Sin embargo yo hubiera apostado por la cuarta V, la extracción de Valor, como el driver más importante y más urgente en el mundo de Big Data. Potenciar y agilizar la extracción de valor para conocer mejor a mi cliente y a mi competidor, contener los costes, optimizar procesos… también a eso nos dedicamos en EMC desde hace un par de años.

Estructurados versus desestructurados

La analítica de datos estructurados continúa siendo más valorada que el análisis de datos desestructurados, al que las empresas asignan un cierto valor pero cuyo tratamiento se describe como, fundamentalmente, manual. Yo creo que éste es uno de los aspectos que más van a cambiar en los próximos meses. Por supuesto, no discuto la importancia del análisis generado alrededor de las bases de datos, que continuará creciendo, sino a la generalización del análisis de datos desestructurados junto con la búsqueda de herramientas y plataformas que nos permitan automatizar todo este proceso. Es cada vez más frecuente en las conversaciones con clientes e integradores discutir acerca de pilotos de este tipo, cuando no de proyectos en marcha.

Obstáculos para Big Data

Finalmente ¿Cuáles son los mayores obstáculos para la adopción de Big Data? Están muy relacionados con la falta de expertos y la carencia de presupuesto. Quiero pensar que los temas presupuestarios sean limitaciones temporales, fundamentalmente derivadas de la novedad del concepto y del complejo momento económico en que nos encontramos. En cuanto a la carencia de expertos en el mercado creo firmemente que Big Data es uno de los campos que va a generar nuevos y muy interesantes perfiles profesionales, tanto en los entornos puramente IT como de análisis de negocio o servicio.

 

Videos Recomendados

Expand The Data Lake: New Data Lake, New Breakthroughs

Archivo del Blog

  • 2016 3
  • 2015 20
  • 2014 7
  • 2013 16
  • 2012 21
facebook
twitter
linkedin
youtube
rss