Archive for January, 2015

El sueño del Data Lake

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Si hoy nadie duda del valor de la información para las empresas, el fenómeno de Big Data ha acelerado el interés de las organizaciones alrededor de la explotación masiva del valor que para el negocio se oculta en los datos.

Sin embargo, lo normal es que esta información siga estando prisionera de los sistemas que la generaron así tenemos los registros financieros, los de ventas, los que vienen de sensores de la línea de fabricación, los contratos, los vídeos de seguridad…aunque transformamos y enviamos algunos de estos datos a un Data Warehouse, esto no significa una completa reutilización de la información por distintas aplicaciones, o lo que es lo mismo, no significa una explotación integral de los datos por distintas unidades de negocio.

EMC DATA LAKES

El concepto de Data Lake, un repositorio lógico e hiperescalable de información, viene motivado por la necesidad de movilizar la información, haciéndola accesible bien para su uso estadístico y analítico, bien para ser embebida en otro tipo de aplicaciones y procesos. Esto es, tiene que ver con liberar y explotar la información de los silos en los que se encuentra estancada.

Toda la Información

Pero ¿de qué tipo de información estamos hablando? De toda. Estructurada o desestructurada, interna o externa, de seguridad o financiera, tiempo real o batch. El Data Lake ideal contiene toda la información que el negocio necesita para su actividad, crecimiento y desarrollo competitivo.

Por ejemplo, la información de las redes sociales recolectada por el área de Marketing es relevante para conocer mejor a tu cliente, verificar el grado de aceptación de un competidor en el mercado o para entender el ruido generado por un determinado incidente con uno de nuestros productos; o sea, todo eso que llamamos análisis de sentimientos, tan importante en la estrategia de ventas e imagen de marca. Pero esa misma información también puede ser de utilidad para perfeccionar nuestros mecanismos de atención al cliente, de fabricación o de logística, incluso adelantando necesidades antes de que éstas realmente se manifiesten.

De la misma forma, los registros de actividad (logs) y secuencias de clics generados por los distintos dispositivos de nuestra plataforma de comercio electrónico, contienen información valiosa que nos permite entender el comportamiento de los usuarios, lo que es tan relevante para las áreas de seguridad como para las áreas de marketing. La misma información puede ser utilizada para proporcionar distintos ángulos a distintas unidades de negocio.

El Data Lake no sólo se nutre de datos internos de la organización. Cierta información externa, como la que tiene su origen en los mercados de futuros, los datos meteorológicos o calendarios de eventos, puede servirnos para planificar nuestras finanzas o definir nuestras políticas de precios, incluso de forma automática: si conozco el impacto del encarecimiento del petróleo en mis costes, puedo adaptar de forma automática mis tarifas, lo que reduce la posibilidad de errores e incrementa mi agilidad frente a la competencia.

Data Lake no es igual que Data Base.

A diferencia de las bases de datos, en el Data Lake se almacenan los datos tal cual se generaron, en su formato original y antes de someterlos a ninguna transformación o modelización, lo que permite garantizar que no han perdido ningún aspecto de la información original. Esta ingesta masiva es posible porque su escalabilidad es muy grande y sus costes muy bajos, tanto en términos de software como de hardware o gestión; no son comparables a los costes de una base de datos tradicional.

Otro aspecto diferencial es la riqueza de metadatos, datos que hablan de los datos, necesarios para mantener la seguridad y trazabilidad del dato, y que constituyen una fuente de valor añadido al aportar información sobre el contexto.

El concepto del Data Lake no es el de un archivo estático donde la información envejece y cumple su ciclo de vida; se trata de un repositorio activo y estratégico, capaz de crecer al ritmo que lo hagan la organización y las nuevas ideas, facilitando la ingesta, el cruce y la reutilización de información en cualquier formato. También permite la construcción de aplicaciones que puedan utilizar sus datos directamente, incluso en tiempo real, incrementando la inteligencia del negocio y posibilitando la respuesta inmediata ante ciertos eventos.

El Data Lake conjuga el valor de la información del negocio con las posibilidades que la ciencia de los datos proporciona, y es el sustrato en el que se apoya el desarrollo de un nuevo tipo de aplicaciones predictivas, de alto valor añadido, embebidas en los procesos de la organización y que favorecen el desarrollo de innovadores modelos de negocio.

 

Especial Tecnología y Deporte en Para Todos La2

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Para Todos La2 contó de nuevo con EMC para uno de sus debates. En esta ocasión se trató de “Tecnología y Deporte”. Con este marco de fondo, el programa elaboró un reportaje sobre la Barcelona World Race, de la que EMC es patrocinador tecnológico, y organizó una mesa debate en la que participamos Josep Escada del Centro de Alto Rendimiento Deportivo, Juanjo Pardo y yo.

Aquí os dejo el debate completo sobre “La Tecnología en el deporte” espero os resulte interesante.

A Propósito De La Nube. Aplicaciones (4)

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Una vez acometida la transformación de la infraestructura, y habiendo experimentado los beneficios de la virtualización de aplicaciones de misión crítica, la siguiente necesidad será la de mover aplicaciones de unas infraestructuras a otras, para alcanzar nuevos niveles de agilidad y eficiencia.

Este es el momento oportuno para modernizar nuestro portfolio de aplicaciones, hacerlas más flexibles y prepararnos para responder más rápidamente a las necesidades de negocio.

Aplicaciones

Estas necesidades son nuevas y más exigentes que nunca. Pensemos en algunas de las nuevas compañías que operan en internet, donde con sólo unas docenas de empleados se proporciona servicio a millones de clientes. Esto requiere nuevas formas de gestar aplicaciones.

  • Las nuevas aplicaciones se escriben utilizando entornos de programación modernos que permitan abordar las necesidades de crecimiento y movilidad dentro de la nube o entre nubes.
  • En estos entornos los programadores no necesitan pensar en la infraestructura, la provisión de recursos físicos o la operativa. Simplemente necesitan focalizar en la lógica de negocio y programación, haciendo un uso eficiente de las inversiones realizadas para transformar la infraestructura en un servicio, sean de nube privada o pública.  
  • Las nuevas aplicaciones no se construyen con middleware heredado. Aquellos componentes caros, propietarios o que encadenen a un proveedor determinado serán descartados. El nuevo conjunto de aplicaciones utilizan middleware más ligero y arquitecturas portables, preparadas para funcionar en entornos virtuales y de nube, caracterizados por un bajo consumo de recursos y una escalabilidad ilimitada.  
  • El centro de gravedad de las nuevas aplicaciones son los datos. La aparición del concepto de ‘Lago de los Datos’ describe la convergencia entre las bases de datos tradicionales y aproximaciones más modernas a la infraestructura de los datos. Las más importantes características del ‘Lago de los Datos’ son la capacidad de almacenar y escalar sin límites así como de procesar cualquier cantidad de datos, en cualquier formato en un tiempo predecible; por tanto tiene que ser elástico, escalable, disponible, rápido y … barato

Adicionalmente, este repositorio tiene que disponer de otros servicios que pueden ser requeridos para hacer frente a determinadas necesidades del negocio, como tiempo real para reaccionar ante eventos de forma inmediata o interfaces amigables para los usuarios actuales de Inteligencia de Negocio.    

A Propósito De La Nube. Operativa (3)

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

La adaptación del departamento de TI durante la transformación a un modelo de autoservicio y pago por uso, requiere una serie de cambios básicos en los roles y procesos que permitan una respuesta más ágil a los requerimientos del negocio.

Nube. Operativa

Algunos de los pasos dados en la evolución de la infraestructura física aceleran esta transformación: por ejemplo, la virtualización masiva simplifica el proceso de despliegue de nueva infraestructura, al eliminar tareas anteriormente problemáticas, como el proceso de compra de infraestructura física asociado con cada nuevo proyecto; también, la estandarización de plataformas simplifica la planificación de capacidad, al eliminar la complejidad asociada con entornos multiplataforma.

Sin embargo, la pieza clave es el Software, responsable de gestionar toda la infraestructura y de proporcionar la seguridad, disponibilidad y agilidad requerida independientemente del hardware subyacente. Alguna de las tareas requeridas en el Datacenter Definido Por Software son:

  • Generación del catálogo de servicios que resume la oferta de TI hacia las unidades de negocio, y que puede ser auto-provisionada por los usuarios mediante un portal a su disposición. Sean administradores de sistemas, desarrolladores o usuarios de negocio, disponen de una oferta orientada específicamente a su rol, que cumple con las políticas definidas por la organización.
  • Plataformas de virtualización del conjunto de la infraestructura física, incluyendo servidores, almacenamiento o redes, lo que permite construir una arquitectura de nube al mínimo coste posible.
  • Elementos de automatización de la nube y de integración con otros elementos y servicios de gestión, tales como la seguridad, que requieren que los administradores y arquitectos puedan generar flujos de trabajo lo más industrializados posible.
  • Herramientas de monitorización para controlar el nivel de servicio, y por tanto la capacidad, rendimiento y funcionamiento general de la infraestructura, así como métricas de eficiencia.
  • Capacidad para relacionar la calidad del nivel de servicio con los costes en un entorno del que se supone que responde a las demandas del negocio.

Todo este ecosistema ha de estar preparado para funcionar correctamente en un entorno abierto, en el que la infraestructura física que compone la nube puede pertenecer a distintos proveedores así como distintos pueden ser los sistemas operativos, hipervisores, etc.

A Propósito De La Nube. Infraestructura Física (2)

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Ya sabemos que las organizaciones se dirigen hacia el consumo de TI como un servicio, basado en un catálogo, transparente desde el punto de vista financiero, orientado a las necesidades del negocio, y cuyos niveles de servicio se encuentran acordados entre las partes. Este catálogo debe incluir todos los componentes necesarios para la implantación de un servicio, incluyendo la infraestructura física.    

Infraestructura física

También sabemos que en este modelo el usuario paga solamente por aquello que consume, cuando lo consume. Esto tiene un impacto sobre la infraestructura física, que ahora tiene que responder a nuevos requerimientos como crecimiento bajo demanda, simplicidad y velocidad de despliegue, escalabilidad ilimitada, y competitividad en costes; algunas estrategias para alcanzar estos objetivos son:

  • Estandarización, que ofrece ventajas tanto desde el punto de vista económico como operativo y de gestión. Esto fomenta la proliferación de plataformas hardware uniformemente basadas en arquitecturas de consumo masivo x86, y consolidadas en sistemas operativos VMware, Microsoft o Linux; también ha favorecido la aparición de las llamadas infraestructuras convergentes, que contienen todos los elementos de proceso, almacenamiento o red necesarios para el despliegue de una nube.  
  • Virtualización masiva de las infraestructuras, que comenzó como una estrategia de reducción de costes asociada a la adquisición de servidores y que se ha extendido a toda la infraestructura, incluyendo el almacenamiento y la red; es la vía para proporcionar una calidad de servicio óptima y máxima flexibilidad ante el cambio.
  • Automatización, necesaria para proporcionar infraestructura bajo demanda; esta tarea se lleva a cabo mediante el software, que es quien aporta realmente valor a una infraestructura hardware escasamente diferenciada, y es el origen del fenómeno que conocemos como ‘Datacenter Definido Por Software’

Uno de los objetivos del Datacenter Definido Por Software es proporcionar la necesaria interoperabilidad entre diferentes nubes, privadas o públicas, permitiendo el movimiento de datos y procesos en ambas direcciones, y creando una auténtica federación de nubes gestionadas desde un único punto.

Esta nube híbrida, proporciona la capacidad para escalar dinámicamente y responder a demandas de negocio impredecibles, lo que es percibido por el negocio como una clara mejora en términos de alineamiento, eficiencia y satisfacción para el usuario final, mientras que la dirección de TI tendrá una clara percepción de ahorro económico.


A Propósito De La Nube. IT como Servicio

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

El Datacenter se encuentra en un proceso de transformación que afecta a la función de TI y a su relación con el negocio, reflejando lo que sucede en la sociedad.

Los usuarios han madurado, ya no son ignorantes de las nuevas tecnologías sino que las incorporan de forma proactiva en su vida cotidiana; estos usuarios están preparados para entender el uso de la tecnología en sus sectores de negocio, y quieren seleccionar el tipo de servicio que necesitan: aquél que les permite ser más productivos, competir en mejores condiciones o rebajar los costes de sus departamentos.  

Los servicios solicitados pueden coincidir o no con los que el departamento de Ti ofrece, y cuando oferta y demanda no se encuentran alineadas aparece el concepto de ‘TI en la sombra’: Las unidades de negocio se dirigen directamente al mercado para adquirir el servicio que necesitan, ignorando al departamento de TI.  

Es por ello necesario que TI desarrolle su propio catálogo de servicios, creado en respuesta a las necesidades expresadas por el negocio y orientado a proporcionar flexibilidad y agilidad en la respuesta a sus requerimientos.

A Propósito de la Nube. IT como Servicio

Este catálogo, cuyo uso se asemeja al menú de un autoservicio, debería de contener tanto los servicios que puedan ser proporcionados internamente por la organización de TI, como aquellos que puedan ser adquiridos a un tercero, con la finalidad de ser más económico o eficiente.  

Es importante, para los departamentos de TI, incorporar en su catálogo aquellos servicios externos que puedan ser necesarios para el negocio. Si se ignoran este tipo de requerimientos, la compra y el consumo de estos recursos podrían crecer sin control dentro de la organización.

Al involucrarse en este proceso, la organización de TI se convierte en un distribuidor de servicios más que en un mero proveedor de infraestructura, lo que conduce a las arquitecturas de nube híbrida.

Para que esta transformación tenga éxito, es necesario monitorizar los niveles de servicio acordados con el negocio, especialmente en las áreas de seguridad, calidad y agilidad en el despliegue de recursos, y por supuesto, en el coste. Es decir, lo habitual entre un cliente (las unidades de negocio) y su proveedor (el departamento de TI).

Videos Recomendados

Expand The Data Lake: New Data Lake, New Breakthroughs

Archivo del Blog

  • 2016 3
  • 2015 20
  • 2014 7
  • 2013 16
  • 2012 21
facebook
twitter
linkedin
youtube
rss