Archive for the ‘Big Data’ Category

La apuesta por el Open Source

Son ya unos cuantos años trabajando para EMC como para haber vivido en primera persona las transformaciones en las que la compañía se ha embarcado durante este tiempo. Algunas de esas transformaciones han sido por motivos internos y otras por motivos externos, pero siempre ha existido un agente de cambio, algo muy importante para que una organización continúe en la brecha.

Pero sin duda, la transformación en la que estamos ahora mismo embarcados es la mayor de todas las que he vivido. ¡No resiste comparación! Y uno de los anuncios fundamentales dentro de esta transformación, es la apuesta decidida de EMC por el “open source”.

Este camino comenzó primero en Pivotal, miembro de la Federación EMC, con la creación de la plataforma ODP (Open Data Platform) anunciada a comienzos de este año 2015. Esta iniciativa es un esfuerzo de las principales compañías alrededor del mercado de Big Data para promocionar y facilitar el uso de Apache Hadoop y las tecnologías de Big Data orientadas a las empresas. En el caso de Pivotal, este movimiento se vio plasmado con el anuncio de la última versión de Pivotal Big Data Suite, compatible con el mencionado estándar.

Posteriormente, fue también el anuncio por parte de Pivotal que iba a llevar al mundo Open Source componentes fundamentales de su solución como son Pivotal HAWQ, Pivotal GreenPlum Database y Pivotal GemFire.

Y recientemente ha recibido un espaldarazo muy importante cuando en el marco del evento anual de usuarios EMC World en Las Vegas, fue anunciado el proyecto CoprHD.

VIPR CONTROLLER

Bajo el paraguas de este proyecto, EMC ha liberado a la comunidad, el código fuente de ViPR Controller (Ver infografía), pieza clave en nuestra estrategia de Software Defined Storage. Con este movimiento, que no será el último en este año, se reafirma el compromiso con la estrategia Open Source y permitir enriquecer con desarrollos de terceros, productos claves en el portfolio EMC.

Sigo pensando que la mayoría de los clientes optarán por comprar una solución completa (compuesta por hardware, software y servicios) que les alivie de las tareas de integración y que por tanto, solo quieran concentrarse en obtener los beneficios que esta solución pueda aportar tanto desde un punto de vista tecnológico como de negocio.

Pero llevando el código al mundo Open Source, creará a la vez un ecosistema mucho más rico donde se puedan evaluar los productos de una manera más libre y al alcance de un mayor número de usuarios, lo que redundará en un beneficio de todos. En definitiva, y como suelo decir últimamente; dar a los clientes “libertad de elección”.

Primer Paso: Business Data Lake

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Las empresas han tomado conciencia de que la aparición y crecimiento de nuevas fuentes de datos, junto con las tecnologías Big Data y los nuevos enfoques analíticos, ofrecen una oportunidad sin precedentes para impulsar nuevos modelos de negocio e incrementar sus ventajas competitivas.

En este entorno, Hadoop ha pasado a formar parte de la visión estratégica de los negocios, dando lugar a un ecosistema complejo, cada vez más preparado para dar respuesta a distintos retos: análisis masivo de información, respuestas a eventos en tiempo real (Fast Data), distintos lenguajes de programación, interfaces SQL, procesado de datos en memoria

Una de las mayores preocupaciones consiste en saber por dónde empezar a construir toda esta arquitectura de negocio, cuál es la primera piedra; la respuesta está en el Data Lake, al que ya hemos dedicado un par de entradas en este blog; una de ellas es El sueño del Data Lake.

A principios de esta semana, EMC ha anunciado su solución Business Data Lake (BDL), que proporciona la capacidad de generar un Lago de Datos de nivel empresarial, alineado con las prioridades del negocio, y que permite agilizar la extracción de valor de los datos.

El Business Data Lake de EMC es una plataforma convergente que incorpora el almacenamiento, computación y los motores analíticos necesarios para ofrecer una plataforma de explotación de datos eficaz, proporcionando además capacidades de autoservicio, gestión extremo a extremo, integración y aprovisionamiento de todo el entorno de Big Data a través de bloques preconfigurados.

Aunque la solución permite combinar el valor de la Federación EMC al completo, con la virtualización de VMware y las capacidades analíticas de Pivotal, también es posible sustituir las plataformas analíticas por otras tales como Cloudera o Hortonworks, o incorporar distintas aplicaciones y bases de datos tales como Tableau, SAS o MongoDB en tiempo de lanzamiento, a los que se irán incorporando otros actores.

Business Data LakeInteroperabilidad clave

Quizá sea la interoperabilidad uno de los aspectos más interesantes de la solución. Esto se ha conseguido gracias a un significativo esfuerzo de ingeniería, orientado no sólo a garantizar que todas estas tecnologías funcionan en conjunto, sino a orquestar las funciones claves del Data Lake, tales como la ingesta de datos, el aprovisionamiento de aplicaciones, la seguridad o la gobernanza del entorno.

De esta forma, la integración con las soluciones de EMC permite ejecutar cualquiera de los componentes de las plataformas PivotalHD, Cloudera Enterprise o Hortonworks Data Platform, sobre las infraestructuras scale-out Isilon propuestas en el BDL; SAS integra y optimiza para el BDL su plataforma analítica, lo que permite crear y administrar sus modelos sobre una arquitectura de última generación.

Los ejemplos anteriores refuerzan el compromiso de todas estas compañías, y de EMC, con la interoperabilidad que estos entornos abiertos y críticos requieren, fortaleciendo la capacidad de elección del cliente.

El Business Data Lake refleja, en definitiva, un esfuerzo conjunto entre EMC y sus partners, que incluye el hardware, software y la integración e ingeniería necesaria para definir un primer paso sencillo y veloz que permita a las organizaciones innovar y comenzar a obtener valor de este fenómeno imparable del Big Data.

El sueño del Data Lake

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Si hoy nadie duda del valor de la información para las empresas, el fenómeno de Big Data ha acelerado el interés de las organizaciones alrededor de la explotación masiva del valor que para el negocio se oculta en los datos.

Sin embargo, lo normal es que esta información siga estando prisionera de los sistemas que la generaron así tenemos los registros financieros, los de ventas, los que vienen de sensores de la línea de fabricación, los contratos, los vídeos de seguridad…aunque transformamos y enviamos algunos de estos datos a un Data Warehouse, esto no significa una completa reutilización de la información por distintas aplicaciones, o lo que es lo mismo, no significa una explotación integral de los datos por distintas unidades de negocio.

EMC DATA LAKES

El concepto de Data Lake, un repositorio lógico e hiperescalable de información, viene motivado por la necesidad de movilizar la información, haciéndola accesible bien para su uso estadístico y analítico, bien para ser embebida en otro tipo de aplicaciones y procesos. Esto es, tiene que ver con liberar y explotar la información de los silos en los que se encuentra estancada.

Toda la Información

Pero ¿de qué tipo de información estamos hablando? De toda. Estructurada o desestructurada, interna o externa, de seguridad o financiera, tiempo real o batch. El Data Lake ideal contiene toda la información que el negocio necesita para su actividad, crecimiento y desarrollo competitivo.

Por ejemplo, la información de las redes sociales recolectada por el área de Marketing es relevante para conocer mejor a tu cliente, verificar el grado de aceptación de un competidor en el mercado o para entender el ruido generado por un determinado incidente con uno de nuestros productos; o sea, todo eso que llamamos análisis de sentimientos, tan importante en la estrategia de ventas e imagen de marca. Pero esa misma información también puede ser de utilidad para perfeccionar nuestros mecanismos de atención al cliente, de fabricación o de logística, incluso adelantando necesidades antes de que éstas realmente se manifiesten.

De la misma forma, los registros de actividad (logs) y secuencias de clics generados por los distintos dispositivos de nuestra plataforma de comercio electrónico, contienen información valiosa que nos permite entender el comportamiento de los usuarios, lo que es tan relevante para las áreas de seguridad como para las áreas de marketing. La misma información puede ser utilizada para proporcionar distintos ángulos a distintas unidades de negocio.

El Data Lake no sólo se nutre de datos internos de la organización. Cierta información externa, como la que tiene su origen en los mercados de futuros, los datos meteorológicos o calendarios de eventos, puede servirnos para planificar nuestras finanzas o definir nuestras políticas de precios, incluso de forma automática: si conozco el impacto del encarecimiento del petróleo en mis costes, puedo adaptar de forma automática mis tarifas, lo que reduce la posibilidad de errores e incrementa mi agilidad frente a la competencia.

Data Lake no es igual que Data Base.

A diferencia de las bases de datos, en el Data Lake se almacenan los datos tal cual se generaron, en su formato original y antes de someterlos a ninguna transformación o modelización, lo que permite garantizar que no han perdido ningún aspecto de la información original. Esta ingesta masiva es posible porque su escalabilidad es muy grande y sus costes muy bajos, tanto en términos de software como de hardware o gestión; no son comparables a los costes de una base de datos tradicional.

Otro aspecto diferencial es la riqueza de metadatos, datos que hablan de los datos, necesarios para mantener la seguridad y trazabilidad del dato, y que constituyen una fuente de valor añadido al aportar información sobre el contexto.

El concepto del Data Lake no es el de un archivo estático donde la información envejece y cumple su ciclo de vida; se trata de un repositorio activo y estratégico, capaz de crecer al ritmo que lo hagan la organización y las nuevas ideas, facilitando la ingesta, el cruce y la reutilización de información en cualquier formato. También permite la construcción de aplicaciones que puedan utilizar sus datos directamente, incluso en tiempo real, incrementando la inteligencia del negocio y posibilitando la respuesta inmediata ante ciertos eventos.

El Data Lake conjuga el valor de la información del negocio con las posibilidades que la ciencia de los datos proporciona, y es el sustrato en el que se apoya el desarrollo de un nuevo tipo de aplicaciones predictivas, de alto valor añadido, embebidas en los procesos de la organización y que favorecen el desarrollo de innovadores modelos de negocio.

 

Aplicaciones de nueva generación ¡estáis de enhorabuena!

David Beltrán

David Beltrán

David Beltrán cuenta con más de 20 años de experiencia en la industria TI. Trabaja en EMC desde el año 1999. Actualmente es Lead Global Architect para uno de los dos bancos más grandes de España. A lo largo de su trayectoria, ha trabajado con clientes de los distintos segmentos, incluyendo Finanzas, Seguros, Sector Público, Salud, Industria, Telco, Retail, Transportes, Petróleo y Gas.
David Beltrán

Latest posts by David Beltrán (see all)

Ya aprieta el calor en Madrid, y esto me lleva a compartir mi entusiasmo ante una nueva propuesta de valor que EMC está preparando para las aplicaciones de nueva generación, a las que algunos asimilan (no sin razón) a cargas de trabajo pesadas, y otros a entornos de muy alto rendimiento, y que no puedo más que compartir con los lectores. 

Seguro que los gestores de IT de las compañías han tenido o tienen que enfrentarse al reto de proveer una infraestructura tecnológica que soporte aplicaciones de alto valor añadido al negocio, sin “romper el banco” en el intento. 

Es muy típico escuchar de un cliente demandar soluciones a entornos muy concretos que no ofrecen el rendimiento adecuado, o que consumen una barbaridad de recursos sin terminar de ofrecer lo que el cliente realmente espera. Incluso a veces, realizando fuertes inversiones en infraestructura, no resulta sencillo hacer que determinados entornos rindan de forma óptima al nivel que se desea.

Estoy hablando de entornos tipo “Analytics” o “Big Data”, bases de datos en memoria o sistemas de análisis en tiempo real. También, y de forma más específica, investigación genómica, reconocimiento facial o modelos climatológicos. En general, todo aquello que tenga que trabajar con Hadoop, Cloudera, Gemfire o SAP HANA. 

EMC, en su ánimo de ofrecer la mejor propuesta posible para todo tipo de entornos, está trabajando en una nueva solución basada en el producto de la compañía DSSD, de reciente adquisición por nuestra parte. La tecnología empleada es innovadora, y se basa en memoria flash para el servidor, pero con un enfoque tecnológico único en el mercado, para poder proporcionar las características adecuadas de rendimiento y fiabilidad que estos entornos de muy alto rendimiento demandan. La clave está, aparte de poder servir muchas IOPS, en proporcionar una latencia extremadamente baja a una cantidad de memoria mucho mayor de la posible con las tecnologías actuales. 

Flash Everywhere

A nadie se le escapa que el protagonismo de este tipo de entornos de alto rendimiento que suponen las aplicaciones de nueva generación en el mundo de IT, es cada vez más relevante, por su claro valor añadido hacia el negocio, y su uso se verá incrementado de forma exponencial en los próximos años. Adaptarse a este tipo de entornos de forma óptima y saber extraer todo el potencial que son capaces de brindar al negocio, marcará claramente la diferencia entre compañías. 

Invito por lo tanto a todos los interesados a profundizar en esta nueva tecnología, que viene a aumentar si cabe aún más la extensa y completa oferta de soluciones de EMC.

Cloud es demasiado importante para ser propietario

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Con este tweet Paul Maritz, CEO de Pivotal, anunciaba la conversión de Cloud Foundry en una Fundación, así como la puesta en marcha de un modelo de gobierno abierto y formal. CF, la iniciativa software de Platform-as-a-Service (PaaS) de Pivotal, podrá de esta forma evolucionar para convertirse en la base de todo un ecosistema de plataforma abierta.

Cloud Foundry nació como un proyecto de Open Source; pero siempre que se genera un proyecto de código abierto liderado por una empresa, la potencial comunidad de desarrolladores se pregunta acerca del grado de independencia de la plataforma, así como de los compromisos de desarrollo futuro.

La tentación para la empresa generadora es la de comenzar a tratarlo como software comercial, y el riesgo para la comunidad de desarrolladores es el de perder protagonismo, que sus necesidades no sean escuchadas, y con ello perder esfuerzos e inversiones realizadas alrededor de la plataforma.

El año pasado ya se creó un consejo asesor para reducir la preocupación derivada de que Pivotal fuera el único grupo liderando Cloud Foundry.

El siguiente paso, dado la semana pasada, ha sido el de crear una Fundación independiente, que ejerce la custodia de la estructura y gobernanza del proyecto. La Fundación cuenta con un consejo definido y los apropiados mecanismos de decisión, lo que permite a otras compañías y organizaciones con intereses en el proyecto involucrarse, directamente, en la estrategia y dirección de la hoja de ruta; además esto proporciona visibilidad de estos esfuerzos y transparencia al público en general.

Cloud Pública, Privada, Open Source

Cloud foundry

Ser miembro de la Fundación significa contribuir al núcleo de Cloud Foundry, pero eso no impide que cualquier empresa pueda crear alrededor del núcleo sus propios productos o extensiones específicas. En situaciones de competencia entre los miembros de la Fundación, seguramente tendrán que explicar a sus clientes que hay cierta cantidad de código idéntica en todos ellos y ciertos servicios diferenciales.

La nueva Fundación tiene como algunos de sus miembros a EMC, Pivotal, VMware, IBM, HP, SAP o Rackspace, nombres que dan una idea del interés que esta iniciativa ha despertado en el mercado, en la línea de evitar que una sola compañía pueda dictar el futuro de las aplicaciones o servicios Cloud. En definitiva, se trata de que las aplicaciones se puedan codificar de forma independiente y sean portables a (cualquier) nube.

 

Una historia sobre Big Data

David Beltrán

David Beltrán

David Beltrán cuenta con más de 20 años de experiencia en la industria TI. Trabaja en EMC desde el año 1999. Actualmente es Lead Global Architect para uno de los dos bancos más grandes de España. A lo largo de su trayectoria, ha trabajado con clientes de los distintos segmentos, incluyendo Finanzas, Seguros, Sector Público, Salud, Industria, Telco, Retail, Transportes, Petróleo y Gas.
David Beltrán

Latest posts by David Beltrán (see all)

En uno de mis últimos viajes a las Américas, tuve la ocasión de compartir una reunión de trabajo con un grupo de compañeros expertos en esto que últimamente está tanto de moda y que se denomina Big Data, algo sobre lo que todos los fabricantes del sector nos jactamos de tener la solución idónea para las problemáticas de nuestros clientes. 

Confieso que me vi sorprendido por la pasión y poder de comunicación de este equipo, pero sobre todo por su capacidad de generar “demandas terrenales” para la entelequia del Big Data.

Como ejemplo de modelo de proyecto al uso, nos ilustraron con la siguiente historia:

Imaginemos que tenemos una entidad bancaria que un día concreto del año sufre un ataque a su red de cajeros. Nada muy extraño por desgracia hasta aquí. Pero el ataque del que estamos hablando no es un ataque cualquiera, es algo mucho más sofisticado. Imaginemos por un momento que esta entidad sufre, en un intervalo de tiempo de media hora, un ataque coordinado en decenas de cajeros a lo largo de varios estados del país, que consiste en abrir el cajero, y mediante un procedimiento informático local, dar una orden de vaciado completo del dispensador de dinero.

Para perpetrar este hecho, es necesario para la red de delincuentes contar con la connivencia de empleados del propio banco y empleados del fabricante de los cajeros, conocedores ambos tanto de la tecnología a asaltar como de los mecanismos de seguridad puestos en marcha.

El hecho es que, de manera muy discreta, y disfrazado prácticamente como una intervención de servicio, el Banco en cuestión pasa a tener una merma de 50 millones de Reales en apenas unos minutos.

Una vez que el Banco se pone a investigar el hecho y ver cómo se podía haber evitado, descubren que realmente cuentan con una fuente de información excepcional, los logs de los cajeros, emitidos en tiempo real por los mismos y almacenados en la central.

Pero, ¿y ahora qué? De nada sirve poner a varias personas a leerse dichos logs en busca de algo que alerte sobre la posible causa del ataque, porque el ataque ya se ha producido, es demasiado tarde. Por lo tanto, y decididos a invertir para que esta fechoría no vuelva a suceder, el Banco decide contactar con nuestro equipo de expertos en la materia, los cuales, y de forma muy resumida, proporcionan lo siguiente:

1. Una plataforma potente para el procesado en tiempo real de dichos logs, basada en Greenplum y Hadoop.
2. Un algoritmo a medida de detección de intrusión o ataque en los cajeros, que proporciona un 95% de acierto en sus conclusiones.
3. Los servicios de implantación pertinentes para todo el proyecto.

Fíjense en la importancia del segundo punto, es la clave. Es fundamental contar con la presencia de un equipo de data scientists, es decir, personas capaces de desarrollar algoritmos de explotación de los datos adecuados a la necesidad concreta que atañe al proyecto en sí. En este caso, y en un plazo de una semana, el data scientist fue capaz de desarrollar un algoritmo matemático de predicción basado en la información de estado que proporcionan los cajeros automáticos de la entidad asaltada.

De esta manera, el Banco cuenta con una plataforma de análisis en tiempo real capaz de detectar de forma casi infalible un ataque perpetrado en la red de cajeros en el momento en el que se produce.

Y hasta aquí podría parecer otra bonita historia de ciencia ficción sobre Big Data y las posibles aplicaciones de uso que los fabricantes nos empeñamos en desarrollar para nuestros clientes. La diferencia estriba en que, esta vez, la historia es muy real, y sirve además para ilustrar cómo un fabricante como EMC es capaz de proporcionar un proyecto end-to-end de última tecnología que aporta un valor añadido inmenso para un cliente.

Videos Recomendados

Expand The Data Lake: New Data Lake, New Breakthroughs

Archivo del Blog

  • 2016 3
  • 2015 20
  • 2014 7
  • 2013 16
  • 2012 21
facebook
twitter
linkedin
youtube
rss