gooHace un par de semanas dedicábamos una entrada al Data Lake, ese repositorio hiperescalable, capaz de contener toda la información que una organización necesita, en el formato en que se haya generado y accesible por múltiples aplicaciones; el concepto contrario a silos de información incomunicada.
Como otros grandes conceptos emergentes (Big Data, Cloud, Internet of Things), la expresión ‘Data Lake’ es atractiva en sí misma y algo abstracta, define un concepto lógico de alto nivel. Por ello hoy toca bajar a suelo y reflexionar sobre la importancia de la infraestructura en la generación de un auténtico Lago de los Datos.
Lo primero es analizar el tipo de información que necesitamos almacenar; la información desestructurada representa cerca del 80% de los datos generados en el mundo actualmente. Por tanto este es el tipo de información prioritaria en el Data Lake: Más que Bases de Datos tradicionales son Ficheros y Objetos, documentos office, vídeos, grabaciones de voz, registros de máquinas…casi cualquier cosa.
EMC dispone de una herramienta especializada en este tipo de información, la gama Isilon, un sistema que en origen nació como un almacenamiento orientado a ficheros (NAS) y con una gran capacidad de crecimiento horizontal (arquitectura scale-out). Hoy Isilon ha evolucionado y constituye la mejor plataforma sobre la que desarrollar un Data Lake.

Escalabilidad y Gestión
La información se duplica cada dos años. Eso significa que en los dos próximos años nuestro Datacenter contendrá el doble de la información que contiene hoy, y dos años después el cuádruple. Por tanto, un requerimiento básico del Data Lake es la escalabilidad, la capacidad de adaptarse al crecimiento frenético del volumen de información sin generar cuellos de botella.
Un sistema Isilon crece a base de nodos independientes, que contienen tanto almacenamiento como CPUs, un tipo de arquitectura que favorece lo que llamamos escalabilidad horizontal o scale-out: cada vez que añadimos una pieza al sistema, éste crece tanto en capacidad como en potencia de proceso.
En su configuración máxima actual, Isilon alcanza 50PB (50.000TB!), lo que permite mantener el ritmo de crecimiento que el Big Data impone. Además, presenta todo ese volumen de datos como un único sistema de ficheros y un único disco lógico, compartido y accesible desde cualquier nodo. O sea, un repositorio único, de gestión sencilla, donde el mismo fichero está disponible para su acceso universal sin controladoras dedicadas.

EMC SCALE OUTInteroperatividad y Acceso Inmediato
El Data Lake se alimenta de múltiples aplicaciones a través de variados métodos de acceso; Isilon soporta los habituales protocolos asociados con el acceso a ficheros (NFS, CIFS, FTP), a los que se añaden los métodos de acceso típicos de los objetos (REST, SWIFT, S3, HTTP), los específicos de Backup (NDMP) o los asociados con analíticas de datos desestructurados (HDFS) de distintas distribuciones Open Source, entre las que se encuentran Apache, Pivotal, Hortonworks y Cloudera.
Además, habilita el acceso al mismo contenido a través de distintos protocolos de forma simultánea; por ejemplo, se pueden ejecutar analíticas de Hadoop sobre los objetos o ficheros generados por otras aplicaciones de forma inmediata, respetando sus formatos originales y sin necesidad de moverlos o copiarlos, lo que favorece el uso inmediato y sin esperas de la información, acabando con la tradicional incomunicación de los silos de información.

Interoperatividad en el data lake
Data Lake empresarial
Hay otras muchas razones por las que Isilon aporta un valor diferencial al Data Lake. Pensemos, por ejemplo, en el proceso periódico de refresco tecnológico. Esta tarea tradicionalmente ha sido una pesadilla en cualquier entorno, puesto que consiste en mover la información desde la tecnología antigua hacia la nueva, intentando que este proceso se realice límpiamente, con un consumo de recursos limitado y sin afectar a la producción. ¿Cómo puedo cumplir esos objetivos cuando el entorno a refrescar sea un repositorio con un volumen de datos sin precedentes (PB) y desestructurados?
La respuesta es, una vez más, apoyarse en la tecnología para hacer el proceso más sencillo. La arquitectura scale-out Isilon permite expandirse sin interrupción, con nodos de generaciones diferentes, balanceando datos y cargas de forma automática entre todos ellos. También permite retirar sin interrupción cualquier tipo de nodos, balanceando las cargas y los datos entre los nodos supervivientes. Este proceso elimina la necesidad de migración de los datos, y lo sustituye por una expansión y reducción del sistema, al final de lo cual habrá sido refrescado.

Refresco tecnológico data lakeY en fin, otras buenas razones tienen que ver con las funcionalidades que cabe esperar de cualquier infraestructura de EMC tales como disponibilidad, réplicas locales y remotas, o calidad del soporte técnico, elementos más conocidos en cualquier entorno.
Isilon está redefiniendo este mercado; lo que fue una herramienta de almacenamiento NAS se ha convertido en el auténtico cimiento del Data Lake, acelerando la adopción de este concepto mediante un despliegue rápido, sencillo, y sobre todo, seguro.

Alejandro Giménez

Alejandro Giménez

Alejandro Giménez, CTO EMC España. Un veterano con 20 años de experiencia tecnológica y comercial en el mundo de las TI. Sus clientes son su fuente favorita de información. Valora a EMC como un germen de innovación permanente @alexgimenezf

Leave a Comment

Comments are moderated. Dell EMC reserves the right to remove any content it deems inappropriate, including but not limited to spam, promotional and offensive comments.

Videos Recomendados

Expand The Data Lake: New Data Lake, New Breakthroughs

Archivo del Blog

  • 2016 3
  • 2015 20
  • 2014 7
  • 2013 16
  • 2012 21
facebook
twitter
linkedin
youtube
rss