Data Lake; qué es y qué tiene que ver con el Big Data

¡Datos! ¡Más datos!

Los datos son el nuevo petróleo –dicen- y lo cierto es que la forma de extraerlos, almacenarlos y aprovecharlos guarda ciertas similitudes con aquello de excavar un agujero en la tierra y meter en crudo en bidones.

El Big Data no solo es un “palabro” de marketing más o menos de moda, sino que contiene un concepto bastante claro: la acumulación y el tratamiento de enormes cantidades de datos con el objeto de poder aprovechar el conocimiento que estos puedan contener. Hasta aquí bien: es fácil describirlo (aunque no tanto hacerlo).

Ahora bien, la forma de almacenar y aprovechar esa enorme acumulación de datos que es el Big Data puede ser diversa. Tradicionalmente, una de las formas a través de las cuales las empresas han venido guardando datos es en los conocidos como Data Warehouse; sin embargo, una nueva forma de almacenar datos –más cercana al concepto de Big Data- está ganando adeptos durante los últimos años: la conocemos como Data Lake.

¿Qué es el Data Lake?

Un Data Lake es un repositorio de datos en el que estos se almacenan “en bruto”, sin apenas tratamiento, con el fin de ser utilizados con posterioridad, en el momento en que se considere oportuno. Siguiendo con nuestra analogía petrolífera, podríamos decir que en un Data Lake los datos son almacenados “en crudo”, tal como “salen del suelo” y sin “refinar”.

Los Data Lake se nutren de todo tipo de datos, con diferentes estructuras (también tienen cabida en ellos los datos estructurados) y que provienen de fuentes heterogéneas. El concepto clave pues es el de “almacenamiento”; de lo que se trata es de guardar los datos con el objeto de que puedan ser procesados y utilizados en el momento en que sea necesario.

Ahora bien, no todo es tan simple como echarlos a un contenedor. Cada elemento del Data Lake recibe un identificador y etiquetas de metadatos extendidas, con el fin de que pueda ser identificado y recuperado fácilmente. Sin embargo, como a continuación veremos, este tratamiento es mucho más básico que el que reciben los datos utilizados en el Data Warehouse.

¿En qué se diferencia un Data Lake de un Data Warehouse?

Podríamos decir que la principal diferencia la encontramos tanto en la cantidad como en el “refinado” de los datos.

En un Data Warehouse, los datos serán estructurados o discriminados en función de su utilidad; solo los datos que vayamos a utilizar para los objetivos concretos que se pretenda alcanzar tendrían cabida. Además, serán procesados de forma previa para que el sistema pueda utilizarlos y extraer información útil. Como decíamos, en el caso del Data Warehouse, el “refinado” es mucho más exhaustivo que si se tratara de un Data Lake.

El Data Warehouse se nutrirá de datos en función de su utilidad para un objetivo concreto y, además, dará a estos datos el formato concreto para que puedan ser analizados. El objetivo a alcanzar, habitualmente, será la respuesta a una pregunta o serie de preguntas determinadas que se reflejará en forma de informes.

Por ejemplo, el Data Warehouse puede ayudar a una empresa a detectar características demográficas de los clientes e identificar patrones de compra, con el objetivo de dirigir los esfuerzos de marketing en un determinado sentido u otro. O también puede utilizarse para detectar los usuarios que tengan más probabilidades de irse con la competencia, con el objetivo de ofrecerles incentivos para que permanezcan siendo clientes.

El Data Lake funciona de una manera diferente. Se trata de un enorme “lago” en el que, como decíamos, los datos se almacenan con un tratamiento previo muy básico, únicamente con el objeto de que puedan ser recuperados cuando sea necesario su tratamiento y análisis. Así, en el Data Lake pueden tener cabida muchos tipos de datos distintos, de diversas fuentes y en diferentes formatos. Esto exige, por supuesto, que la capacidad de almacenamiento sea enorme, con frecuencia mayor que en el caso de un Data Warehouse (este es uno de los principales motivos por los que se suele considerar al Data Lake más cercano al concepto de Big Data que el Data Warehouse).

Las diferentes estructuras de un Data Lake y un Data Warehouse harán que cada opción ofrezca diferentes ventajas e inconvenientes. Respecto de los Data Lake se suele decir que son más flexibles y ágiles (pero también más vastos y “enfangados”); sobre los Data Warehouse que están más estructurados y son más eficientes (pero también que son más rígidos y menos adaptables).

Ambas son formas diferentes de guardar y organizar grandes cantidades de datos y, por lo tanto, cada opción podrá servir en mayor o menor medida en función de los objetivos que se pretenda alcanzar. Además, no son opciones excluyentes.

Y ahora que ya conocemos qué es un Data Lake, ¿qué tal si dedicas unos minutos a descubrir Pandora FMS?

Pandora FMS no es un Data Lake, ni tampoco un Data Warehouse. Sin embargo, es otro tipo de herramienta que también puede ofrecer grandes beneficios a una empresa u organización. Pandora FMS es un software de monitorización flexible, capaz de monitorizar dispositivos, infraestructuras, aplicaciones, servicios y procesos de negocio.

¿Quieres conocerlo mucho mejor? Entra aquí: https://pandorafms.com/es/

O también puedes enviar cualquier consulta que tengas acerca de Pandora FMS. Hazlo de una manera muy sencilla, gracias al formulario de contacto que se encuentra en la siguiente dirección: https://pandorafms.com/es/empresa/contacto/

¡El equipo de Pandora FMS estará encantado de atenderte!

Shares