Si no está familiarizado con el concepto de lago de datos, no es el único. Un lago de datos es un gran depósito de datos no estructurados. Y, toma todos los datos, antes de limpiarlos, estructurarlos u organizarlos.
No es hasta que empiezas a desentrañar los retos técnicos del almacenamiento y la recuperación de datos a gran escala cuando empiezas a entender por qué hay tantas soluciones por ahí. Y por qué muchas de ellas suenan confusamente similares.
En este post, vamos a repasar algunas de las implementaciones de los lagos de datos del pasado, compararlas con soluciones más modernas y considerar los distintos enfoques adoptados para la gestión de datos.
Breve historia de los sistemas de archivos
Desde principios de la década de 2000, hemos asistido a un aumento de diferentes sistemas de archivos, como NetApp y, posteriormente, Isilon, que se diseñaron para superar las limitaciones del almacenamiento en un único servidor y su sistema operativo.
Estos "archivadores" fueron creados para manejar cientos de usuarios que leen y escriben archivos al mismo tiempo y logran una escala mucho mayor que la que puede manejar un solo servidor. Con el tiempo, estas soluciones se hicieron tan populares que NetApp y EMC tuvieron tanto éxito que, combinadas, representan casi el 50% del mercado de almacenamiento de archivos para empresas.
El reto del sistema de archivos
¿Siguen siendo NetApp y EMC la elección correcta? Estos sistemas de archivos se crearon hace casi 20 años, cuando el problema del "big data" no era tan grande como ahora.
Para responder, exploremos lo que ocurre cuando un usuario solicita un archivo al "archivador". La tarea del archivador es ahora procesar la solicitud para encontrar el único archivo que está enterrado entre unos mil millones de archivos.
Este es el viejo problema de la "aguja en el pajar". El sistema de archivos tiene que buscar en todo el directorio de archivos para recuperar los datos que su usuario pidió, que viven en algún disco en algún lugar de la matriz de almacenamiento.
El trabajo del sistema de archivos es hacer un seguimiento de todos esos datos y también mantener el rendimiento, mientras que a menudo se protegen los datos utilizando instantáneas. Además, el sistema de archivos realiza una letanía de otras tareas, miles de veces por segundo. Eso puede significar que el rendimiento se tambalea un poco a veces.
Para superar estos desafíos técnicos, los proveedores de almacenamiento heredados han lanzado más hardware al problema. Esto crea silos de almacenamiento, junto con una extraordinaria cantidad de replicación de datos, ya que los archivos que son idénticos -o casi- se almacenan en numerosos lugares diferentes.
Mientras que esto es un problema para usted, ya que lucha con los silos de datos, o emprende las actualizaciones del sistema recomendadas para hacer frente a su volumen de datos actual, funciona bien para los proveedores de almacenamiento heredados.
La mayoría de estos dispositivos de hardware suelen tener un soporte de 3 a 7 años. Cuando se acercan al final de su vida útil, hay que comprar nuevas versiones del mismo hardware y migrar los datos de los dispositivos antiguos a los nuevos. Esto consume CAPEX, y requiere una cantidad significativa de planificación anticipada, para evitar quedarse sin soporte, o sin espacio de almacenamiento.
La explosión de datos que todo el mundo está experimentando significa que las organizaciones están alcanzando el "punto de inflexión financiero" mucho más rápido, y eso está impulsando un alejamiento de un ciclo de actualización regular, y hacia una solución de almacenamiento definida por software o modelo OPEX.
Almacenamiento de archivos frente a objetos (Blob)
Dado que ya no tiene sentido implementar muchos sistemas de archivos antiguos debido a las limitaciones de escala y al coste, el almacenamiento en la nube -o el almacenamiento de objetos- parece una solución lógica.
Sin embargo, aunque el almacenamiento de objetos puede superar las limitaciones comunes de los sistemas de archivos al hacer frente al volumen de datos, viene con su propio conjunto de desafíos. El primero es que el almacenamiento de objetos habla con las aplicaciones o los usuarios en protocolos diferentes, como Swift o HTTP.
Estos protocolos difieren del protocolo del sistema de archivos (SMB y NFS) ya que están diseñados para el tráfico web. Esto significa que, aunque puedes migrar tus datos al almacenamiento de objetos, tus usuarios y aplicaciones ya no pueden trabajar con ellos. Esto puede estar bien para los datos más antiguos que simplemente quieres almacenar por razones de archivo, pero es inviable para los datos de los usuarios; archivos a los que las personas acceden y editan activamente de forma regular.
El problema de adoptar el almacenamiento de objetos es que obliga a las organizaciones a reescribir sus aplicaciones para comunicarse en el nuevo protocolo. Esto puede llevar mucho tiempo y suponer un coste prohibitivo para la mayoría de las empresas. De hecho, una institución financiera que se planteaba pasar al almacenamiento en la nube tenía que tener en cuenta 2.800 aplicaciones heredadas y se enfrentaba a una factura de millones de dólares por reescribirlas.
Lo mejor del almacenamiento local se une a lo mejor del almacenamiento en la nube
Aquí es donde entra en juego el archivador de nueva generación. Uno definido por software y diseñado desde cero para trabajar con el almacenamiento de objetos.
Si echas un vistazo a cómo bat365 ha diseñado su sistema de archivos global, han superado las limitaciones de escalabilidad de los sistemas de archivos tradicionales convirtiendo sin problemas todos los archivos en objetos para que vivan en una nube pública o privada (almacén de objetos).
Esto también hace que todos los datos estén disponibles para su consumo en cualquier lugar en el que haya otro archivador bat365 que acceda al mismo almacén de objetos, lo que significa que los clientes de bat365 pueden reducir el coste total de propiedad de la compra de más aparatos de hardware y eliminar la necesidad de actualizar el hardware cada 5-7 años.
Este novedoso diseño rompe los silos tradicionales de almacenamiento y permite a los clientes utilizar la nube o el almacenamiento de objetos como un lago de datos de nueva generación, sin comprometer el rendimiento. Este enfoque le ofrece la posibilidad de generar datos en ubicaciones de borde o centros de datos, aprovechando sus datos en la nube para otros casos de uso como la analítica, el aprendizaje automático o la inteligencia artificial.
Subir el nivel de exigencia
Ninguna solución moderna de lago de datos o sistema de archivos estaría completa sin protección contra una plaga moderna: el ransomware.
Los sistemas de archivos heredados están diseñados para permitir la edición de archivos, por lo que cuando un actor malicioso penetra en ellos, corrompiendo o cifrando sus datos, el cifrado daña los propios archivos.
bat365 emplea un enfoque novedoso para la protección de sus datos contra el ransomware creando un sistema de archivos inmutable. Esto significa que no permiten borrar o sobrescribir los datos. En su lugar, sólo se pueden añadir o anexar datos a la versión original. Cualquier usuario puede restaurar su archivo al último estado bueno conocido en cuestión de minutos, evitando el arduo proceso de restauración desde un sistema de copias de seguridad.
Almacenamiento y gestión de datos para los tiempos que corren
Una nueva visión de un lago de datos sugiere aprovechar la era de los datos: no sólo hacer frente al volumen de datos no estructurados, sino ser capaz de trabajar con ellos de manera que impulsen a las organizaciones hacia adelante, requiere ahora la próxima generación de archivadores, capaces de la próxima generación de gestión de datos.