Por Matthias Patzak.
Publicado el 25 de marzo de 2024.
Revisa la publicación original aquí.
Durante más de una década, las organizaciones han adoptado los lagos de datos para superar las limitaciones técnicas de los almacenes de datos y evolucionar hacia modelos más centrados en los datos. Si bien muchas han utilizado los lagos de datos para explorar nuevos casos de uso y mejorar sus enfoques basados en datos, otras han descubierto que los beneficios prometidos son difíciles de alcanzar. Como resultado, la efectividad y el retorno de la inversión de muchas iniciativas de lagos de datos están siendo objeto de un mayor escrutinio.
Cómo sortear los obstáculos: Cuando los lagos de datos se convierten en pantanos de datos
La visión que tiene la comunidad tecnológica sobre los lagos de datos ha evolucionado a medida que algunas organizaciones enfrentan desafíos relacionados con la gestión de grandes almacenes de datos y con la prevención de los “pantanos de datos”, donde los datos se almacenan sin ser utilizados. Estos pantanos de datos son repositorios masivos en los que los datos se vierten de manera indiscriminada, generando problemas de descubrimiento y usabilidad.
La centralización puede crear cuellos de botella que ralentizan el acceso y análisis de la información, y sin una gobernanza adecuada, la calidad de los datos puede deteriorarse rápidamente. Además, el enfoque único de los lagos de datos no cubre las necesidades específicas de los diferentes dominios comerciales. El potencial de los lagos de datos suele permanecer sin aprovecharse debido a que los usuarios tienen dificultades para extraer valor, ya sea por la falta de herramientas adecuadas o por la complejidad inherente de los datos.
Well-Implemented Data Lakes | Poorly Implemented Data Lakes: |
---|---|
Una sola fuente de verdad | Silos de datos difíciles de acceder |
Almacenamiento rentable | Se almacenan muchos datos innecesarios (“Los datos son el nuevo petróleo”) |
Democratización de datos | Habilidades especializadas necesarias para acceder a los datos |
Flexibilidad en los formatos de datos | Mala calidad e inconsistencia de los datos |
Análisis avanzado y aprendizaje automático | Dificultades para extraer valor de grandes cantidades de datos no estructurados |
Perspectivas más rápidas | Comunicación prolongada y falta de herramientas, interfaces y habilidades |
Gestión de datos optimizada | La gestión se complica a medida que el lago crece |
Productores de datos versus consumidores: el abismo organizacional
La causa fundamental de estos problemas radica en la interacción organizacional entre los productores y consumidores de datos, por un lado, y el equipo central encargado del lago de datos, por otro. Los productores de datos suelen estar más enfocados en desarrollar nuevas funciones de aplicaciones que en poner los datos a disposición para usos analíticos. Su enfoque en cargas de trabajo transaccionales, en lugar de analíticas, implica que los datos compartidos puedan tener baja calidad. Además, carecen de una conexión directa con los consumidores de sus datos, lo que genera un desajuste entre lo que se produce y lo que realmente se necesita.
Los equipos encargados del lago de datos también enfrentan dificultades: están abrumados por las múltiples fuentes de datos, gestionan un mantenimiento técnico complejo y deben adaptarse constantemente a prioridades cambiantes. Además, las capacidades analíticas limitadas y la desconexión con los productores de datos dejan a los consumidores frustrados por la falta de transparencia, el valor poco claro y la escasa priorización de sus necesidades. La comunicación entre consumidores y productores de datos no suele ser directa, ya que está bloqueada por la organización centralizada del lago de datos, donde todos los datos se almacenan de forma masiva.
Empoderar a los equipos con Data Mesh: el camino hacia un ecosistema de datos distribuido
El debate en la comunidad tecnológica ha evolucionado hacia una estrategia de datos más flexible y adaptativa conocida como malla de datos. Esta estrategia busca superar las limitaciones de los lagos de datos centralizados, promoviendo un enfoque de gestión de datos más distribuido, centrado en las personas y ajustado a las necesidades específicas de cada contexto.
La malla de datos ofrece una alternativa a los problemas de centralización al asignar la responsabilidad de los datos analíticos a los equipos específicos de cada dominio, aquellos que crean y gestionan aplicaciones y generan datos transaccionales, como los equipos de comercio electrónico. Estos equipos también se encargan de poner esos datos a disposición para análisis, informes y casos de uso de IA/ML, como marketing o finanzas. Por ejemplo, el equipo responsable de la página de pago de una tienda online, que guarda los datos de ventas en una base de datos transaccional, también debe garantizar que esos datos estén disponibles para su análisis. La malla de datos facilita el acceso de los consumidores a estos datos analíticos.
En lugar de ser una interfaz más, los datos se ofrecen como un producto de datos independiente, diseñado para proporcionar un beneficio específico a un consumidor real. Este producto de datos incluye los datos en sí, sus metadatos, el código necesario para preparar y entregar los datos, la infraestructura para pruebas y producción (como IaC) y su configuración.
Fomentar la alfabetización de datos: introducción de nuevos roles en los equipos de malla de datos
Los equipos responsables de crear y utilizar datos, como el equipo de pagos de comercio electrónico y el departamento de marketing, a menudo carecen de la experiencia necesaria para desarrollar y gestionar datos para análisis. Sin embargo, su profundo conocimiento del contexto empresarial de esos datos es invaluable.
En el marco de la malla de datos, es fundamental aprovechar este conocimiento mediante la capacitación de estos equipos para implementar casos de uso analíticos. Esto incluye proporcionar una capacitación extensiva a los miembros actuales y crear roles especializados adicionales. Dos roles clave son esenciales: el propietario de producto de datos, que guiará la dirección estratégica de los datos, y el ingeniero de datos, encargado de los aspectos técnicos de la creación y gestión de estos productos.
El propietario de un producto de datos es una persona con un enfoque orientado al negocio, que comprende tanto el ámbito transaccional como el analítico. Se comunica directamente con los consumidores del producto de datos y define su estrategia, su visión y su hoja de ruta.
Por otro lado, el ingeniero de datos es un generalista con una sólida formación en ingeniería y ciencia de datos, con experiencia más profunda en las áreas específicas que la empresa necesita. Esta persona es responsable de la creación de los productos de datos y actúa como el punto de contacto para las consultas técnicas de otros equipos.
Creando una base para el éxito: la plataforma Data Mesh
Para aprovechar todo el potencial de la malla de datos, recomiendo integrar ambos roles directamente en los equipos de producción y consumo. Una alternativa válida, aunque no óptima, sería establecer un equipo de malla de datos independiente para cada dominio empresarial (por ejemplo, comercio electrónico), lo cual reintroduce un equipo proxy. Una plataforma de malla de datos respalda a productores y consumidores, facilitando su trabajo y mejorando su eficiencia. Los equipos de la plataforma de malla de datos no crean productos ni almacenan o procesan datos.
La plataforma de malla de datos cumple tres funciones clave: (1) proporcionar herramientas e infraestructura, como un catálogo de datos, control de acceso, flujos de trabajo CI/CD, monitoreo y entornos de desarrollo y pruebas; (2) capacitar y asesorar a los productores y consumidores, brindándoles soporte en desarrollo adicional cuando sea necesario; y (3) moderar estándares y procedimientos comunes a seguir en toda la organización, bajo un enfoque federado. La misión de la plataforma de malla de datos es simplificar y hacer más eficiente la vida de productores y consumidores.
Gestionar una plataforma de datos de forma exitosa y sostenible no es tarea fácil, como sugieren algunos en la comunidad tecnológica. He compartido mis experiencias en un artículo de blog sobre cómo configurar una plataforma que apoye eficazmente a los equipos de desarrollo.
Cuando se implementa correctamente, el modelo de malla de datos promueve un enfoque proactivo para mantener la calidad, la relevancia y la accesibilidad de los datos, adaptando los productos de datos a las necesidades únicas de las distintas unidades de negocio. Al alinear estrechamente los datos analíticos con su contexto operativo, la malla facilita un uso más efectivo y un intercambio eficiente de los datos dentro de la organización. Se basa en principios de arquitectura distribuida moderna, como los derivados de microservicios, no solo para almacenar datos de manera más eficiente, sino también para ponerlos fácilmente a disposición del consumo, generando así información procesable alineada con los objetivos comerciales.
Para ver un buen ejemplo de una presentación de malla de datos, consulte la charla del director de datos y análisis de GoDaddy, Travis Muhlestein, sobre la creación de arquitecturas de malla de datos en AWS, presentada en re:Invent 2022. —Matthias
Por Matthias Patzak.
Publicado el 25 de marzo de 2024.
Revisa la publicación original aquí.
Somos S4E Solutions for Eveyone, Select Partner de AWS en Latinoamérica visítanos y otras soluciones digitales para tu compañía. ¡Conversemos!
Nos puedes encontrar en redes sociales, ¡Síguenos para tener actualizaciones diarias! LinkedIn , YouTube, Facebook y Twitter
S4E cuenta con un equipo de soporte certificado en herramientas Atlassian y AWS.
Comparte:
- Haz clic para enviar un enlace por correo electrónico a un amigo (Se abre en una ventana nueva)
- Haz clic para imprimir (Se abre en una ventana nueva)
- Clic aquí para compartir en Facebook. (Se abre en una ventana nueva)
- Haz clic aquí para compartir en LinkedIn (Se abre en una ventana nueva)
- Haz clic para compartir en Twitter (Se abre en una ventana nueva)
- Más