¿Qué es DataOps?

DataOps es el conjunto de prácticas de colaboración y técnicas clave de gestión de datos centradas en la mejora de la comunicación, la integración y la automatización de los flujos de datos entre los gestores y los usuarios de datos de una organización.

DataOps es la contracción de los términos «Data» & «Operations» y tiene su origen en la disciplina DevOps (Software Development & IT Operations) adaptándola obviamente a los problemas típicos de los procesos de análisis de datos.

El objetivo de las DataOps, en la onda de las metodologías ágiles, es proporcionar nuevos modelos de trabajo y colaboración para generar valor para la empresa más rápidamente. DataOps utiliza la tecnología para automatizar el diseño, la gestión y la distribución de los datos con los niveles adecuados de gobernanza, y emplea los metadatos para mejorar la usabilidad y el valor de la información en entornos dinámicos.

¿Cómo funciona DataOps?

En los proyectos de datos y análisis, los cambios en los requisitos son más numerosos e importantes cuanto más tiempo transcurre entre su definición inicial y la puesta en marcha de la solución. En muchos casos, estos cambios implican una reelaboración completa de la canalización de datos porque no existe una visión común y compartida de las dependencias y artefactos producidos por los diferentes roles de los equipos.

Para superar estas situaciones y aumentar la eficiencia de los procesos, en un mundo en el que el volumen de datos en las empresas no deja de crecer, el manifiesto de DataOps destaca algunos puntos clave como la colaboración (a través del intercambio continuo de opiniones de las partes interesadas), la calidad de los datos, las publicaciones frecuentes en estilo totalmente ágil, la disponibilidad y las normas de gobernanza destinadas a proporcionar canalizaciones de datos a las personas adecuadas, en el momento adecuado, desde cualquier fuente.

Pero entremos en detalles. En un reciente documento de Gartner (Introducing DataOps Into Your Data Management Discipline, 31 de octubre de 2019, Ted Friedman & Nick Heudecker), enumeran los principales retos a los que se enfrentan los líderes de Data & Analytics a la hora de implementar y operar soluciones modernas de uso intensivo de datos y sugieren un recorrido para asentar un modelo de gestión que pueda superar estos retos. Estas son las principales características de este paradigma:

  • Mayor frecuencia de lanzamientos: lanzamientos rápidos y apreciados por los desarrolladores de nuevas funcionalidades que facilitan la gestión de los cambios en los requisitos, tanto en la fase de diseño como a lo largo del ciclo de vida de la solución;
  • Automatización de las pruebas: la reducción de la participación humana en las fases de prueba, como las pruebas de no regresión, permite acelerar los lanzamientos;
  • Metadatos y gestión de versiones: el aumento de la frecuencia y el número de lanzamientos requiere la presencia de un sistema de control de versiones; además, cada versión de una solución intensiva en datos implica cambios que pueden expresarse mediante metadatos; estos metadatos, puestos a disposición de todos los roles que participan en el pipeline de datos, garantizan una gestión eficaz y compartida de los cambios;
  • Supervisión constante: un seguimiento continuo del funcionamiento y el uso del conducto de datos permite identificar y abordar los fallos y las oportunidades para mejorar la funcionalidad y el rendimiento;
    Colaboración entre todas las funciones implicadas: la comunicación constante entre todas las partes interesadas, basada en los metadatos disponibles en un entorno de colaboración, es fundamental para garantizar la rápida publicación de componentes de calidad.

Por lo tanto, para habilitar las prácticas de DataOps, es necesario:

  • ser capaz de extraer datos de una miríada de fuentes (dondequiera que residan en la nube o en las instalaciones),
    alinearlos en un catálogo de metadatos flexible (donde los datos son fácilmente accesibles, etiquetados, anotados, enriquecidos y compartidos),
  • automatizar las pruebas,
  • posibilitar la supervisión continua permitiendo a las organizaciones orquestar eficazmente sus actuales sistemas de gestión de datos para impulsar su rendimiento y facilitar así el trabajo de los ingenieros de datos, científicos de datos, analistas de datos, administradores de datos, propietarios de datos, usuarios de datos, …

Todas las capacidades clave para mejorar los activos de información de una empresa a la velocidad y la calidad que requiere el negocio de nuestro tiempo.  Estos son los principios que siempre han guiado la evolución de Irion EDM, al servicio de sus clientes.

Scroll al inicio