ETL, que vienen de sus siglas en inglés extract, transform and load (extraer, transformar y cargar), es un proceso de integración que recopila datos de múltiples fuentes y los consolida en un solo lugar de forma consistente y centralizada.
Algunos casos prácticos del uso de ETL son:
- La integración de datos de diferentes sistemas empresariales para análisis de negocios.
- La consolidación de datos de múltiples fuentes para la creación de informes y análisis de big data.
- La migración de datos de un sistema a otro durante la implementación de un nuevo software empresarial.
- Extraer datos de sistemas heredados. Limpiar los datos para mejorar la calidad de los mismos y establecer la consistencia.
- Cargar datos en una base de datos objetivo.
En resumen, el uso de ETL permite a las empresas reunir y consolidar datos de diversas fuentes, lo que les permite tomar decisiones más informadas y estratégicas basadas en una visión completa y unificada de los datos empresariales.
La manera más fácil de entender cómo funciona ETL es entender lo que sucede en cada paso del proceso.
Extraer
Durante la extracción de datos, los datos en bruto se copian o exportan desde las ubicaciones de origen hacia una área de preparación. Los equipos de gestión de datos pueden extraer datos de una variedad de fuentes de datos, que pueden ser estructuradas o no estructuradas. Estas fuentes incluyen, pero no se limitan a:
- Servidores SQL o NoSQL
- Sistemas CRM y ERP
- Archivos planos
- Correo electrónico
- Páginas web
Transformar
En el área de preparación, los datos en bruto son sometidos a procesamiento de datos. Aquí, los datos se transforman y consolidan para su caso de uso analítico previsto. Esta fase puede implicar las siguientes tareas:
- Filtrar, limpiar, deduplicar, validar y autenticar los datos.
- Realizar cálculos, traducciones o resúmenes basados en los datos en bruto. Esto puede incluir cambiar encabezados de fila y columna para la consistencia, convertir monedas u otras unidades de medida, editar cadenas de texto y más.
- Realizar auditorías para asegurar la calidad y el cumplimiento de los datos.
- Eliminar, cifrar o proteger los datos regidos por regulaciones gubernamentales o de la industria.
- Formatear los datos en tablas o tablas unidas (joined tables) para que coincidan con el esquema del almacén de datos de destino.
Cargar
En este último paso, los datos transformados se mueven desde el área de preparación hacia un almacén de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de cargas periódicas de cambios incrementales de datos y, menos frecuentemente, actualizaciones completas para borrar y reemplazar los datos en el almacén. Para la mayoría de las organizaciones que usan ETL, el proceso es automatizado, bien definido, continuo y orientado por lotes. Por lo general, ETL se lleva a cabo durante las horas fuera de pico, cuando el tráfico en los sistemas de origen y el almacén de datos está en su punto más bajo.
Referencia: https://www.ibm.com/topics/etl