ETL (Extract-Transform-Load) beschreibt einen aus mehreren Einzelschritten bestehenden Prozess, mit dem sich Daten aus unterschiedlichen Quellsystemen in eine Ziel-Datenbank bzw. ein Data Warehouse integrieren lassen, um sie so für die weitere Verarbeitung bereitzustellen.
Entscheidend ist die Auswahl geeigneter Software und Services, die über eine Vielzahl von Schnittstellen verfügen und große Datenmengen mit hoher Geschwindigkeit und geringer Latenz verarbeiten können.
Die Datenbereinigung und -Anreicherung ist meist Teil des ETL-Prozesses. Ziel ist die Etablierung automatisierter Prozesse zur Verbesserung der Datenqualität mittels Dublettenzusammenführung, Korrekturen (Anrede, Titel, Adressen), Entfernen von Inkonsistenzen und Anreicherung aus externen Quellen (z.B. Geodaten)