Schnittstellen sind kein Hexenwerk

23.07.2019

Autor
Manfred Merkelbach

Viele Hersteller lassen sich Schnittstellen zu anderen Softwaresystemen vergolden. Das schürt auch Vorbehalte gegen Data Warehouse-Projekte. Wenn man allerdings den richtigen Partner hat, der geeignete Werkzeuge einsetzt sind Schnittstellen bei weitem kein Hexenwerk.

In diesem Blog wollen wir die häufigsten Fragen zu diesem Thema beantworten.

Sind Schnittstellen nicht immer sehr aufwendig?

Nein, das muss nicht sein. Wir haben es hier ohnehin mit Data Warehouse-Schnittstellen zu tun. Charakteristisch sind folgende Eigenschaften:

Es besteht das Holprinzip, d. h. die Daten werden aus den Quellsystemen abgeholt wenn sie benötigt werden.
Ein Data Warehouse wird i. d. R. nur wenige Male an einem Tag aktualisiert. Dadurch ist keine Echtzeit-Übertragung erforderlich.
Die Daten werden nur in eine Richtung übertragen (Stichwort unidirektionale Schnittstelle). Es findet keine Rückübertragung statt.

Diese drei Punkte nehmen im Vergleich zu üblichen Schnittstellen viel Komplexität.

Wie erfolgt die Übernahme der Daten?

Wir verwenden in unseren Data Warehouse-Projekten unser eigenes ETL-Werkzeug transporter. Er ermöglicht die Übertragung von Daten über Datenbankgrenzen hinweg. Die Definition der Kommandos erfolgt in Transferdefinitionen. Diese Transferdefinitionen können aufeinander aufbauen. Dadurch lassen sich Zwischenergebnisse mehrfach verwenden oder Daten aus unterschiedlichen Systemen zusammenführen.

Unser transporter arbeitet schnell und zuverlässig. Zudem ist er batchfähig, d.h. Importläufe erfolgen zu definierten Zeitpunkten vollautomatisch.

Was ist ETL?

Data Warehouse-Schnittstellen werden als ETL-Prozess implementiert. ETL steht für Extrahieren, Transformieren und Laden und teilt den Füllvorgang des Data Watehouse in diese Phasen auf. Beim Extrahieren werden benötigte Rohdaten aus der fremden Datenquelle übertragen. Da diese Daten i. d. R. nicht die im Data Warehouse erforderliche Struktur aufweisen müssen sie in der zweiten Phase transformiert werden. Vielfach werden Daten aus anderen Datenquellen ergänzt bevor in der dritten Phase das Laden des Data Warehouse erfolgt.
Dieses Vorgehen ermöglicht, auf kundenspezifische Gegebenheiten Rücksicht zu nehmen.
In einem ETL-Lauf werden nur Teile des Data Warehouse erneuert. Das spart Zeit.

Auf welche Daten kann zugegriffen werden?

Der transporter unterstützt alle gängigen externen Datenquellen (z. B. odbc-fähige Datenbanken, SAP, csv- oder xml-Dateien, Access, Excel). Die Anzahl der Datenquellen und Transferdefinitionen ist unbegrenzt.

Woher weiß man wo sich in fremden Datenbanken die Daten befinden?

Wir analysieren Datenbanken mit einem eigenen Tool. Als Ergebnis erhalten wir eine html-basierende Datenbankbeschreibung. Bei der Datenrecherche kommt uns unsere 20-jährige Erfahrung im Umgang mit den unterschiedlichsten Datenbanken zugute.

Was ist, wenn ein Hersteller seine Datenbank verändert?

Wir monitoren Änderungen der Metadatenstruktur der Datenbank, sprich der Tabellen und Felder. Wurde bei einem Kunden etwas geändert erhalten wir mit dem nächsten ETL-Lauf eine Email mit entsprechenden Informationen. Unsere zuständigen Mitarbeiter nehmen daraufhin – falls erforderlich – Anpassungen an der Schnittstelle vor.
Nach unseren Erfahrungen kommt es nur selten zu Änderungen der Hersteller an den Datenbankstrukturen.

Wie wird sichergestellt, dass die Daten im Data Warehouse stimmen?

Wir verwenden im KIMdata Warehouse unterschiedliche Methoden zur Qualitätssicherung.
Zentraler Baustein ist das Logging. Darüber werden automatisch Fehler an KIMdata berichtet. Das Logging dient zusätzlich der Performanceüberwachung.
Wir überwachen bspw. eine homogene Befüllung der Datenwürfel im Zeitverlauf. Wenn festgestellt wird, dass das Datenvolumen in einem Monat geringer ist als in den Vormonaten sendet das System automatisch einen entsprechenden Hinweis.

Was ist, wenn sich Stammdaten ändern?

Für uns gehören Stammdaten genauso zu einem Datenwürfel wie die Bewegungsdaten. Sie werden zu Dimensionen, die den Rahmen für die Bewegungsdaten bilden. Änderungen an Stammdaten in den Quellsystemen werden über den ETL-Prozess automatisch in das Data Warehouse übernommen. Manuelle Änderungen sind nicht erforderlich. Einige zentrale Stammdaten werden historisiert.

Verlassen Daten das Kundennetzwerk?

Klares Nein. Die Daten verlassen zu keiner Zeit das Netzwerk. Im Rahmen des Logging senden wir ausschließlich Metainformationen über Transferdefinitionen oder Datenwürfel. Diese lassen keinerlei Rückschlüsse auf Inhalte zu.