Was ist Datenabgleich? Definition, Prozess, Werkzeuge
Was ist Datenabgleich?
Unter Datenabgleich (DR) versteht man einen Prozess zur รberprรผfung von Daten wรคhrend der Datenmigration. Dabei werden Zieldaten mit Quelldaten verglichen, um sicherzustellen, dass die Migrationsarchitektur Daten รผbertrรคgt. Unter Datenvalidierung und -abgleich (DVR) versteht man eine Technologie, die mathematische Modelle zur Verarbeitung von Informationen verwendet.
Warum ist der Datenabgleich wichtig?
Bei der Datenmigration kรถnnen Fehler in der Mapping- und Transformationslogik passieren. Probleme wie Laufzeitfehler wie Netzwerkausfรคlle oder fehlerhafte Transaktionen kรถnnen Daten beschรคdigen.
Fehler dieser Art kรถnnen dazu fรผhren, dass Daten in einem ungรผltigen Zustand verbleiben. Dies kann zu einer Reihe von Problemen fรผhren, wie zum Beispiel:
- Fehlende Aufzeichnungen
- Fehlende Werte
- Falsche Werte
- Doppelte Datensรคtze
- Schlecht formatierte Werte
- Unterbrochene Beziehungen zwischen Tabellen oder Systemen
Hier sind wichtige Grรผnde fรผr die Verwendung des Datenabgleichsprozesses:
- Der Einsatz von Data Reconciliation hilft Ihnen dabei, aus rohen Messdaten genaue und zuverlรคssige Informationen รผber den Stand des Industrieprozesses zu extrahieren.
- Darรผber hinaus hilft es Ihnen, einen einzigen konsistenten Datensatz zu erstellen, der den wahrscheinlichsten Prozessvorgang darstellt.
- Dies fรผhrt auch zu ungenauen Erkenntnissen und Problemen mit dem Kundenservice.
- Der Datenabgleich ist auch fรผr die Integration der Unternehmenssteuerung wichtig.
Abgesehen von den oben genannten Vorteilen bietet der Datenabgleich noch viele weitere Vorteile.
Terminologie im Zusammenhang mit dem Datenabgleich
| Grober Fehler | Grobe Messfehler. Es spiegelt nur Bias-Fehler, Gerรคteausfรคlle oder ungewรถhnliche Rauschspitzen wider, wenn Sie nur eine kurze Zeitmittelungsperiode verwenden. |
| Beobachtbarkeit | Mithilfe einer Beobachtbarkeitsanalyse kรถnnen Sie Einzelheiten darรผber erfahren, welche Variablen fรผr einen bestimmten Satz von Einschrรคnkungen und Messungen ermittelt werden kรถnnen. |
| Unterschied | Varianz ist ein Maร fรผr die Variabilitรคt eines Sensors. |
| Redundanz | Mithilfe der Randbedingungsgleichungen kรถnnen Sie bestimmen, welche Messungen aus anderen Variablen geschรคtzt werden sollten. |
Geschichte des Datenabgleichs
Hier sind wesentliche Meilensteine โโaus der Geschichte des Datenabgleichs aufgefรผhrt.
- DVR (Data Validation and Reconciliation) begann in den frรผhen 1960er Jahren. Ziel war es, Materialbilanzen in der Produktion zu schlieรen, bei denen Rohdaten fรผr alle Variablen verfรผgbar waren.
- In den spรคten 1960er Jahren wurden alle nicht gemessenen Variablen im Datenabgleichsprozess berรผcksichtigt.
- Die quasistationรคre Dynamik fรผr Filterung und parallele Parameterschรคtzung รผber die Zeit wurde 1977 von Stanley und Mah eingefรผhrt.
- Dynamic DVR wurde als nichtlineares Optimierungsmodell entwickelt, das 1992 von Liebman herausgegeben wurde
Datenabgleichsprozess
Arten von Datenabgleichsmethoden sind:
Stammdatenabgleich
Beim Stammdatenabgleich handelt es sich um eine Technik, bei der nur die Stammdaten zwischen Quelle und Ziel abgeglichen werden. Stammdaten sind meist unverรคnderlich oder verรคndern sich nur langsam, und es wird kein Aggregationsvorgang fรผr den Datensatz durchgefรผhrt.
Einige gรคngige Beispiele fรผr den Stammdatenabgleich sind:
- Gesamtzahl der Zeilen
- Gesamtkunde in Quelle und Ziel
- Gesamtzahl der Elemente in Quelle und Ziel
- Gesamtzahl der Zeilen basierend auf der gegebenen Bedingung
- Anzahl der aktiven Benutzer
- Anzahl inaktiver Benutzer usw.
Genauigkeit der Aktivitรคt
- Sie mรผssen sicherstellen, dass die Transaktionen gรผltig sind und ihrem Zweck entsprechen.
- Es muss รผberprรผft werden, ob die Transaktionen ordnungsgemรคร autorisiert wurden.
Abgleich von Transaktionsdaten
Transaktionsdaten bilden die Grundlage fรผr BI-Berichte. Daher kann jede Diskrepanz in den Transaktionsdaten direkte Auswirkungen auf die Zuverlรคssigkeit des Berichts und des gesamten BI-Systems im Allgemeinen haben.
Die Transaktionsdatenabgleichsmethode wird in Bezug auf die Gesamtsumme verwendet, um Abweichungen zu vermeiden, die durch eine รnderung der Granularitรคt der qualifizierenden Dimensionen verursacht werden.
Beispiele fรผr Maรnahmen zum Transaktionsdatenabgleich sollten sein:
- Summe des Gesamteinkommens berechnet aus Quelle und Ziel
- Summe des gesamten verkauften Artikels, berechnet aus Quelle und Ziel usw.
Automatisierter Datenabgleich
In groรen Data Warehouse-Verwaltungssystemen ist es praktisch, den Datenabgleichsprozess zu automatisieren, indem man ihn zu einem integralen Bestandteil des Datenladens macht. So kรถnnen Sie separate Tabellen mit Lademetadaten verwalten. Darรผber hinaus werden durch den automatisierten Abgleich alle Beteiligten รผber die Gรผltigkeit der Berichte informiert.
Best Practices fรผr die Verwendung von Datenabgleich
- Der Datenabgleichsprozess sollte auf korrekte Messfehler abzielen.
- Die groben Fehler sollten Null sein, um den Datenabgleichsprozess effizient zu gestalten.
- Der Standardansatz des Datenabgleichs basiert auf einfachen Datensatzzรคhlungen, um zu verfolgen, ob die angestrebte Anzahl von Datensรคtzen migriert wurde oder nicht.
- Die Datenmigrationslรถsung bietet รคhnliche Abgleichsfunktionen und Daten-Prototyping-Funktionalitรคt, die umfassende Datenabgleichstests ermรถglicht.
Datenabgleichstools
1) รffnenVerfeinern
OpenRefine, frรผher als Google Refine bekannt, ist ein nรผtzliches Framework fรผr den Datenbankabgleich. Es ermรถglicht Ihnen, unordentliche Daten zu bereinigen und zu รผbertragen.
Download-Link: https://openrefine.org/
2) TIBCO Klarheit
Dieses Datenabgleichstool bietet On-Demand-Softwaredienste aus dem Internet in Form von Software-as-a-Service. Es ermรถglicht Benutzern, die Daten zu validieren und Daten zu bereinigen. Es bietet umfassende Abstimmungstestfunktionen. Wird hรคufig im ETL-Prozess verwendet.
Download Link: https://www.tibco.com/
3) Winpure
Winpure ist eine kostengรผnstige und genaue Datenbereinigungssoftware. Es ermรถglicht Ihnen, groรe Datenmengen zu bereinigen, Duplikate zu entfernen, zu korrigieren und zu standardisieren, um den endgรผltigen Datensatz zu entwerfen.
Download Link: https://winpure.com/
Zusammenfassung
- Datenvalidierung und -abgleich (DVR) ist eine Technologie, die mathematische Modelle zur Verarbeitung von Informationen verwendet.
- Mithilfe des Datenabgleichs kรถnnen Sie aus rohen Messdaten genaue und zuverlรคssige Informationen รผber den Zustand des Industrieprozesses extrahieren.
- Grobfehler, Beobachtbarkeit, Varianz und Redundanz sind wichtige Begriffe, die im Datenabgleichsprozess verwendet werden
- Datenvalidierung und -abgleich begannen in den frรผhen 1960er Jahren.
- Drei Arten von Datenabgleichsmethoden sind 1) Stammdatenabgleich, 2) Transaktionsdatenabgleich und 3) Automatisierter Datenabgleich
- Die groben Fehler sollten Null sein, um den Datenabgleichsprozess effizient zu gestalten.
- Einige wichtige Datenabgleichstools sind: 1) OpenRefine 2) TIBCO 3) Winpure
- Diese Methode wird hรคufig zur Leistungs- und Prozessรผberwachung in der รlraffinerie-, Nuklear- und Chemieindustrie eingesetzt





