Eine Schritt-für-Schritt-Anleitung - kostenlose Testversion verfügbar
Daten anreichern: Informationen aus einer zweiten Tabelle ergänzen (Datenanreicherung)
Daten sind umso wertvoller je mehr Informationen jeder einzelne Datensatz enthält. Oft verteilen sich die für einen bestimmten Zweck benötigten Informationen aber über mehrere Datenquellen. Das kann die zu einem Datensatz gehörende Telefonnummer, die Emailadresse, das Kündigungsdatum oder die Information sein, ob es sich bei einer bestimmten Adresse um einen Kunden handelt oder nicht (-> Kundennummer). Sich diese Informationen einzeln von Hand zusammen zu suchen ist in der Regel viel zu aufwendig und von daher kein gangbarer Weg. Um Daten anzureichern, also um Informationen aus dem einen Datenbestand in einen anderen zu übertragen, und zwar genau in denjenigen Datensatz dort, zu dem diese Information auch gehören, benötigt man eine Möglichkeit, bei der dies so weit wie möglich automatisiert ist.
Im Idealfall gibt es in den beiden zu verarbeitenden Tabellen ein Kriterium über das diese eindeutig verknüpft werden können, beispielsweise eine ID oder die Artikelnummer. In diesem Fall ist der erste Arbeitsschritt, das Verknüpfen der beiden Tabellen, schnell erledigt. Ist das nicht der Fall, dann schauen Sie am besten einmal in diesen Artikel hier rein: 'Adressen anreichern'
Schließlich gibt es dann noch das Problem, dass die für die Datenanreicherung/ Datenqualifizierung zu verwendenden Datenbestände möglicherweise in unterschiedlichen Formaten vorliegen. Die Zieltabelle für das Anreichern könnte beispielsweise eine Liste sein, die in einer Excel-Datei gespeichert ist. Und die Quelltabelle könnte eine Textdatei sein. Oder es handelt sich dabei um Daten aus einer Datenbank, die von einem Datenbankserver wie MySQL oder dem SQL Server verwaltet wird. Natürlich könnte man vor dem eigentlichen Anreichern in einem ersten Arbeitsschritt dafür sorgen, dass beide Datenbestände im gleichen Format vorliegen, indem man diese passend exportiert und/oder konvertiert. Deutlich einfacher ist es aber wenn man hierauf verzichten und die Daten direkt in dem Format verarbeiten kann, in dem sie auch vorliegen.
All das und noch viel mehr beherrschen unter anderem die DataQualityTools. Um damit Daten anzureichern gehen Sie folgendermaßen vor:
- Wenn Sie das nicht schon getan haben, dann laden Sie sich die DataQualityTools hier kostenlos herunter. Installieren Sie das Programm und fordern Sie eine Testfreischaltung an. Damit können Sie dann eine Woche lang ohne jede Einschränkung mit dem Programm arbeiten.
- Die Funktion die wir benötigen findet sich im Menü in dem Block 'Daten selektieren'. Wählen wir dort für die Datenanreicherung / Datenqualifizierung die Funktion 'Daten anreichern (2 Tabellen)'.
- Nach dem Aufruf dieser Funktion erscheint zunächst die Projektverwaltung. Legen Sie hier ein neues Projekt mit einem beliebigen Projektnamen an und klicken Sie dann auf die Schaltfläche 'Weiter'.
- Im nächsten Schritt öffnen wir zunächst mithilfe der Schaltfläche 'Datei öffnen' die beiden Tabellen mit den zu verarbeitenden Daten.
Möglich sind hier Excel-, Access, dBase, CSV- und Textdateien.
Bei Datenbankservern (MS SQL Server, MySQL, MariaDB, Oracle, Azure SQL oder PostgreSQL) ist stattdessen zunächst aus der Auswahlliste bei 'Format / Zugriff auf' der entsprechende Datenbankserver auszuwählen. Anschließend ist der Name des Datenbankservers einzugeben. Nach einem Klick auf die Schaltfläche 'mit dem Server verbinden' sind die Zugangsdaten einzugeben. Die Auswahl der gewünschten Datenbank und der Tabelle daraus erfolgt schließlich aus den entsprechenden Auswahllisten. - Anschließend ist dem Programm das Kriterium anzugeben mit dessen Hilfe die beiden Tabellen verknüpft werden sollen. Beispielsweise könnten wir die beiden Tabellen über das Datenfeld 'ID' aus der ersten Tabelle und 'ID_B' aus der zweiten Tabelle verknüpfen:
In diesem Fall umfasst das Ergebnis all jene Datensatzpaare, bei denen der Inhalt der Spalte 'ID' aus der ersten Tabelle mit dem Inhalt der Spalte 'ID_B' aus der zweiten Tabelle übereinstimmt. - Bei Bedarf kann für jede dieser beiden Tabellen noch ein Filter angelegt werden:
In diesem Fall werden aus der ersten Tabelle nur diejenigen Datensätze für die Verknüpfung mit der zweiten Tabelle verwendet, bei denen der Inhalt der Spalte 'ID' kleiner als 100 ist. - Ein Klick auf die Schaltfläche 'Weiter' startet dann die Verarbeitung der Daten. Es dauert nicht lange und es wird eine Zusammenfassung des Ergebnisses angezeigt.
Hat das Programm zwischen den zu verarbeitenden Tabellen Treffer gefunden, dann führt ein Klick auf die Schaltfläche 'OK' zu dem Dialog mit den Funktionen mit denen das Ergebnis weiter verarbeitet werden kann. - In dem Dialog mit den Funktionen mit denen das Ergebnis weiter verarbeitet werden kann findet sich ganz oben eine Schaltfläche mit der Beschriftung 'manuelle Nachbearbeitung'. Hier wird das Ergebnis des Abgleichs in Form einer Tabelle dargestellt. Diejenigen Datensätze die selektiert werden sollen sind dort mit einem grünen Haken gekennzeichnet, welches bei Bedarf gelöscht werden kann.
- Schließlich muss das Ergebnis dann noch weiterverarbeitet werden. Wie bereits oben erwähnt wollen wir die Daten anreichern, das heißt bestimmte Informationen anhand des Selektionsergebnisses von dem einen Datenbestand in den Anderen übertragen. Dazu wählen wir die entsprechende Funktion aus, indem wir zuerst auf 'Anreichernfunktionen' klicken:
Und dann auf 'in der Ursprungstabelle anreichern': - Die Tabelle in die die Daten geschrieben werden (= Zieltabelle) ist in unserem Fall die Tabelle 'sample1.xls':
Dabei werden die Daten von dem Datensatz ohne Markierung auf den Datensatz mit Markierung übertragen (siehe manuelle Nachbearbeitung):
Um die Daten anzureichern müssen wir dem Programm jetzt nur noch sagen welche Informationen es wohin schreiben soll. Dazu fügen wir an dieser Stelle ein oder mehrere Spaltenpaare hierfür hinzu:
Beispielsweise könnte die Information aus der Spalte 'Tel' aus der Quelltabelle in das Datenfeld 'Result A' in der Zieltabelle geschrieben werden und die Information aus der Spalte 'Email' in das Datenfeld 'Result B'.
In beiden Fällen soll der Inhalt des Zieldatenfelds gegebenenfalls durch die Information aus der Quelltabelle überschrieben werden (= 'Aktion'): - Optional kann bei den mit zusätzlichen Informationen angereicherten Datensätzen eine Angabe hinterlegt werden, die darüber Auskunft gibt woher diese Daten stammen. Diese Angabe wird benötigt, um bei personenbezogenen Daten dem Auskunftsanspruch vollumfänglich nachkommen zu können, und so die Vorgaben diverser Datenschutzgesetze wie beispielsweise der DSGVO (Datenschutzgrundverordnung) zu erfüllen:
Damit liegen jetzt alle für das Datenanreicherung / Datenqualifizierung benötigten Angaben vor. Mit einem Klick auf die Schaltfläche 'Daten verarbeiten' wird dieses gestartet.
Hinweis: Für die DataQualityTools gibt es ein Lehrvideo das am Beispiel der Suche nach doppelten Adressen innerhalb von einer Tabelle in die Bedienung des Programms einführt.