Eine Schritt-für-Schritt-Anleitung - kostenlose Testversion verfügbar
Intelligente Suche nach doppelten Adressen in einer Excel-Tabelle
Excel selbst enthält eine Funktion für die Suche nach Duplikaten. Wenn die zu suchenden Dublikate aber nicht exakt, also Zeichen für Zeichen übereinstimmen, dann stößt diese Funktion schnell an Ihre Grenzen:
- Tippfehler
- Abweichungen in der Schreibweise
- Auslassungen und Ergänzungen
- vertauschte Worte
- Abkürzungen
- Kosenamen / Spitznamen
Nichts hiervon wird von der bordeigenen Funktion von Excel berücksichtigt. Treffer wie die folgenden, wie sie insbesondere in Adresslisten vorkommen, werden von dieser Funktion nicht gefunden:
Um diese doppelten Adressen (Adress-Dubletten) in einer Excel-Tabelle komfortabel und ohne großen Aufwand zu löschen gehen Sie am besten folgendermaßen vor:
- Wenn Sie das nicht schon getan haben, dann laden Sie sich den DedupeWizard hier kostenlos herunter. Installieren Sie das Programm und fordern Sie eine Testfreischaltung an. Damit können Sie dann eine Woche lang ohne jede Einschränkung mit dem Programm arbeiten.
- Starten Sie den DedupeWizard und rufen Sie dort die Funktion "Dublettenbereinigung in einer Tabelle" auf:
- Wählen Sie als Kriterium für die Suche nach Dubletten die "postalische Adresse" und klicken Sie anschließend auf "Weiter":
- Im nächsten Schritt wählen Sie die zu verarbeitende Excel-Datei aus:
Anschließend werden Sie zu einem Dialog weiter geleitet in dem Sie dem Programm angeben in welcher Spalte der Excel-Tabelle es welche Information findet. Diese Zuordnung hat das Programm für uns bereits so weit als möglich anhand der Spaltenüberschriften vorgenommen. Beispielsweise enthält die Spalte "Street" in unserer Tabelle die Straße:
- Im nächsten Dialog können wir dem Programm noch angeben welche Adressbestandteile mit verglichen werden sollen, normalerweise alle. Und wir können angeben wie groß der errechnete Übereinstimmungsfaktor zwischen zwei Adressen sein muss, damit diese im Ergebnis auftauchen. In unserem Beispiel wird für den Übereinstimmungsfaktor ein Schwellwert von "70%" verwendet:
- Nach einem weiteren Klick auf "Weiter" werden dann die Adressdaten verarbeitet. Schon nach kurzer Zeit präsentiert das Programm eine Zusammenfassung des Ergebnisses:
- Anschließend werden wir zu einer Ansicht des Abgleichsergebnisses in Form einer Tabelle geleitet. Dort können wir noch Änderungen an dem Ergebnis vornehmen, indem wir in der Spalte "löschen" das rote Kreuz entweder entfernen oder es auf eine andere Adresse in der Gruppe ändern:
- Sobald wir mit dem Ergebnis zufrieden sind, können wir das Ergebnis im letzten Schritt entsprechend unseren Bedürfnissen ausgeben oder verarbeiten lassen. Neben einem Löschprotokoll, das ausgedruckt werden kann, können die doppelten Adressen (Adress-Dubletten) direkt in der Ursprungstabelle gelöscht werden. Klicken Sie dazu auf die Schaltfläche 'in der Ursprungstabelle löschen':
Hinweis: Vor dem Löschen der als doppelt identifizierten Adressen (Adress-Dubletten) aus der Tabelle mit den zu verarbeitenden Daten sollte von dieser Datei zur Sicherheit eine Kopie angefertigt werden. - Alternativ dazu können die bereinigten Adressdaten auch in eine neue Datei geschrieben werden. Klicken Sie dazu auf die Schaltfläche 'Ergebnisdatei':
Als Format für die zu erstellende Adressliste stehen Excel und CSV / Textdatei zur Verfügung, wobei bei der Textdatei zwischen einer Textdatei, die den Zeichensatz des Computers auf dem das Programm läuft verwendet und einer Textdatei die UTF-8 (Unicode) verwendet unterschieden wird. Unicode wiederum ist ein universaler sprachunabhängiger Zeichensatz wie ihn auch Excel verwendet:
Wählen wir hier Excel. Für die Ergebnisdatei muss dann noch ein Dateiname angegeben werden:
Mit einem Klick auf die Schaltfläche 'Datei erstellen' wird diese dann erstellt. Das Ergebnis ist eine Adressliste, die genau die gleichen Daten enthält wie die Ursprungstabelle, nachdem dort die als doppelt erkannten Adressen (Adress-Dubletten) heraus gelöscht worden sind. In diesem Fall kann natürlich darauf verzichtet werden eine Sicherheitskopie der Datei mit den zu verarbeitenden Daten zu erstellen, da diese ja nicht verändert wird. - Schließlich bietet der DedupeWizard noch die Möglichkeit eine Archivdatei zu erstellen:
Diese ist der Ergebnisdatei ähnlich, enthält aber nicht die bereinigten Adressdaten , sondern all jene Datensätze, die beim Bereinigen der Ursprungstabelle gelöscht werden würden, also letztlich die doppelten Adressen (Adress-Dubletten). Die Ergebnisdatei und die Archivdatei zusammen enthalten dabei alle Datensätze der Ursprungstabelle. Als Dateiformat für diese Adressliste sind auch hier wieder Excel und eine Textdatei möglich. Mehr Möglichkeiten das Ergebnis weiter zu verarbeiten als der DedupeWizard bieten die DataQualityTools. Unter anderem können dort die Treffer markiert werden. Oder es können anhand des Abgleichsergebnisses Daten von dem einen Datensatz aus der Dublettengruppe auf den anderen übertragen werden, um diesen so zu vervollständigen. Eine vollständige Übersicht darüber finden Sie hier.