Name Matching & Revision (Teil 5)
Im vierten Teil der Name Matching und Revision Reihe ging es um Ausbeute und Präzision von Name Matching Methoden. In diesem fünften Teil erläutern wir die Berechnung dieser beiden Effektivitätsmasse. Sie werden so genannt, weil sie ausdrücken, inwiefern eine Name Matching Methode zwei Namen effektiv vergleichen kann und Information liefert, ob die beiden Namen die gleiche Person bzw. Organisation bezeichnen. Im Gegensatz dazu gibt es Effizienzmasse, die hier nicht interessieren. Bei der Berechnung von Ausbeute und Präzision gibt es zwei Herausforderungen, die im Folgenden besprochen werden.
Berechnung der Ausbeute- & Präzisionswerte
Die Berechnung der Ausbeute- und Präzisionswerte beruhen auf den True und False Positives bzw. Negatives, also auf Treffern, welche richtigerweise bzw. fälschlicherweise gefunden oder nicht gefunden wurden. Was so einfach klingt, hat seine Tücken. Auf den 2. Blick ist es gar nicht so klar, was eigentlich richtig und falsch bedeutet. Saracevic (1975) hat über 30 verschiedene Interpretationen dokumentiert, jedoch werden wir eine weitere hinzufügen. Wir gehen von konkreten Personen sowie Organisationen aus und betrachten deren Namensvarianten, beispielsweise „Pyotr Ilyich Tchaikovsky“ und „Pjotr Iljitsch Tschaikowski“. Liefert das Name Matching dieser beiden Namen einen Treffer, so wird dieser als richtig (True Positive) erachtet. Umgekehrt wird ein Treffer zwischen zwei identischen Namen von zwei verschiedenen Personen als falsch (False Positive) bewertet. Die erscheint gegenüber dem Name Matching als ungerecht, ist aber genau das, was wir im Compliance Tagesgeschäft antreffen.
Testkollektion
Ausbeute und Präzision sind relative Werte, die sich immer auf einen Testkollektion beziehen. Eine Testkollektion besteht aus einer Namenskollektion, aus einer Menge von Testnamen sowie aus Relevanzinformation, welche Testnamen zu welchen Namen aus der Kollektion gehören. Damit können verschiedene Name Matching Methoden bezüglich Ausbeute und Präzision ausgewertet und verglichen werden. Die zweite Herausforderung bei Ausbeute und Präzision besteht darin, Testkollektionen aufzubauen, welche robuste Resultate liefern. Insbesondere sollte eine Methode A bei einer Testkollektion bessere Resultate als B liefern und bei einer anderen Testkollektion schlechtere. Dies wird unter anderem vermieden, indem die Anzahl Testnamen und die Grösse der Namenskollektion genügend gross gewählt werden. Wichtig ist auch, dass die Testkollektion eine Methode favorisiert und eine andere benachteiligt. Zusammenfassend kann man sagen, dass die Optimierung des Name Matching gute Kenntnisse und Erfahrung im Umgang mit grossen und unstrukturierten Daten voraussetzt.
Keywords: Name Matching, Namenskollektion, Relevanzinformation
Quelle: Saracevic, T. (1975). RELEVANCE: A Review and a Framework for this Thinking on the Notion in Information Science. Journal of the ASIS 26 (6), 321-343.