In großen, ständig wachsenden bibliographischen Datenbanken kann es nicht ausgeschlossen werden, dass einzelne Artikel oder sogar komplette Zeitschriften doppelt erfasst werden.
Diese Dubletten zu erkennen erfordern zum einen geeignete Methoden, die entscheiden, ob zwei Datensätze identisch sind und zum andern Verfahren, die die Anzahl der nötigen Vergleiche, um diese Dubletten zu finden, minimieren. In dieser Arbeit wird das Sliding Window* Verfahren vorgestellt, eine Erweiterung des Sliding Window Verfahrens, das zusätzlich zum Suchfenster weitere Daten aus dem Autorengraphen mit einbezieht. Für die Vergleichsoperation findet der Map-Comparator Anwendung. Mit dieser Kombination ist eine sehr zuverlässige Deduplizierung des Datenbestandes möglich.
Ein ähnliches Problem stellt die Identifizierung der Autoren dar. Durch den Einsatz von Heuristiken und der Ableitung weiterer Daten aus den bestehenden kann mit Hilfe eines iterativen, clusterbasierten Verfahrens sehr zuverlässig entschieden werden, welche Autoren die gleiche Person darstellen.
«
In großen, ständig wachsenden bibliographischen Datenbanken kann es nicht ausgeschlossen werden, dass einzelne Artikel oder sogar komplette Zeitschriften doppelt erfasst werden.
Diese Dubletten zu erkennen erfordern zum einen geeignete Methoden, die entscheiden, ob zwei Datensätze identisch sind und zum andern Verfahren, die die Anzahl der nötigen Vergleiche, um diese Dubletten zu finden, minimieren. In dieser Arbeit wird das Sliding Window* Verfahren vorgestellt, eine Erweiterung des Sliding...
»