Distanzverteilung und Distanznormalisierung für inhaltsbasierte Bildsuche (Bachelor , Finished)
Author
Sandra Ruske
Description
Die DBIS-Gruppe beschäftigt sich in mehreren Projekten mit der Suche in Digitalbibliotheken, welche nicht nur Text- sondern auch Multimediadaten enthalten. Hierzu werden unter anderem das Multimedia-Retrieval-System ISIS (Interactive SImilarity Search, [1]) und dessen effiziente hoch-dimensionale Indexstruktur VA-File [2] verwendet, welche ursprünglich in der DBS Gruppe an der ETH Zürich entstanden wurden und nun in Basel weiterentwickelt werden. Im DelosDLMS [3] werden diese mit weiteren Komponenten und Systemen gekoppelt, so dass ein Prototyp mit sehr reichhaltiger Funktionalität entstand.
Um mehrere Multimedia-Retrieval-Systeme miteinander kombinieren zu können, müssen deren Ergebnisse vergleichbar sein. Diese Ergebnisse werden erreicht, indem eine Distanz in einem hoch-dimensionalen Merkmalsraum (z.B. Farbhistogramme oder Gabor-Texturmomente) berechnet wird. Um eine Vergleichbarkeit zwischen Ergebnissen basierend auf unterschiedlichen Bildmerkmalen zu erreichen, muss eine Normalisierung der Distanzwerte anhand von Distanzstatistiken erstellt werden.
Ziel der Arbeit ist es, ein Konzept zu entwickeln und zu implementieren, welches ein möglichst flexibles Ablegen und Verwenden von Distanzstatisten ermöglicht und so die Integration mehrerer Systeme unterstützt. Der bisherige Ansatz des VA-Files, derartige Metadaten in Binärdateien abzulegen erreicht seine Grenzen, wenn verschiedene Distanzmaße gleichzeitig genutzt oder Statistiken zu unterschiedliche Kollektionen kombiniert werden sollen. Hier erscheint es viel versprechender, zunächst die in der Statistik erfassten Distanzen in einer herkömmlichen relationalen Datenbank abzulegen, welche dort flexibel abgefragt und zu statistischen Werten zusammengefasst werden können.
Für die Implementierung wird eine einfache Java-Komponente empfohlen, welche mittels Distanzen mit bereits verfügbaren Merkmalsextraktoren und Distanzmaßen ermittelt und diese via JDBC in einer Relationalen Datenbank ablegt. Die Weiterverarbeitung und Auswertung dieser Distanzen kann dann sehr flexibel mittels SQL erfolgen. Für eine beliebige Distanz, welche im Retrievalprozess ermittelt wurde, soll mit Hilfe der Distanzstatistiken in ein Ähnlichkeitsmaß aus dem Intervall [0, 1] umgewandelt werden. Referenzen:
[1] G. Brettlecker, D. Milano, P. Ranaldi, H.-J. Schek, H. Schuldt, M. Springmann: ISIS and OSIRIS: A Process-Based Digital Library Application on Top of a Distributed Process Support Middleware [2] R. Weber, H.-J. Schek, S. Blott: A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces, VLDB 1998 [3] M. Agosti, S. Berretti, G. Brettlecker, A. Del Bimbo, N. Ferro, N. Fuhr, D. Keim, C.-P. Klas, Th. Lidy, M. Norrie, P. Ranaldi, A. Rauber, H.-J. Schek, T. Schreck, H. Schuldt, B. Signer, M. Springmann: DelosDLMS – the Integrated DELOS Digital Library Management Syste