Time-Check: Analyse der Parameter zur Evaluation verteilter Mehrversionen-Datenbanksysteme (Bachelor Thesis, Finished)

Author

Marco Vogt

Description

Die zunehmende Verbreitung von verteilten Datenbanksystemen in der Cloud hat zur Folge, dass das herkömmliche Update-in-place-Paradigma in zunehmendem Masse abgelöst wird von Append-only-Strategien. Dies bedeutet, dass Cloud-Datenbanksysteme nicht mehr nur den Zugriff auf die neueste Version eines Objekts bieten, sondern potentiell auch alle bisherigen Versionen bereitstellen können. Somit erhalten solche hochgradig verteilten Datenbanksysteme zusätzlich zu ihren bestehenden Freiheitsgraden (wie z.B. Daten-Replikation, -Partitionierung, Anfrageverteilung, etc.) die zusätzliche Dimension der Versionierung. Somit muss für eine Datenbank nicht mehr nur definiert werden, auf welcher Datenbankinstanz welche Daten gespeichert werden, sondern auch, wie genau die einzelnen Versionen dieser Daten verteilt werden sollen. Da in der Cloud die benötigten Ressourcen mit einem sehr feingranularen Preismodell verrechnet werden, müssen Cloud-Datenbanksysteme versuchen, die entstehenden Laufzeitkosten zu minimieren. Dies kann vor allem durch die geschickte Auswahl der Instanzen geschehen, welche beim Schreiben und/oder Lesen von Daten und ihren Versionen beteiligt sind. Die Forschungsgruppe Datenbanken und Informationssysteme der Universität Basel entwickelt das modulare Datenbanksystem PolarDBMS [1], welches verwendet werden kann, um den kosteneffizienten Zugriff auf replizierte und temporale bzw. versionierte Daten zu gestatten [2]. Die Evaluierung solcher Systeme ist sehr aufwändig, was an der hohen Anzahl der verschiedenen Einflussgrössen liegt, zwischen denen darüber hinaus diverse Abhängigkeiten bestehen. Derzeit sind keine aktuellen Arbeiten bekannt, die die bestehenden Einflussgrössen (wie z.B. Replikationsgrad, Datenobjektgrösse) in solchen verteilten Mehrversionen-Datenbanken analysieren und zueinander in Beziehung setzen. Eine solche Analyse ist für aussagekräftige Evaluationen jedoch unerlässlich. Das Ziel dieser Bachelorarbeit ist es, die o.g. Analyse vorzunehmen. Dabei sollen, ausgehend von einem existierenden Szenario [2], die unterschiedlichen Parameter, welche solchen Datenbanksysteme zur Laufzeit beeinflussen, identifiziert und eingehend analysiert werden. Insbesondere sollen die gegenseitigen Abhängigkeiten bestimmt und diskutiert werden. Schliesslich ist die Erstellung eines Leitfadens gewünscht, welcher bei der Planung und Durchführung von Evaluationen zu Rate gezogen werden kann. Er soll anhand der Auswahl von zu zeigenden Effekten die entsprechenden Parameter auflisten, welche im Rahmen der Evaluation vorab zu definieren sind und welche Effekte die Parameter beeinflussen. Weiterhin soll dieser Leitfaden auch die Erstellung der Evaluationsumgebung (Datengenerierung, und –verteilung, Anfragelast, etc.) für die ausgewählten Szenarien beschreiben. Die Arbeit umfasst die folgenden Elemente: Analyse der Evaluationsumgebung für verteilte temporale Mehrversionen- Datenbanksysteme Welche Effekte und Parameter gibt es? Welche Qualitäten haben sie? Welche Abhängigkeiten und Wechselwirkungen bestehen zwischen ihnen? Entwicklung mehrerer Szenarien, ausgehend vom Anfangsszenario. Diese sollen benutzt werden können, um exemplarisch die Plausibilität des entwickelten Leitfadens zu überprüfen. Erstellung des Leitfadens. Die Ausarbeitung kann textuell und optional zusätzlich in Form einer Applikation erfolgen. Dies beinhaltet die Integration eines bestehenden Datengenerators, die Verteilung der Daten und die Erstellung eines Evaluations-Benchmarks (konfigurierbare Anfragelast) Evaluation des Leitfadens anhand der vorab definierten Szenarien. [1] Fetai, Ilir, Filip M. Brinkmann, und Heiko Schuldt. "PolarDBMS: Towards a cost-effective and policy-based data management in the cloud." Data Engineering Workshops (ICDEW), 2014 IEEE 30th International Conference on. IEEE, 2014. [2] Filip-Martin Brinkmann und Heiko Schuldt. "Towards Archiving-as-a-Service: A Distributed Index for the Cost-effective Access to Replicated Multi-Version Data". Erscheint in: 19th International Database Engineering & Applications Symposium (IDEAS), 2015.

Start / End Dates

2015/07/06 - 2015/11/05

Supervisors

Research Topics