Die MDSI-Forscher Prof. Jana Giceva, Mateusz Gienieczko und ihre Kollegen haben eine Lösung vorgeschlagen, um effiziente Kodierungen und bessere Komprimierungsraten für neu entwickelte Speicherformate zugänglich zu machen. Auf der 51st International Conference on Very Large Data Bases (VLDB) stellten sie das Framework AnyBlox als neue Abstraktion vor und wurden für ihre Arbeit mit dem Best Research Paper Award 2025 ausgezeichnet.
Jana Giceva hob das Potenzial von AnyBlox hervor: „Was wir vorschlagen, kann es ermöglichen, dass alle domänenspezifischen Datenformate, wie sie beispielsweise von CERNs ROOT bereitgestellt werden, von jedem Datenverarbeitungssystem wie Spark unterstützt werden. Das war bisher nicht der Fall!“ „Unsere Arbeit hat gute Chancen, einen großen Einfluss auf die Datenverarbeitungslandschaft zu haben. Ich freue mich sehr, dass wir sowohl von den Autoren modernster Datenformate als auch von Forschern moderner Abfrage-Engines großes Interesse und positives Feedback erhalten haben. Jetzt wollen wir uns darauf konzentrieren, unsere Technik wirklich zukunftssicher zu machen, indem wir allen Decodern die Nutzung moderner und neu entstehender Hardware ermöglichen“, fügte Mateusz Gienieczko, Doktorand von Giceva und Erstautor der Publikation, hinzu.
AnyBlox und selbst-decodierende Datensätze
Der Artikel stellt AnyBlox vor, ein Framework, das Datensätze selbst-decodierend macht, sodass sie überall gelesen werden können, ohne dass jedes System einen benutzerdefinierten Reader hinzufügen muss. Jeder Datensatz ist mit einem kleinen, Decoder (sandboxed) ausgestattet, der sein eigenes Format interpretieren kann. Wenn eine Datenbank oder eine Analysemaschine (z. B. DuckDB oder Spark) auf die Datei stößt, führt sie einfach diesen Decoder aus, um die Datensätze abzurufen. Dieser Ansatz beseitigt den seit langem bestehenden Engpass „viele Systeme x viele Formate“, ermöglicht Forschern und der Industrie die schnelle Einführung neuer oder experimenteller Kodierungen, und verbessert die Reproduzierbarkeit und den langfristigen Zugriff, da die Dekodierungslogik mit den Daten mitwandert. Die Autoren zeigen, dass diese Portabilität in praktischen Benchmarks mit einer nahezu nativen Leistung einhergeht, und diskutieren aktuelle Grenzen wie umfangreichere Pushdown-/Abfragefunktionen sowie klare Richtungen für eine breitere, standardisierte Integration.
International Conference on Very Large Data Bases (VLDB)
Die VLDB ist ein hochkarätig besetztes, jährliches, internationales Forum für Datenmanagement und skalierbare Datenwissenschaft für Datenbankforscher, Anwendungsentwickler und Anwender. Mit Keynotes und Vorträgen, Podiumsdiskussionen, Tutorials, Demonstrationen, Industrievorstellungen und Workshops in wechselnden Gastgeberstädten weltweit bringt die Konferenz Forscher und Praktiker zusammen, um Fortschritte in den Bereichen Datenbanksysteme, skalierbare Datenanalyse und Informationsmanagement auszutauschen. Akzeptierte Forschungsarbeiten werden in den Proceedings of the VLDB Endowment (PV) veröffentlicht.
Publikation
AnyBlox: A Framework for Self-Decoding Datasets; Mateusz Gienieczko, Maximilian Kuschewski, Thomas Neumann, Viktor Leis, Jana Giceva; Proceedings of the VLDB Endowment, 18, 11; 4017 – 4031 (2025) https://doi.org/10.14778/3749646.3749672