Jedes Jahr zeichnet das MDSI drei herausragende wissenschaftliche Arbeiten aus, die im Vorjahr von Gruppen von MDSI-Kernmitgliedern veröffentlicht wurden. Erstmals wurden die Preise in diesem Jahr in drei Kategorien vergeben: Societal Impact, Foundational Impact und Applications.
Die Siege wurden mit jeweils 500 Euro pro Kategorie prämiert und alle drei Gewinner erhielten eine Urkunde des MDSI überreicht.
Kategorie A: Societal Impact
Friederike Jungmann, Paul Hager und ihre Coautoren bewerten in ihrer Nature Medicine Publikation „Evaluation and mitigation of the limitations of large language models in clinical decision-making“ kritisch die Leistungsfähigkeit großer Sprachmodelle (LLMs) wie ChatGPT in der klinischen Entscheidungsfindung.
Angesichts der Grenzen traditioneller Testmethoden entwickelte das Team um MDSI-Kernmitglied Prof. Marcus Makowski und MDSI-Direktor Prof. Daniel Rückert am TUM Klinikum rechts der Isar ein realistisches Testframework und einen Datensatz, um die diagnostischen Fähigkeiten von LLMs in dynamischen, informationsarmen Umgebungen anhand realer Patientenfälle von vier abdominalen Krankheitsbildern zu bewerten. Die Modelle mussten aktiv diagnostische Informationen anfordern sowie Diagnose- und Behandlungspläne vorschlagen – analog zu realen klinischen Abläufen. Sie wurden mit jungen und erfahrenen Ärztinnen und Ärzten in Krankenhäusern in Deutschland und den USA verglichen. Die Ergebnisse zeigten, dass LLMs durchweg schlechter abschnitten als ihre menschlichen Pendants und häufig von evidenzbasierten Behandlungsrichtlinien abwichen. Zudem zeigte sich, dass die Leistung der Modelle stark von der Reihenfolge und Formulierung der Eingaben abhing, was Fragen zur Konsistenz und Zuverlässigkeit aufwirft.
Zur Förderung von Transparenz und Fortschritt stellten die Autorinnen und Autoren ihren Datensatz und ihr Framework frei zur Verfügung. Ihre Arbeit unterstreicht die Bedeutung einer strengen, klinisch fundierten Bewertung, bevor KI in Gesundheitssysteme integriert wird.
Kategorie B: Foundational Impact
In ihrer Publikation „MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers“ stellten Yawar Siddiqui und ein Team um die MDSI-Kernmitglieder Prof. Angela Dai und Prof. Matthias Niessner MeshGPT vor, einen neuen Ansatz zur Erzeugung von Dreiecksnetzen. Dieser Ansatz spiegelt die für von Künstlern erstellte Netze typische Kompaktheit wider, im Gegensatz zu dichten Dreiecksnetzen, die mit Iso-Surfacing-Methoden aus neuronalen Feldern extrahiert werden.
Inspiriert von den jüngsten Fortschritten in leistungsstarken Sprachmodellen, verfolgten die Forschenden einen sequenzbasierten Ansatz, um Dreiecksnetze autoregressiv als Sequenzen von Dreiecken zu generieren. Zunächst wurde ein Vokabular latenter quantisierter Einbettungen mittels Graph-Faltungen erlernt, die die lokale Geometrie und Topologie des Netzes abbilden. Diese Einbettungen werden sequenziert und von einem Decoder in Dreiecke übersetzt, um das Netz effektiv rekonstruieren zu können. Anschließend wird ein Transformer auf diesem erlernten Vokabular trainiert, um den Index der nächsten Einbettung anhand der vorherigen Einbettungen vorherzusagen. Nach dem Training kann das Modell autoregressiv abgetastet werden, um neue Dreiecksnetze zu generieren, wodurch direkt kompakte Netze mit scharfen Kanten erzeugt werden, die die effizienten Triangulationsmuster von menschengemachten Netzen besser imitieren.
MeshGPT zeigte eine deutliche Verbesserung gegenüber den bisher modernsten Methoden: 9 % Steigerung der Formabdeckung und eine Verbesserung der FID-Werte um 30 Punkte in verschiedenen Kategorien.
Die Publikation wurde von der Conference on Computer Vision and Pattern Recognition (CVPR) als „Highlight“ ausgezeichnet.
Kategorie C: Applications
Die Publikation von Fabian Pfitzner, MDSI-Beiratsmitglied Dr.-Ing. Alexander Braun und MDSI-Kernmitglied Prof. André Borrmann mit dem Titel „From data to knowledge: Construction process analysis through continuous image capturing, object detection, and knowledge graph creation“ präsentierte eine datengetriebene Pipeline, die Rohdaten von Baustellen in strukturierte, verwertbare Informationen überführt.
Sie kombiniert Computer Vision, geometrische Projektion und Wissensgraphen zur Erstellung eines zeit- und ortsbezogenen digitalen Zwillings des Baufortschritts. Hochauflösende Bilder von krangebundenen Kameras werden mittels Deep Learning analysiert, um Objekte wie Arbeiter, Fahrzeuge und Bauelemente zu erkennen. Diese Detektionen werden auf Grundrisse projiziert und in einem beschrifteten Eigenschaftsgraphen verknüpft, was eine Echtzeitüberwachung der Baustellenaktivität ermöglicht. Das System wurde über 1,5 Jahre auf vier Baustellen validiert und generierte Millionen von Bildern und Graphbeziehungen.
Der Ansatz erlaubt eine präzise Produktivitätsverfolgung, die Identifikation von Engpässen und die Abfrage von Abweichungen gegenüber dem Bauplan. Die integrierte Pipeline schlägt eine Brücke zwischen unstrukturierten visuellen Daten und strukturierten Prozessmodellen und bietet skalierbare Lösungen für die Bauindustrie und andere physische Domänen. Insgesamt zeigt die Arbeit, wie KI die Überwachung in traditionell wenig digitalisierten Branchen durch transparente, leistungsorientierte Entscheidungsfindung revolutionieren kann.
Links:
Kategorie A: Paul Hager, Friederike Jungmann et al., "Evaluation and mitigation of the limitations of large language models in clinical decision-making", Nature Medicine 30, 2613–2622 (2024).
Kategorie B: Yawar Siddiqui et al. "MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers", CVPR 2024.
Kategorie C: Fabian Pfitzner et al. "From data to knowledge: Construction process analysis through continuous image capturing, object detection, and knowledge graph creation", Automation in Construction 164(9), 105451, 2024.