Synthetic Benchmark Datasets for Finance
SyBenDaFin
Zusammenfassung
Bei der Anwendung von Techniken des maschinellen Lernens im Finanzbereich ist eines der Schlüsselelemente das Trainieren und Testen von Algorithmen auf geeigneten Datensätzen. Solche Datensätze sind jedoch derzeit nur begrenzt verfügbar: Reale Finanzdaten sind oft knapp oder durch eine Reihe von Einschränkungen limitiert, und Datenschutzüberlegungen begrenzen die Analyse von Machine-Learning-Modellen über einzelne Unternehmen hinaus. Ziel dieses Projekts ist es, den Weg für die Erstellung simulierter Benchmark-Datensätze für den Finanzbereich zu ebnen. Weithin zugängliche Referenzdatensätze haben sich in anderen Bereichen als großer Vorteil erwiesen - zum Beispiel in der Bildklassifizierung, wo MNIST und ImageNet zu De-facto-Standards für die Bewertung von Algorithmen geworden sind, während solche Benchmarks für das Finanzwesen derzeit nicht verfügbar sind. Diese Lücke wollen wir im Laufe dieses Projekts allmählich schließen, indem wir das Problem der Erstellung des Datensatzes aus der Perspektive eines Vervollständigungsproblems aus wenigen sorgfältig ausgewählten Simulationen betrachten. Obwohl die vollständige Lösung des Projekts ein ehrgeiziges langfristiges Ziel ist, können bereits im kommenden Semester erste wertvolle Schritte unternommen werden. Vor allem, indem die Erwartungen an die "Qualität" von Benchmark-Datensätzen gesenkt werden, indem simulierte Daten mit derzeit leicht verfügbaren generativen Techniken zugelassen werden (siehe [Buehler, Horvath, Lyons, Perez, Wood 2021]). Die Bereitstellung einer genauen Quantifizierung des Modellierungsfehlers (Unsicherheit) zusammen mit den "unvollkommenen" synthetischen Daten ist ein entscheidender Schritt für die Festlegung erster Benchmarks, die in späteren Forschungsarbeiten noch verbessert werden sollen.