Anlernen von prädiktiven Vine-Copula-Modellen für komplexe Pflanzeneigenschaften
Projektbeschreibung
Um die wachsende Weltbevölkerung zu ernähren, sind widerstandsfähige, ertragreiche und an unterschiedliche Umgebungen angepasste Pflanzensorten erforderlich. Die Vorhersage der Pflanzenleistung anhand genomischer Daten ist für die moderne Züchtung von zentraler Bedeutung, bleibt jedoch aufgrund der hohen Dimensionalität der genomischen Informationen und der komplexen, nichtlinearen Beziehungen zwischen Merkmalen, Umgebungen und Pflanzenpopulationen eine Herausforderung. Dieses Projekt führt prädiktive Vine-Copula-Modelle als neuen Rahmen für die genomische Vorhersage ein, mit denen sich Abhängigkeitsstrukturen flexibel modellieren lassen, die mit standardmäßigen linearen Ansätzen nicht erfasst werden können. Wir entwickeln skalierbare Methoden für die hochdimensionale Vine-Copula-(Quantil-)Regression und demonstrieren deren Nützlichkeit für die Identifizierung einflussreicher Einzelnukleotid-Polymorphismen (SNP) und die Verbesserung der Vorhersagegenauigkeit für mehrere Maismerkmale. Unser Ansatz stellt die erste Anwendung von Vine-Copulas in der genomischen Vorhersage dar und bietet Pflanzenzüchtern leistungsfähigere Werkzeuge, um komplexe Merkmalsarchitekturen zu entschlüsseln.
Ergebnisse
- Entwicklung von zwei neuen hochdimensionalen dünnbesetzten Vine-Copula-Regressionsmethoden, vineregRes und vineregParCor, die mit einer Rechenkomplexität von O(p²) skalieren und damit eine erhebliche Verbesserung gegenüber bestehenden O(p³)-Ansätzen darstellen.
- Einführung von Definitionen für relevante, redundante und irrelevante Variablen in der Quantilregression mit anschaulichen Beispielen.
- Simulationsstudien belegen die Leistungsfähigkeit unserer Methoden bei der Variablenauswahl, der Vorhersagegenauigkeit und der Rechengeschwindigkeit in dünnbesetzten hochdimensionalen Umgebungen.
- Es wurde gezeigt, dass bestehende Methoden bei einer Anhäufung redundanter, aber relevanter Variablen an Leistung einbüßen, während einer unserer Ansätze die beste Genauigkeit in Bezug auf den Pinball-Verlust beibehält.
- Die Methoden wurden auf einen großen Mais-Genomdatensatz mit 501.124 SNPs angewendet, um wichtige Prädiktoren für vier agronomische Merkmale (PH V4/V6, FF, MF) zu identifizieren.
- Im Vergleich zu linearen und konventionellen genomischen Vorhersagemodellen wurde eine überlegene Vorhersage- und Merkmalsauswahlleistung erzielt.
- Implementierung des R Pakets sparsevinereg .
Weitere Schritte
Zukünftige Arbeiten könnten sich auf die Verfeinerung von Strategien zur Merkmalsextraktion konzentrieren, um die genomische Vorhersage weiter zu verbessern. Dies könnte die Auswahl geeigneter SNP-Gewichte für die Schätzung ihrer latenten Variablen, die Wahl der SNP-Gruppengröße G mittels Kreuzvalidierung, die Anpassung des P-Wert-Screening-Schwellenwerts zur Berücksichtigung aller möglichen extrahierten Merkmale, die Entwicklung von Nachbearbeitungsmerkmalen für die zusätzliche Merkmalsextraktion und die Erweiterung der Variablenauswahl zur Unterstützung flexiblerer Vine-Baumstrukturen umfassen.
Özge Sahin, Claudia Czado, High-dimensional sparse vine copula regression with application to genomic prediction, Biometrics, Volume 80, Issue 1, March 2024, ujad042, https://doi.org/10.1093/biomtc/ujad042

