Deep Learning für die De-novo-Peptid-Sequenzierung
DL4DNPS
Zusammenfassung
Die drei wichtigsten Molekülklassen des Lebens sind DNA, RNA und Proteine. Im Gegensatz zu DNA und RNA gibt es für Proteine bis heute keine genaue Sequenzierungstechnologie mit hohem Durchsatz. Die vielversprechende Technologie ist die Tandem-Massenspektrometrie, die Massenspektren von Proteinfragmenten, so genannten Peptiden, liefert. Die hochpräzise De-novo-Peptidsequenzierung (DNPS), d. h. die Bestimmung Aminosäuresequenzen eines Peptids nur aus Tandem-Massenspektren, wird die Proteomik für Anwendungen wie Genotypisierung, Krebsüberwachung, Erregerüberwachung, Immun-Onkologie, Metagenomik und Paläogenomik zugänglich machen. In jüngster Zeit haben Algorithmen, die Deep Learning nutzen, vielversprechende Ansätze für dieses Problem geliefert [1-4]. Ihre Leistung ist in dem hohen Präzisionsbereich (90 %), der besonders in klinischen Anwendungen erforderlich ist, jedoch nach wie vor sehr gering (<15 %).
Hier schlagen wir vor, DNPS mit zwei komplementären Ideen weiterzuentwickeln. Einerseits betrachten wir das DNPS-Problem als eine 1D-Bildübersetzungsaufgabe, die als Eingabe ein diskretisiertes Spektrum erhält und die Ionenserien und Kontaminationspeaks annotiert. Andererseits betrachten wir DNPS als ein kombinatorisches Optimierungsproblem, für dessen Lösung wir genetischen Algorithmen (GA) einsetzen. Die beiden Methoden ergänzen einander, da der Peak-Annotierungsalgorithmus sowohl für die Definition der Fitnessfunktion des GA als auch für die gesteuerten Mutationen von Peptidkandidaten verwendet werden kann.
Die Algorithmen werden mit Daten trainiert, die im Rahmen des ProteomeTools-Projekts [5] generiert wurden, das systematisch ~1,4 Millionen synthetische Peptide charakterisiert hat und alle menschlichen Genprodukte einschließlich posttranslationaler Modifikationen abdeckt. Insgesamt wurden im Rahmen des Projekts >100 Millionen hochwertige Referenz-Massenspektren erzeugt.
[1] Ma, B. Novor: real-time peptide de novo sequencing software. J. Am. Soc. Mass Spectrom. 26, 1885–1894 (2015).
[2] Yang, H., Chi, H., Zeng, W.-F., Zhou, W.-J. & He, S.-M. pNovo 3: precise de novo peptide sequencing using a learning-to-rank framework. Bioinforma. Oxf. Engl. 35, i183–i190 (2019).
[3] Tran, N. H., Zhang, X., Xin, L., Shan, B. & Li, M. De novo peptide sequencing by deep learning. Proc. Natl. Acad. Sci. 114, 8247–8252 (2017).
[4] Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S. & Noble, W. S. De novo mass spectrometry peptide sequencing with a transformer model. 2022.02.07.479481 (2022) doi:10.1101/2022.02.07.479481.
[5] Zolg, D. et al. Building ProteomeTools based on a complete synthetic human proteome. Nat Methods 14, 259–262 (2017)