Deep Learning für De-novo-Peptidsequenzierung
Projektbeschreibung
Die drei wichtigsten Klassen von Molekülen des Lebens sind DNS, RNS und Proteine. Im Gegensatz zu DNS und RNS gibt es bislang keine präzise Sequenzierungstechnologie mit hohem Durchsatz für Proteine. Die dem am nächsten kommende Technologie ist die Tandem-Massenspektrometrie, die Massenspektren von Proteinfragmenten, sogenannten Peptiden, liefert. Eine hochgenaue De-novo-Peptidsequenzierung (DNPS), d. h. die Bestimmung von Peptid-Aminosäuresequenzen ausschließlich anhand von Tandem-Massenspektren, wird die Proteomik für Anwendungen wie Genotypisierung, Krebsüberwachung, Pathogenüberwachung, Immunonkologie, Metagenomik und Paläogenomik nutzbar machen.
Im Rahmen dieses Projekts haben wir Koina entwickelt, einen offenen, containerisierten und über das Web zugänglichen Dienst, der den Zugriff auf Modelle zur Vorhersage von Peptideigenschaften standardisiert und beschleunigt. Auf der Grundlage von Koina haben wir Oktoberfest entwickelt, ein suchmaschinenunabhängiges Python-Paket, das Spektralbibliotheken generiert und Peptidspektrum-Übereinstimmungen neu bewertet. Auf dieser Grundlage haben wir Spectralis eingeführt, eine DNPS-Methode für die Tandem-Massenspektrometrie. Sie verfügt über eine konvolutionelle neuronale Netzwerkschicht, die Peaks in Spektren verbindet, die durch Aminosäuremassen voneinander getrennt sind, Klassifizierungen von Fragmentionsreihen vorstellt und einen Peptid-Spektrum-Konfidenzwert liefert. Zusammen verbessern diese Komponenten den Peptid-Recall gegenüber Eingangsvorhersagen und machen modernste DNPS zugänglich und skalierbar.
Ergebnisse
- Entwicklung von Koina, einem containerisierten, dezentralen und online zugänglichen Open-Source-Hochleistungs-Vorhersagedienst.
- Verwendung von FragPipe als Beispiel zur Demonstration der Integration von Koina in bestehende Proteomik-Softwaretools.
- Erstellung von Oktoberfest, einem Open-Source-Python-Paket unserer Pipeline zur Erstellung und Neubewertung von Spektralbibliotheken.
- Demonstration der Fähigkeit zur Verbesserung von Neubewertungsanalysen anhand von zwei unterschiedlichen Anwendungsfällen.
- Oktoberfest ist auf GitHub frei verfügbar.
- Einführung von Spectralis, einer De-novo-Peptidsequenzierungsmethode für die Tandem-Massenspektrometrie.
- Spectralis erreichte eine Sensitivität von 40 % bei einer Präzision von 90 % und verdoppelte damit den Stand der Technik.
- Die Anwendung auf nicht identifizierte Spektren bestätigte seine herausragende Leistung und untermauerte seine Eignung für das Variant Calling.
Weitere Schritte
Der neu an die Professur Computational Mass Spectrometry gekommene Postdoktorand Joel Lapin arbeitet gemeinsam mit Forschern aus dem Bereich Angewandte Systembiologie an der KTH (Königliche Technische Hochschule in Stockholm) an Alternativen zur Kodierung von Tandem-Massenspektren (Lapin et al. 2025).
Die Teilnahme am „OpenMS Summer 2024 Fellowship“ führte dazu, dass eine Doktorandin vom Adrem Data Lab der Universität Antwerpen bei uns zu Gast war. Daraus entstand eine Zusammenarbeit an einer neuartigen Benchmark-Plattform für DNPS-Tools (Pominova et al. 2026).
Ein weiteres Ziel unserer Labore wird die Entwicklung von DNPS-Werkzeugen für posttranslational modifizierte Peptide sein, einschließlich der Unterstützung von chimären Spektren (mehrere Peptide). Zu diesem Zweck verallgemeinern wir die zugrunde liegenden Algorithmen zur Vorhersage modifizierter Aminosäuren (Klaproth-Andrade et al. 2026), einschließlich des Transformers Casanovo (Straub et al. 2025). Zur Validierung werden wir Prosit (Gabriel et al. 2025), eine Grundlage für Spectralis, weiter verbessern.

Proceedings of the EuBIC-MS developers meeting 2023; Pedro Beltrao, Tim Van Den Bossche, Ralf Gabriels, Tanja Holstein, Tobias Kockmann, Alireza Nameni, Christian Panse, Ralph Schlapbach, Ludwig Lautenbacher, Matthias Mattanovich, Alexey Nesvizhskii, Bart Van Puyvelde, Jonas Scheid, Veit Schwämmle, Maximilian Strauss, Anna Klimovskaia Susmelj, Matthew The, Henry Webel, Mathias Wilhelm, Dirk Winkelhardt, Witold E. Wolski, Muyao Xi; Journal of Proteomics (July 2024), https://doi.org/10.1016/j.jprot.2024.105246
Koina: Democratizing machine learning for proteomics research; Ludwig Lautenbacher, Kevin L. Yang, Tobias Kockmann, Christian Panse, Matthew Chambers, Elias Kahl, Fengchao Yu, Wassim Gabriel, Dulguun Bold, Tobias Schmidt, Kai Li, Brendan MacLean, Alexey I. Nesvizhskii, Mathias Wilhelm; bioRxiv (June 2024), https://doi.org/10.1101/2024.06.01.596953
Deep learning-driven fragment ion series classification enables highly precise and sensitive de novo peptide sequencing; Daniela Klaproth-Andrade, Johannes Hingerl, Yanik Bruns, Nicholas H. Smith, Jakob Träuble, Mathias Wilhelm & Julien Gagneur; Nat Commun 15, 151 (January 2024), https://doi.org/10.1038/s41467-023-44323-7
Oktoberfest: Open-source spectral library generation and rescoring pipeline based on Prosit; Mario Picciani, Wassim Gabriel, Victor-George Giurcoiu, Omar Shouman, Firas Hamood, Ludwig Lautenbacher, Cecilia Bang Jensen, Julian Müller, Mostafa Kalhor, Armin Soleymaniniya, Bernhard Kuster, Matthew The, Mathias Wilhelm; Proteomics (September 2023), https://doi.org/10.1002/pmic.202300112
- Koina Kooperationsbesuch von Tobias Kockmann und Christian Panse bei Computational Mass Spectrometry
- Ludwig Lautenbacher nimmt teil an BSPR/EuPA 2023 Conference,
“Koina: Bringing machine learning to the community” (Vortrag) - Wassim Gabriel nimmt teil an EuroBioC 2023,
“Accessing and using a European prediction service for biological data” (Vortrag) - Ludwig Lautenbacher & Mathias Wilhelm nehmen teil an Annual Conference of the DGMS 2024,
“Koina: Bringing machine learning to the community” (Poster),
“Prosit, Koina, and Oktoberfest: Deep-learning for proteomics research at your fingertips” (Workshop) - Daniela Klaproth-Andrade Salazar, Ludwig Lautenbacher, Mathias Wilhelm, Yanik Bruns, und Mario Picciani nehmen teil an Annual Conference of the ASMS 2024,
“Improving de novo peptide sequencing for post-translationally modified peptides” (Vortrag),
“De novo peptide sequencing breakthroughs and challenges” (Panel-Diskussion Workshop),
“De novo sequencing of multiple peptides in chimeric mass spectra” (Poster),
“Koina: Bringing machine learning to the community” (Vortrag),
“Oktoberfest: search engine agnostic rescoring pipeline leveraging online peptide property prediction from various models” (Poster) - Marina Pominova vom Adrem Data Lab, University of Antwerp, besucht Computational Mass Spectrometry
- seit 11/2023: 2-monatige Treffen der Gagneur-Wilhelm-Labors, um den bilateralen Austausch und die Forschung zu fördern und zu erleichtern.
Team
Yanik Bruns, Computational Molecular Medicine
Wassim Gabriel, Computational Mass Spectrometry
Mario Picciani, Computational Mass Spectrometry
Tobias Kockmann, Functional Genomics Center Zurich (FGCZ) - University of Zurich | ETH Zurich
Christian Panse, Functional Genomics Center Zurich (FGCZ) - University of Zurich | ETH Zurich, Swiss Institute of Bioinformatics (SIB)
Joel Lapin, Computational Mass Spectrometry



