
Neznámé molekuly objevují s pomocí AI vědecké týmy ÚOCHB a ČVUT
27. 05. 2025
Letošní nositel Ceny Neuron pro mladé nadějné vědce Tomáš Pluskal z Ústavu organické chemie a biochemie AV ČR spolu se svým studentem Romanem Bushuievem a kolegy z Českého institutu informatiky, robotiky a kybernetiky ČVUT, Josefem Šivicem a Antonem Bushuievem, vyvinuli model strojového učení nazvaný DreaMS, který výrazně urychluje analýzu dosud neznámých molekul. Studii publikoval časopis Nature Biotechnology.
Příroda je plná chemických látek, které zatím čekají na své objevení. Předpokládá se, že neznáme naprostou většinu přírodních molekul. Jejich popis může přitom otevřít cestu k novým lékům, šetrnějším pesticidům, hlubšímu porozumění biologických procesů nebo k pokročilejšímu výzkumu života ve vesmíru.
Každá látka má unikátní vzor, podobný lidskému otisku prstu, kterému se říká hmotnostní spektrum a který dokáže zachytit metoda zvaná hmotnostní spektrometrie. Ačkoliv lze touto cestou získat obrovské množství dat, mimořádně obtížné je jim porozumět a odhalit přesné molekulární struktury. Získané datové sady se často jeví jen jako rozsáhlé tabulky čísel bez zjevného významu.
K rozluštění tajemství neznámých molekul použil tým z ÚOCHB AV ČR a CIIRC ČVUT umělou inteligenci. Podobně jako se velké jazykové modely typu ChatGPT učí porozumět jazyku, i když dopředu neznají význam slov, pokouší se model DreaMS porozumět hmotnostním spektrům, aniž by znal jejich chemické struktury. „ChatGPT dokáže z velkého množství slov odvodit jejich význam a souvislosti mezi nimi a neuronová síť DreaMS pomocí samořízeného strojového učení zase rozpoznává, jaké molekulární struktury se za spektry skrývají. Využívá přitom údaje z milionů spekter,“ vysvětluje Josef Šivic.
“Model DreaMS trénoval na desítkách milionů spekter z různých organismů a prostředí – z rostlin, mikrobů, potravin, tkání i půdních vzorků. Díky tomu dokáže nacházet skryté podobnosti mezi spektry, mezi nimiž na první pohled žádná souvislost není,” popisuje Tomáš Pluskal. Výsledkem je propojená síť usnadňující orientaci v obrovském množství chemických dat. Tuto síť, kterou je možné si představit jako internet hmotnostních spekter, nazvali vědci DreaMS Atlas. Každé spektrum je jako webová stránka spojená s ostatními. Na tomto „internetu spekter“ lze vyhledávat, sledovat objevené souvislosti a klást si nové otázky. Například, co mají společného pesticidy, potraviny a lidská kůže? DreaMS mezi nimi totiž odhalil nečekané chemické podobnosti a navrhl hypotézu, že určité pesticidy by mohly souviset s autoimunitním onemocněním, jako je lupénka.
Kromě propojování spekter z různých studií lze DreaMS využít i k dalším praktickým úlohám. Například k odhadu, kolik má molekula určitých fragmentů nebo jestli obsahuje konkrétní chemické prvky. „Překvapilo nás zejména, že se model naučil detekovat fluor,“ říká Roman Bushuiev: „Fluor se vyskytuje přibližně ve třetině všech léčiv a agrochemikálií, z hmotnostního spektra jsme ho dřív ale prakticky nedokázali odhalit. DreaMS, předtrénovaný na milionech spekter, jsme doladili na několika tisících příkladů molekul obsahujících fluor a najednou to fungovalo.“
Vědci teď pracují na dalším kroku. Učí model předpovídat celé molekulární struktury. Pokud se jim to podaří, zásadně to ovlivní náš pohled na chemickou rozmanitost, ať už na planetě Zemi, nebo dokonce ve vesmíru.
Odkaz na publikaci:
R. Bushuiev, A. Bushuiev, R. Samusevich, C. Brungs, J. Sivic and T. Pluskal, Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS Nature Biotechnology (2025)
https://doi.org/10.1038/s41587-025-02663-3
Více informací:
Veronika Sedláčková
ÚOCHB – Komunikace
veronika.sedlackova@uochb.cas.cz
+420 602 160 135
Přečtěte si také
- Mezinárodní konference o vysokoenergetické astrofyzice
- Medaile AV ČR obdrželi historici a parazitolog
- Mikrobiologický ústav AV ČR vstupuje do společnosti AffiPro
- Netopýři ve městě: Nový výzkumný projekt zkoumá soužití lidí a netopýrů
- Euraxess slaví výročí: 20 let pomáhá vědcům a vědkyním najít domov v Česku
- Biosmršť 2025: Vědci a veřejnost znovu spojí síly při mapování nepůvodních druhů
- Nová příručka Mentoring v medicíně cílí na kultivaci medicínského prostředí
- Říp jako zkamenělé lávové jezero: nový pohled na původ legendární hory
- Vědci z ÚOCHB předpovídají nový fyzikální jev
- Cílení na mechaniku nádorů naznačuje možnou cestu k léčbě rakoviny jater
Humanitní a filologické vědy
Vědecká pracoviště
- Etnologický ústav AV ČR
Filosofický ústav AV ČR
Orientální ústav AV ČR
Slovanský ústav AV ČR
Ústav pro českou literaturu AV ČR
Ústav pro jazyk český AV ČR
Výzkumné projekty ústavů této sekce mají rovněž význam pro celonárodní kulturu a vzdělanost. V literární vědě je třeba nově zpracovat poválečné období české literatury, včetně literatury nezávislé. Naproti tomu klasická studia se soustřeďují na latinské písemnictví v našich zemích a na soupis našich literárních památek do r. 1800. Jazykověda se orientuje na výzkum národního jazyka a jeho historického vývoje v jeho spisovné i nespisovné podobě. Pozornost filozofie je upřena ke studiu filozofických směrů 20. století - k fenomenologii, filozofii existence, ale i k analytické filozofii a teorii vědy - stejně jako k odkazu myslitelů jako J. A. Komenský či J. Patočka. Literatura a jazyky slovanských zemí jsou předmětem naší slavistiky. Orientalistika, která má u nás dlouhou tradici, se věnuje studiu orientálních jazyků, dějinám a kultuře Předního východu, Indie, Číny a arabského světa. Etnografie a folkloristika se vedle tradičních témat hmotné a duchovní lidové kultury zabývá i aktuálními problémy etnických studií emigrace a reemigrace i adaptací jiných etnik v českém prostředí. Rovněž výzkum české hudební kultury je příspěvkem této sekce k poznání a ochraně našeho kulturního dědictví. Sekce zahrnuje 6 ústavů s přibližně 360 zaměstnanci, z nichž je asi 250 vědeckých pracovníků s vysokoškolským vzděláním.