
Neznámé molekuly objevují s pomocí AI vědecké týmy ÚOCHB a ČVUT
27. 05. 2025
Letošní nositel Ceny Neuron pro mladé nadějné vědce Tomáš Pluskal z Ústavu organické chemie a biochemie AV ČR spolu se svým studentem Romanem Bushuievem a kolegy z Českého institutu informatiky, robotiky a kybernetiky ČVUT, Josefem Šivicem a Antonem Bushuievem, vyvinuli model strojového učení nazvaný DreaMS, který výrazně urychluje analýzu dosud neznámých molekul. Studii publikoval časopis Nature Biotechnology.
Příroda je plná chemických látek, které zatím čekají na své objevení. Předpokládá se, že neznáme naprostou většinu přírodních molekul. Jejich popis může přitom otevřít cestu k novým lékům, šetrnějším pesticidům, hlubšímu porozumění biologických procesů nebo k pokročilejšímu výzkumu života ve vesmíru.
Každá látka má unikátní vzor, podobný lidskému otisku prstu, kterému se říká hmotnostní spektrum a který dokáže zachytit metoda zvaná hmotnostní spektrometrie. Ačkoliv lze touto cestou získat obrovské množství dat, mimořádně obtížné je jim porozumět a odhalit přesné molekulární struktury. Získané datové sady se často jeví jen jako rozsáhlé tabulky čísel bez zjevného významu.
K rozluštění tajemství neznámých molekul použil tým z ÚOCHB AV ČR a CIIRC ČVUT umělou inteligenci. Podobně jako se velké jazykové modely typu ChatGPT učí porozumět jazyku, i když dopředu neznají význam slov, pokouší se model DreaMS porozumět hmotnostním spektrům, aniž by znal jejich chemické struktury. „ChatGPT dokáže z velkého množství slov odvodit jejich význam a souvislosti mezi nimi a neuronová síť DreaMS pomocí samořízeného strojového učení zase rozpoznává, jaké molekulární struktury se za spektry skrývají. Využívá přitom údaje z milionů spekter,“ vysvětluje Josef Šivic.
“Model DreaMS trénoval na desítkách milionů spekter z různých organismů a prostředí – z rostlin, mikrobů, potravin, tkání i půdních vzorků. Díky tomu dokáže nacházet skryté podobnosti mezi spektry, mezi nimiž na první pohled žádná souvislost není,” popisuje Tomáš Pluskal. Výsledkem je propojená síť usnadňující orientaci v obrovském množství chemických dat. Tuto síť, kterou je možné si představit jako internet hmotnostních spekter, nazvali vědci DreaMS Atlas. Každé spektrum je jako webová stránka spojená s ostatními. Na tomto „internetu spekter“ lze vyhledávat, sledovat objevené souvislosti a klást si nové otázky. Například, co mají společného pesticidy, potraviny a lidská kůže? DreaMS mezi nimi totiž odhalil nečekané chemické podobnosti a navrhl hypotézu, že určité pesticidy by mohly souviset s autoimunitním onemocněním, jako je lupénka.
Kromě propojování spekter z různých studií lze DreaMS využít i k dalším praktickým úlohám. Například k odhadu, kolik má molekula určitých fragmentů nebo jestli obsahuje konkrétní chemické prvky. „Překvapilo nás zejména, že se model naučil detekovat fluor,“ říká Roman Bushuiev: „Fluor se vyskytuje přibližně ve třetině všech léčiv a agrochemikálií, z hmotnostního spektra jsme ho dřív ale prakticky nedokázali odhalit. DreaMS, předtrénovaný na milionech spekter, jsme doladili na několika tisících příkladů molekul obsahujících fluor a najednou to fungovalo.“
Vědci teď pracují na dalším kroku. Učí model předpovídat celé molekulární struktury. Pokud se jim to podaří, zásadně to ovlivní náš pohled na chemickou rozmanitost, ať už na planetě Zemi, nebo dokonce ve vesmíru.
Odkaz na publikaci:
R. Bushuiev, A. Bushuiev, R. Samusevich, C. Brungs, J. Sivic and T. Pluskal, Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS Nature Biotechnology (2025)
https://doi.org/10.1038/s41587-025-02663-3
Více informací:
Veronika Sedláčková
ÚOCHB – Komunikace
veronika.sedlackova@uochb.cas.cz
+420 602 160 135
Přečtěte si také
- Každý sýček se počítá. I letos ornitologové okroužkovali přes 70 mláďat
- Na Chebsku začíná rozsáhlý seismický experiment s názvem ELISE
- Vědci poprvé ukázali, jak buněčné „nosiče" spouštějí invazi nádorových buněk
- Ve vakuu voda při nízké teplotě vře i mrzne zároveň
- Skrytá hrozba: parazité mohou ohrozit zdraví horských goril
- Letošní Biosmršť přinesla rekordní počet zaznamenaných druhů i unikátní nálezy
- Vědci zmapovali, kde je nejvíce houbových partnerů pro rostliny
- Jak překonat rezistenci nádorových buněk na terapii: vědci testovali nový systém
- Hodiny v mozku slouží jako senzor denního režimu
- Studie odhaluje citlivost starověkého germánského hospodářství na výkyvy klimatu
Aplikovaná fyzika
Vědecká pracoviště
- Ústav fotoniky a elektroniky AV ČR
Ústav fyziky materiálů AV ČR
Ústav fyziky plazmatu AV ČR
Ústav přístrojové techniky AV ČR
Ústav teoretické a aplikované mechaniky AV ČR
Ústav termomechaniky AV ČR
Základní fyzikální zákony jsou v ústavech této sekce východiskem pro výzkum nových struktur a makroskopických vlastností pevných látek, tekutin a plazmatu. Studium mikrostruktury a mikroprocesů otvírá cestu k řešení problémů „materiálových věd“, jako jsou např. vlastnosti kompozitních materiálů a konstrukcí, poruchová mechanika a dynamika nebo biomechanika. Modelování prostorově vysoce strukturovaného turbulentního proudění rozličných tekutin, výzkum dynamiky kapalin a plynů biosféry či plazmových technologií jsou často výrazně aplikačně orientované. Studium vysokoteplotního plazmatu se soustřeďuje především na pulsní výkonové systémy a problémy udržení a ohřevu plazmatu v tokamaku. Bádání v oblasti aplikované fyziky má často interdisciplinární charakter a jeho výsledky také nacházejí použití v nejrůznějších oblastech vědy a techniky. Například umělá syntéza přirozené a dobře srozumitelné české řeči je důležitým úkolem v oboru zpracování číslicových signálů. Unikátní přístroje a měřící techniky byly vyvinuty pro spektroskopii a elektronovou mikroskopii živých objektů. Sekce zahrnuje 6 ústavů s přibližně 920 zaměstnanci, z nichž je asi 580 vědeckých pracovníků s vysokoškolským vzděláním.