
Lék na rakovinu? Boj s krizí klimatu? Ptejte se datových vědců
15. 08. 2025
Doba, kdy „ajťáci“ seděli v suterénech, je dávno pryč. Například bioinformatici se přesunuli do nejvyšších pater a jsou součástí moderních vědeckých týmů. Vyznají se totiž v mnohosti dat i nástrojích umělé inteligence. „Díky nim dokážeme lépe předvídat a řešit například klimatické hrozby nebo světové epidemie, jako byla ta covidová,“ zamýšlí se v aktuálním čísle A / Magazínu Jiří Vondrášek z Ústavu organické chemie a biochemie AV ČR, který šéfuje české pobočce infrastruktury ELIXIR.
Nobelovy ceny za chemii a za fyziku v roce 2024 získává… umělá inteligence. Takhle ve zkratce by se dalo shrnout loňské rozhodnutí komise Královské švédské akademie věd. V obou vědních disciplínách totiž prestižní ocenění získali badatelé, kteří dramaticky posunuli možnosti AI a její využití ve vědě. Laureáty ceny za fyziku se stali John Hopfield a Geoffrey Hinton za vývoj strojového učení na základě umělých neuronových sítí. I díky nim dnes běžně používáme překladače v mobilu nebo nám na zvídavé dotazy odpovídá ChatGPT.
Pro následující řádky je ale ještě zajímavější příběh nositelů nobelovky za chemii. Získali ji biochemik a bioinformatik David Baker za přínos v navrhování nových proteinů a počítačoví vědci Demis Hassabis a John Jumper z technologické společnosti DeepMind za výpočetní nástroj AlphaFold. Rozhodnutí nobelovské komise jednoznačně potvrdilo, že „ajťáci“ – tedy experti na informační technologie – nejenže do vědy patří, ale také mají obrovský potenciál ji posunovat o míle kupředu.
AlphaFold je softwatre, který dokáže s neuvěřitelnou přesností předpovědět, jak se protein poskládá, a to jen na základě znalosti pořadí jeho aminokyselin.
Datová revoluce v biologii
Když si budete povídat s bioinformatiky o jejich oboru, dříve nebo později se o AlphaFoldu zmíní. Jde totiž skutečně o revoluční nástroj, který během pouhých pár let dokázal zrychlit a zpřesnit určování struktury existujících proteinů a uměle navrhovat proteiny zcela nové.
Protein je molekula tvořená řetězcem aminokyselin. Je základním stavebním prvkem všeho živého. Každý protein má přitom svou vlastní specifickou funkci, jež závisí na tom, jak se řetízek aminokyselin uspořádá v prostoru. Vědci se po celá desetiletí snažili přijít na to, jak příroda tyto trojrozměrné struktury vytváří. V odborné hantýrce se můžeme setkat s anglickým pojmem „protein folding problem“.
Postupně biologové odkrývali jednu proteinovou strukturu za druhou (zpočátku zejména díky metodě rentgenové difrakce, tedy zjišťování atomové skladby pomocí rentgenových paprsků a metodě nukleární magnetické rezonance). Důležité je, že výsledky pozorování a experimentů zaznamenávali do databází (například PDB nebo UniProt) volně přístupných každému uživateli.
Proteiny jsou základní stavební kameny všech živých organismů. Skládají se z aminokyselin a plní klíčové funkce jako budování svalů, podpora imunity či regulace hormonů.
Za desítky let práce se podařilo shromáždit informace o více než 200 milionech proteinových sekvencí a 200 tisících proteinových struktur. To je ohromné množství dat, s nimiž si lidský mozek těžko poradí, ale které poskytuje ideální potravu pro nástroje umělé inteligence.
Jak kvalitně nakrmit AI
„Průlom v oblasti predikce struktury proteinů byl možný jen díky databázím. Nebýt veřejných dat, která vědci dlouhodobě shromažďovali a dobrovolně poskytovali celé vědecké komunitě, nástroje jako AlphaFold by nikdy nevznikly,“ zdůrazňuje bioinformatik Jiří Vondrášek z Ústavu organické chemie a biochemie AV ČR.
Robustní datasety slouží jako učební materiál pro umělou inteligenci, která na nich trénuje své algoritmy. Nicméně aby z nástrojů AI vypadly dobré produkty, je potřeba je krmit kvalitní potravou. „Často se dnes zmiňuje problém trash-in – trash-out. To znamená, že žádný model nebo systém nebude nikdy chytřejší než jeho vstupy. Jinými slovy: i ta nejlepší umělá inteligence poskytne scestné výsledky, pokud jí dáte špatná data,“ dodává vědec.
Jiří Vondrášek z Ústavu organické chemie a biochemie AV ČR (CC)
Zatím byla řeč o proteinových databázích čítajících miliony sekvencí a statisíce struktur molekul. Existují ale i další datasety – například sekvencí DNA z nejrůznějších prostředí – oceánů, půd, vzduchu a podobně. Pomocí nástrojů umělé inteligence v nich lze odhalovat úplně nové organismy, ale také procesy, reakce a sloučeniny, které dosud unikaly lidské pozornosti.
Stejně tak jsou k dispozici také databáze sekvencí rostlinné DNA nebo informace ze světa hub. Například česká GlobalFungi obsahuje údaje o houbách z více než 80 tisíc lokalit po celém světě. I díky ní vědci odhadují, že na Zemi roste šest milionů druhů hub. Databází postupně přibývá. Přitom už na počátku milénia se ukazovalo, že bude nutné v nich udržovat pořádek a stanovit globální zásady pro jejich kontrolu, správu, údržbu a využití.
Elixír jako záruka kvality
Zhruba před patnácti lety se začalo mluvit o takzvaném životním cyklu dat zahrnujícím různé fáze od plánování přes sběr dat, jejich zpracování, analýzu, uchování a sdílení až po opětovné použití. Cílem bylo, aby vynaložené prostředky na výzkum nepřišly nazmar – aby například znovu nevznikala data již jednou vytvořená někým jiným.
Bioinformatika – obor 21. století |
Jeden ze zakladatelů bioinformatiky Philip Bourne odhadl v roce 2016 celkový objem dat, jež do té doby vzešla jen z projektů financovaných americkými Národními instituty zdraví (National Institutes of Health, NIH) na 650 petabajtů – ve veřejných archivech NIH bylo ale dostupných pouze 12 procent z nich (pro srovnání: jeden petabajt by pojmul asi 250 miliard běžných fotek v chytrém telefonu). Naprostou většinu vzniklých dat tak bylo možné označit za „temnou“ nebo ztracenou. Americká instituce proto ve druhé dekádě 21. století vynaložila 1,2 miliardy dolarů na podporu datových archivů a jejich správu.
Stejně uvažovala i evropská bioinformatická vědecká komunita, která se v roce 2013 propojila v infrastruktuře ELIXIR. Jejím velkým přínosem pro globální správu dat byla formulace principů známých pod zkratkou FAIR: findable, accessible, interoperable, reusable. Dbá tedy na to, aby vědecká data byla snadno dohledatelná, přístupná, schopná vzájemného propojení a znovupoužitelná v různých kontextech a formátech.
„ELIXIR garantuje, že všechna data shromážděná v jeho databázích nesou pečeť kvality a lze se na ně spolehnout,“ říká Jiří Vondrášek, který vede český uzel evropské infrastruktury nazvaný ELIXIR CZ.
Datové potrubí |
Řešení pandemie nebo rakoviny
Umělá inteligence může být dobrým sluhou, ale špatným pánem. Ostatně všichni muži jmenovaní v úvodu článku – nositelé Nobelovy ceny za vývoj strojového učení a nástrojů AI – veřejně a otevřeně upozorňují na její rizika a nutnost nastavit etické hranice jejího používání. Stejně uvažuje Jiří Vondrášek, který říká, že datoví vědci si jsou vědomi hrozeb zneužití v oblasti velkých dat a dbají na jejich zabezpečení. Zároveň věří, že vytvoření oceněného AlphaFoldu bylo jen první vlaštovkou a umělá inteligence teprve ukáže, jak prospěšná může lidstvu být. „Myslím si, že díky ní dokážeme lépe předvídat a řešit například klimatické hrozby nebo světové epidemie, jako byla ta covidová,“ zmiňuje bioinformatik.
ELIXIR se dá metaforicky popsat i jako jakési datové potrubí, kterým proudí informace z nejrůznějších směrů a zdrojů. Infrastruktura pomáhá výzkumníkům se v datech vyznat, nabízí školení a tréninky, poskytuje cloudové zázemí a zprostředkovává datovou spolupráci napříč Evropou. Skrývá se v ní obrovský potenciál. Díky novým nástrojům AI by mělo být možné s využitím velkých datasetů vytvářet například léčivé látky na vzácné choroby i genetická nebo nádorová onemocnění.
„Nemusíme dopředu přesně vědět, k čemu konkrétně ve výsledku poslouží. Bezpečně ale víme, že máme kvalitní potravu pro rozvíjející se nástroje umělé inteligence,“ uzavírá Jiří Vondrášek. V blízké budoucnosti se tak klidně můžeme dočkat dalších Nobelových cen udělených v oblasti velkých dat. Jisté je, že za přelomovými objevy budou stát týmy, jejichž pevnou součástí budou i odborníci na digitální technologie a informační zdroje, tedy zjednodušeně řečeno: ajťáci.
prof. RNDr. Jiří Vondrášek, CSc. Vždy ho bavilo hledání souvislostí v mnohosti informací. Vystudoval proto Matematicko-fyzikální fakultu UK a svou profesní dráhu od počátku spojil s výpočetním modelováním a analýzou dat v molekulární biologii. V Česku je jedním ze zakladatelů bioinformatiky, oboru, ve kterém vidí velký potenciál. Je vedoucím skupiny bioinformatika v Ústavu organické chemie a biochemie AV ČR a ředitelem národní infrastruktury pro biologická data ELIXIR CZ. Aktivně se podílí na národní strategii správy vědeckých dat a ve spolupráci s evropskými partnery na zavedení datových standardů pro biologická data. |
Článek vyšel pod názvem Lék na rakovinu? Boj s krizí klimatu? Ptejte se dat v A / Magazínu 2/2025:
2/2025 (verze k listování)
2/2025 (verze ke stažení)
Čtvrtletník A / Magazín vydává Akademie věd ČR. Výtisky zasíláme zdarma všem zájemcům. Kontaktovat nás můžete na adrese predplatne@ssc.cas.cz.
Text: Leona Matušková, Divize vnějších vztahů SSČ AV ČR
Foto: Jana Plavec, Divize vnějších vztahů SSČ AV ČR; Shutterstock
Text a fotografie označené CC jsou uvolněny pod svobodnou licencí Creative Commons.
Přečtěte si také
- S Tomášem Etrychem o polymerech, které umí chirurgům zobrazit zhoubný nádor
- V nanosvětě je zlato modré i rudé, říká Vladimíra Petráková
- Tajemství termitů: dlouhověkost a po miliony let fungující řád
- Plasty by se mohly vyrábět z oxidu uhličitého získaného z atmosféry, říká chemik
- Čeští vědci spolupracují na vývoji ekologických a levných solárních článků
- Nebezpečné látky obsažené v náplních elektronických cigaret poškozují plíce
- Nový vodíkový elektrolyzér ukládá energii z obnovitelných zdrojů
- Chemičkou jsem se chtěla stát už od čtrnácti let, říká Adéla Šimková
- Vědci vyvinuli novou kontrastní látku, která pomůže včas odhalit skryté nemoci
- Rostliny v sobě mají neuvěřitelné chemické bohatství, říká Tomáš Pluskal
Historické vědy
Vědecká pracoviště
- Archeologický ústav AV ČR, Brno
Archeologický ústav AV ČR, Praha
Historický ústav AV ČR
Masarykův ústav a Archiv AV ČR
Ústav dějin umění AV ČR
Ústav pro soudobé dějiny AV ČR
Úkolem ústavů této sekce je výzkum českých dějin v mezinárodním kontextu. Dva archeologické ústavy (v Praze a v Brně) se věnují pravěkým a středověkým dějinám Čech, resp. regionu středního Podunají od paleolitu po období Velké Moravy. Kromě tradičních metod a záchranného terénního výzkumu se rozvíjí i prostorová archeologie. Historický výzkum, který je rovněž zastoupen dvěma ústavy, se zabývá vybranými kapitolami českých dějin od raného středověku. Souhrnným rozsáhlým projektem je zde příprava Biografického slovníku českých zemí. Pro novější období a zejména pro zmapování klíčových událostí v letech 1938-45, 1948 či 1968 je důležité kritické publikování dříve nepřístupných pramenů. Do této sekce se soustřeďuje i studium dějin vědy, vědeckých institucí i významných osobností vědy. Uměnovědné bádání se soustřeďuje na dokončení mnohasvazkových Dějin českého výtvarného umění a na Topografii uměleckohistorických památek. Posláním Masarykova ústavu a Archivu AV ČR je vedle výzkumu a ochrany pramenné základny k dějinám vědy a kultury v českých zemích obecně i specifický výzkum spisů prvního prezidenta naší republiky a jejich kritické vydávání. Sekce zahrnuje 6 ústavů s přibližně 410 zaměstnanci, z nichž je asi 240 vědeckých pracovníků s vysokoškolským vzděláním.