A rozbor jeho „slov“ a „gramatiky“ by mohl vést k lepším vakcínám proti covid-19
Od začátku roku 2020 jsme toho o RNA slyšeli strašně moc. Za prvé, RNA koronavirus vytvořil globální pandemii a zastavil svět. Vědci rychle sekvenovali genetický kód nového koronaviru a odhalili, že jde o jeden řetězec RNA, který je složený a nachází se zkroucený uvnitř lipidového obalu viru. Pak RNA vakcíny uvedly svět zpět do pohybu. První dvě vakcíny proti covid-19, které byly široce schváleny pro nouzové použití, a to od Pfizer-BioNTech a Moderny, obsahovaly úseky RNA koronaviru, které naučily lidské tělo, jak se s virem vypořádat. Ale je toho mnohem víc, co potřebujeme vědět o RNA. Ta je typicky jednovláknová (1 šroubovice), což znamená, že je ze své podstaty je méně stabilní než DNA, dvouvláknová molekula (2 šroubovice), která kóduje lidský genom, a je náchylnější k mutacím. Viděli jsme, jak koronavirus mutuje a dává vzniknout nebezpečným novým variantám. Musíme být proto připraveni na nové vakcíny a přeočkování, které budou přesně přizpůsobeny novým hrozbám. A potřebujeme RNA vakcíny, které jsou stabilnější a robustnější a nevyžadují extrémně nízké teploty pro přepravu a skladování. Proto nikdy nebylo důležitější porozumět složité struktuře RNA a osvojit si schopnost navrhnout sekvence RNA, které slouží našim účelům. Vědci tradičně používali k rozebrání struktury RNA techniky z výpočetní biologie. Ale není to jediný, a dokonce ani nejlepší, způsob, jak na to.
Práce v mé skupině v centru Baidu Research USA a Oregonské státní univerzitě ukázala, že použití algoritmů původně vyvinutých pro zpracování přirozeného jazyka (NLP) – které počítačům pomáhají analyzovat lidský jazyk – může výrazně urychlit předpovědi skládání RNA a návrh sekvencí RNA pro vakcíny. Oblasti NLP (také známé jako počítačová lingvistika) a výpočetní biologie se mohou zdát velmi odlišné, ale z matematického hlediska jsou si docela podobné. Věta se skládá ze slov, která tvoří posloupnost (větu). Nad touto posloupností je struktura, syntaktický strom, který zahrnuje podstatná jména a slovesné fráze. Tyto dvě složky – sekvence a struktura – spolu dávají smysl. Podobně je řetězec RNA tvořen sekvencí nukleotidů a nad touto sekvencí je sekundární struktura toho, jak je řetězec složen. V angličtině můžete mít dvě slova, která jsou ve větě vzdálená, ale z hlediska gramatiky úzce propojená. Podobně v RNA můžete mít dva nukleotidy, které jsou v sekvenci daleko od sebe, ale blízko u sebe ve složené struktuře. Moje laboratoř využila této podobnosti k přizpůsobení nástrojů NLP naléhavým potřebám naší doby. A spojením sil s výzkumníky v oblasti výpočetní biologie a designu léků jsme byli schopni identifikovat slibné nové kandidáty na vakcíny RNA proti covid-19 v neuvěřitelně krátké době. Nedávné pokroky mé laboratoře ve skládání RNA staví přímo na technice zpracování přirozeného jazyka, kterou jsem propagoval, nazvanou inkrementální analýza. Lidé neustále používají inkrementální analýzu: Když čtete tuto větu, vytváříte si její význam ve své mysli, aniž byste čekali, až dosáhnete tečky. Ale po mnoho let počítače provádějící podobný úkol s porozuměním nepoužívaly inkrementální analýzu. Problém byl v tom, že jazyk je plný nejednoznačností, které mohou zmást programy NLP. Jak se věta prodlužuje, počet možných významů se násobí. To je důvod, proč klasické algoritmy analýzy NLP nebyly lineární – to znamená, že doba, kterou potřebovali k pochopení věty, se neškálovala lineárně s délkou věty.
Místo toho se doba porozumění kubicky škálovala s délkou věty, takže pokud zdvojnásobíte délku věty, její analýza trvala 8x déle. Naštěstí většina vět není příliš dlouhá. Takže zatímco kubický čas věci zpomaloval, nevytvářel neřešitelné problémy pro klasické algoritmy analýzy NLP. Když jsem v roce 2010 vyvinul inkrementální analýzu, byla uznána jako pokrok, ale ne jako změna hry. Pokud jde o RNA, ale délka je obrovský problém. Sekvence RNA mohou být neuvěřitelně dlouhé: genom koronaviru obsahuje asi 30 000 nukleotidů, což z něj dělá nejdelší RNA virus, jaký známe. Klasické techniky pro predikci skládání RNA, které jsou téměř totožné s klasickými algoritmy analýzy NLP, byly také ovládány krychlovým časem, což činilo předpovědi ve velkém měřítku nepraktickými.
Oblasti zpracování přirozeného jazyka a výpočetní biologie se mohou zdát velmi odlišné, ale matematicky vzato jsou si dost podobné.
Koncem roku 2015 mě náhodný rozhovor s kolegou z oddělení biofyziky státu Oregon přiměl povšimnout si podobností mezi dilematy v NLP a RNA. Tehdy jsem si uvědomil, že inkrementální analýza by mohla mít mnohem větší dopad na počítačovou biologii, než měla v mém původním oboru. Staromódní technika NLP pro analýzu vět byla „zdola nahoru“, což znamenalo, že program pro analýzu nejprve hledal dvojice po sobě jdoucích slov ve větě, pak trojice po sobě jdoucích slov, pak čtveřice atd., dokud nezhodnotil celou větu. Můj inkrementální analyzátor se vypořádal s nejednoznačnostmi jazyka skenováním zleva doprava po větě a konstruoval pro ni mnoho možných významů tak, jak je. Když došel na konec věty, vybral si význam, který považoval za nejpravděpodobnější. S touto technikou se čas potřebný pro analýzu lineárně přizpůsobil délce věty. Jedním z významných rozdílů mezi lingvistikou a biologií je množství významu obsaženého v každé části sekvence. Každé anglické slovo nese spoustu významů; dokonce i jednoduché slovo jako „the“ signalizuje příchod podstatného jména. A celkově existuje mnoho různých slov. Řetězce RNA oproti tomu obsahují pouze 4 nukleotidy (adenin, cytosin, guanin a uracil), přičemž každý nukleotid sám o sobě nese jen málo informací. Proto je předpovídání struktury RNA z její sekvence už dlouhou dobu obrovskou výzvou v bioinformatice. Moji spolupracovníci a já jsme použili princip inkrementálního parsování (syntaktická analýza) k vývoji algoritmu LinearFold pro predikci struktury RNA, který hodnotí mnoho možných struktur paralelně přitom, jak skenuje sekvenci RNA nukleotidů. Protože v dlouhé sekvenci RNA je mnohem více možných sekundárních struktur, než je ve větě, algoritmus zvažuje miliardy alternativ pro každou sekvenci. V roce 2019, před začátkem pandemie, jsme publikovali článek o LinearFold, o kterém jsme s hrdostí informovali, že je (a stále je) nejrychlejším algoritmem na světě pro předpovídání sekundární struktury RNA. V lednu 2020, kdy se v Číně vynořil covid-19, jsme začali usilovně přemýšlet o tom, jak aplikovat naši práci na současný nejpalčivější problém světa. Následující měsíc jsme testovali algoritmus pomocí analýzy viru SARS-CoV-2, který způsobuje covid-19. Zatímco standardním metodám výpočetní biologie trvalo identifikovat strukturu 55 minut, LinearFold tuto práci zvládl za pouhých 27 sekund. Vybudovali jsme webový server, aby byl algoritmus volně přístupný vědcům studujícím virus nebo pracujícím na pandemické reakci. Ale ještě jsme neskončili.
Pochopení toho, jak se virus SARS-CoV-2 skládá, je užitečné pro základní vědecký výzkum. Ale když pandemie začala pustošit svět, cítili jsme se povoláni pomoci příměji. Oslovil jsem svého přítele Rhiju Dase, docenta biochemie na lékařské fakultě Stanfordské univerzity a dlouholetého uživatele LinearFold. Rhiju Das se specializuje na počítačové modelování a design molekul RNA a vytvořil populární hru Eterna, která shromažďuje neřešitelné problémy se složením RNA 250 000 a předkládá je online hráčům. Ve výzvách ve hře Eterna je hráčům předložena požadovaná struktura RNA a jsou požádáni, aby našli sekvence, které se skládají do tohoto tvaru. Hráči pracovali na sekvencích RNA pro diagnostické zařízení pro tuberkulózu a pro úpravu genu CRISPR. Rhiju Das už používal LinearFold k urychlení zpracování návrhů hráčů. V reakci na pandemii se rozhodl spustit novou výzvu Eterna nazvanou OpenVaccine, v níž žádá hráče, aby navrhli potenciální RNA vakcíny, které by byly stabilnější než stávající RNA vakcíny (RNA v těchto vakcínách je zvláštní typ nazývaný messenger RNA, zkráceně mRNA, ale pro jednoduchost je budu nazývat RNA vakcíny). Dnešní RNA vakcíny vyžadují extrémně nízké teploty během přepravy a skladování, aby zůstaly účinné, což vedlo k tomu, že po výpadku proudu musely být vakcíny vyřazeny a omezila se tak možnost jejich použití v horkých oblastech, kde chybí infrastruktura chladícího řetězce, jako je Indie, Afrika a Brazílie. Pokud by hráči Eterny dokázali navrhnout robustnější a stabilnější vakcínu, mohlo by to být přínosem pro mnoho částí světa. Výzva OpenVaccine opět použila k urychlení zpracování LinearFold, ale zajímalo mě, zda by bylo možné vyvinout algoritmus, který by toho dokázal více: který by přímo navrhoval struktury RNA. Rhiju Das se domnívá, že je to běh na dlouhou trať, ale musel jsem pracovat na algoritmu, který jsem nazval LinearDesign.
RNA vakcíny proti covid-19 fungují, protože obsahují úsek RNA z koronaviru – obvykle fragment, který kóduje produkci spike proteinu, části viru, která se připojí k lidským buňkám, aby virus získal přístup do těla. Protože tyto vakcíny kódují pouze jeden protein a ne celý virus, nepředstavují žádné riziko infekce. Ale když lidské buňky začnou produkovat spike protein, spustí imunitní reakci, která zajistí, že imunitní systém bude připraven, až bude vystaven skutečnému viru. Výzvou pro hráče Eterny tedy bylo navrhnout stabilnější úseky RNA, které by stále kódovaly spike protein. Jak jsem řekl, RNA se skládá sama do sebe, páruje některé komplementární nukleotidy za vzniku dvouvláknových (2 šroubovice) oblastí a nespárované oblasti zůstávají jednovláknové (1 šroubovice). Dvouvláknové části jsou ze své podstaty stabilnější než jednovláknové oblasti a je méně pravděpodobné, že se rozpadnou uvnitř buněk. Moderna, jeden z tvůrců současných předních RNA vakcín, publikoval v roce 2019 článek, v němž uvedl, že stabilnější sekundární struktura vedla k delším vláknům RNA, a tím k větší produkci proteinů, a tedy i k potenciálně účinnější vakcíně. Od té doby ale bylo vykonáno relativně málo práce na navrhování stabilnějších sekvencí RNA pro vakcíny. Jak se pandemie rozšířila, zdálo se jasné, že optimalizace RNA vakcín pro dosažení větší stability by mohla mít obrovské výhody, takže právě toho se hráči OpenVaccine rozhodli dosáhnout.
Pokud by hráči Eterny dokázali navrhnout robustnější a stabilnější vakcínu, mohlo by to být přínosem pro mnoho částí světa.
Kvůli některým základním biologickým faktorům to byla obrovská výzva. Spike protein u koronaviru se skládá z více než 1000 aminokyselin a většina aminokyselin může být kódována více kodony. Aminokyselina glycin je kódována 4 různými kodony (GGU, GGC, GGA a GGG), aminokyselina leucin je kódována 6 různými kodony a tak dále. Kvůli této redundanci existuje závratný počet možných sekvencí RNA, které kódují spike protein – asi 2,4 x 10^632! Jinými slovy, vakcína proti covid-19 má zhruba 2,4 x 10^632 kandidátů. Pro srovnání, ve vesmíru je jen asi 10^80 atomů. Pokud by hráči OpenVaccine zvažovali každou sekundu jednoho kandidáta, trvalo by déle než životnost vesmíru, než by se všemi prokousali. Pokaždé, když hráč OpenVaccine změnil kodon na RNA vakcíně, kterou budovali, LinearFold vypočítal jak strukturu této sekvence, tak i to, kolik „volné energie“ měla, což je měřítko stability (nižší energie znamená stabilnější). Každý výpočet trval asi 3 nebo 4 sekund. Hráči přišli s řadou zajímavých kandidátů, z nichž několik desítek bylo syntetizováno v laboratořích pro testování. Bylo však jasné, že zkoumají jen malý počet možných kandidátů. Algoritmus LinearDesign, který moje skupina dokončila a vydala v dubnu 2020, přichází se sekvencemi RNA, které jsou optimalizovány pro stabilitu a které se spoléhají na nejpoužívanější kodony v těle, což vede k efektivnější produkci bílkovin. Stejně jako u LinearFold jsme veřejně zpřístupnili nástroj LinearDesign. Dnes hráči OpenVaccine standardně používají LinearDesign jako výchozí bod pro zkoumání kandidátů na vakcínu, což jim dává rychlý start při hledání nejstabilnějších sekvencí. Pomocí LinearDesign mohou rychle vytvořit stabilní struktury a poté vyzkoušet jemné změny. Můj tým také použil LinearDesign k výrobě kandidátů na vakcíny a spolupracujeme se 6 farmaceutickými společnostmi v USA, Evropě a Číně, které vyvíjejí vakcíny proti covid-19. Do jedné z těchto společností, StemiRNA ze Šanghaje, jsme loni poslali 7 z našich nejslibnějších kandidátů na vakcínu proti covid-19. U těch je nejen potvrzeno, že jsou stabilnější, ale také již byli testováni na myších, se skvělým výsledkem podstatně vyšších imunitních odpovědí než ze standardního benchmarku. To znamená, že při stejné dávce poskytují naše vakcíny mnohem lepší ochranu před virem, přičemž k dosažení stejné úrovně ochrany byla u myší vyžadována mnohem menší dávka, což vedlo k méně vedlejším účinkům. Náš algoritmus lze také použít k navrhování lepších RNA vakcín pro jiné typy infekčních onemocnění a mohl by být dokonce použit k vývoji vakcín proti rakovině a genových terapií.
Přál bych si, aby se tato práce na analýze a navrhování sekvencí RNA nikdy nestala tak zásadní pro svět. Ale vzhledem k tomu, jak rozšířený a smrtící virus SARS-CoV-2 je, jsem vděčný, že mohu přispět nástroji a nápady, které nám mohou pomoci porozumět viru – a zvládnout jej.
Autor článku Liang Huang je významný vědecký pracovník v Baidu Research USA a docent počítačové vědy na Oregonské státní univerzitě. Je počítačový lingvista a počítačový biolog, který je fascinován matematickými souvislostmi mezi těmito dvěma obory.