Hogyan építettük meg az AlphaFold 3-at, hogy minden életmolekula szerkezetét és kölcsönhatását megjósoljuk


AlphaFold 3: A Molekuláris Világ Google Maps-e

2020-as indulása óta több mint 2 millió kutató használta a Google DeepMind AlphaFold 2 modelljét a fehérje predikciókhoz vakcina fejlesztés, rákkezelések és más területeken – segítve egy több mint 50 éve fennálló probléma megoldását. Miután a tudósok százmillió struktúra predikcióját végezték el, a csapat könnyen pihenhetett volna a babérjain. Ehelyett elkezdték az AlphaFold 3 fejlesztését.

Az újabb modell, amelyet a Google DeepMind és az Isomorphic Labs csapatai indítottak útjára májusban, nem csak a fehérjék felépítését, hanem az élet minden molekulájának, beleértve a DNS-t, RNS-t és ligandokat (kismolekulák, amelyek fehérjékhez kötődnek), struktúráját és kölcsönhatásait is prediktálja.

„Az AlphaFold 2-vel hatalmas előrelépést tettünk a fehérje felépítésének évtizedek óta nyitott problémájában, de ha a legújabb kutatásokat nézzük, a kutatók már túlmutatnak ezen,” mondja Jonas Adler, a Google DeepMind kutatója. „Következtetéseik gyakran részletesebbek voltak, mint például a kismolekulák vagy az RNS kötődése, amit az AlphaFold 2 nem tudott megoldani. Az új modellnek minden biomolekulát le kellett fednie.”

Az AlphaFold 3 további molekuláris típusok bevonása nagyságrendekkel több lehetséges kombinációt eredményezett. „A fehérjék nagyon rendezettek. Például csak 20 standard aminosav van,” mondja Jonas. „Ezzel szemben a kismolekulák térben végtelenül sokfélék lehetnek – gyakorlatilag bármit megtehetnek.”

Az AlphaFold Server lehetővé teszi a kutatók számára az AlphaFold 3 elérését. Az összes képességgel rendelkező adatbázis létrehozása lehetetlen lett volna, így ehelyett elindítottuk az AlphaFold Server-t, egy ingyenes eszközt, amely lehetővé teszi a tudósok számára, hogy saját szekvenciáikat adják meg, amelyekre az AlphaFold molekuláris komplexeket generál.

„Olyan, mint a Google Maps a molekuláris komplexekhez,” mondja Lindsay Willmore, a Google DeepMind kutatómérnöke. „Bármely felhasználó, aki nem tud kódolni, egyszerűen beilleszti fehérjéi, DNS-e, RNS-e szekvenciáit vagy kismolekulák nevét, megnyom egy gombot és pár perc várakozás után megkapja a struktúrát és a bizalmi mérőszámokat.”

Ahhoz, hogy az AlphaFold 3 működjön ezzel a szélesebb biomolekuláris tartománnyal, a csapat jelentősen kibővítette az újabb modell tréningadatbázisát DNS, RNS, kismolekulák és egyebek bevonásával. „Azt mondtuk, ‘Trenírozzunk mindenen, ami ebben az adathalmazban van, és nézzük meg, meddig juthatunk,’” mondja Lindsay. „És kiderült, hogy elég messzire juthatunk.”

Az AlphaFold 3 másik jelentős változása a modell végső részének architektúrájában történt, amely a struktúrát generálja. Az AlphaFold 2 komplex geometria-alapú moduljától eltérően az AlphaFold 3 egy diffúzió-alapú generatív modellt használ, ami nagyban leegyszerűsítette a modell kezelését az új molekulatípusokkal.

Ez azonban új problémát eredményezett: Mivel az úgynevezett „rendezetlen régiók” nem szerepeltek a tréningadatokban, a diffúziós modell pontatlan „rendezett” struktúrát próbált létrehozni spirális formával. Így a csapat az AlphaFold 2-re támaszkodott, amely már nagyon jó volt annak előrejelzésében, hogy mely interakciók lesznek rendezetlenek és melyek nem.

„Van egy mondásunk: ‘Bízz a fusilliben, utasítsd el a spagettit,’” teszi hozzá Jonas. Egy példa az AlphaFold 3 predikciójára, ahol a rendezett „fusilli” régiók kékek, a rendezetlen „spagetti” régiók pedig narancssárgák. A színek a modell előrejelzésének bizalmi szintjét jelzik.

A csapat izgatottan várja, hogy lássa, hogyan fogják a kutatók felhasználni az AlphaFold 3-at a genomi kutatás, gyógyszertervezés és más területek előmozdítására. „Hihetetlen látni, mennyi előrelépést tettünk,” mondja Jonas. „Ami korábban nagyon nehéz volt, az most már könnyűvé vált. Ami korábban lehetetlen volt, az most lehetséges – és még mindig vannak nagyon nehéz problémák, amelyeket meg kell oldanunk, de izgatottak vagyunk az AlphaFold 3 potenciálját illetően.”

Érdekesség: Az AlphaFold 2 modellt az AI-tudósok már több mint 500 000 tudományos cikkben idézték.

Források: Google DeepMind, Isomorphic Labs, Chaim Gartenberg