
來源:DeepMind
一個 " 蛋白質(zhì)宇宙 " 誕生了。2021 年 7 月剛推出之際,AlphaFold 數(shù)據(jù)庫擁有 35 萬個蛋白質(zhì)預(yù)測結(jié)構(gòu),如今這個數(shù)據(jù)達(dá)到了 2.14 億個,庫容翻了 610 倍。
記者 | 孫滔
審校 | clefable
7 月 28 日,DeepMind 公布的這個蛋白質(zhì)數(shù)據(jù)庫已經(jīng)囊括了幾乎所有地球生物物種,包括動物、植物、細(xì)菌、真菌等等,據(jù)《自然》官網(wǎng)報道,DeepMind 的合作方、歐洲分子生物學(xué)實驗室的歐洲生物信息學(xué)研究所 (EMBL-EBI)稱,在超過 2.14 億個預(yù)測結(jié)構(gòu)中,約 35% 與實驗確定的蛋白質(zhì)結(jié)構(gòu)一樣高度準(zhǔn)確,另外 45% 的預(yù)測結(jié)構(gòu)也到達(dá)了很高的可信度,能用于后續(xù)多種研究和應(yīng)用。
從建立之初,這個數(shù)據(jù)庫就是免費開放的,如今已成為科學(xué)家的必備工具。據(jù) EMBL-EBI 數(shù)據(jù),迄今已有超過 1000 篇科學(xué)論文引用了 AlphaFold 數(shù)據(jù)庫,來自 190 個國家的 50 多萬名研究人員訪問過該數(shù)據(jù)庫,查看了超過 200 萬個蛋白質(zhì)結(jié)構(gòu)。目前,DeepMind 測定的這些蛋白質(zhì)結(jié)構(gòu)也被整合到其他的公共數(shù)據(jù)庫中,將為數(shù)百萬研究人員的日常工作提供參考。

相比于 1 年前,AlphaFold 數(shù)據(jù)庫中的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)量增加了 600 多倍,涵蓋了物種也達(dá)到了 100 萬種(圖片來源:DeepMind)
AlphaFold 數(shù)據(jù)庫就是蛋白質(zhì)結(jié)構(gòu)的 " 谷歌搜索 ",要認(rèn)識某個蛋白質(zhì)結(jié)構(gòu)只需在數(shù)據(jù)庫搜索可立即獲得結(jié)果,這可以讓科學(xué)家能夠集中精力加快實驗研究。按照 DeepMind 創(chuàng)始人、首席執(zhí)行官德米斯 · 哈薩比斯(Demis Hassabis)的看法,這是迄今為止人工智能系統(tǒng)在推進(jìn)科學(xué)發(fā)展中做出的最大貢獻(xiàn)。他在 DeepMind 的官方博客中稱,從抗擊疾病到開發(fā)疫苗,AlphaFold 已經(jīng)取得了令人難以置信的進(jìn)展,而這只是開始。
2 億個數(shù)據(jù)有什么用
從科研人員對該數(shù)據(jù)庫的熱情就可以想見其對科學(xué)研究的價值,僅 DeepMind 在《自然》雜志上發(fā)表的 2 篇論文已被引用超過 4000 次。可以說,AlphaFold 實現(xiàn)了 AI 在生命科學(xué)領(lǐng)域的雄心。斯克利普斯研究所創(chuàng)始人埃里克 · 托普(Eric Topol)的看法是,AlphaFold 是 AI 在生命科學(xué)領(lǐng)域取得的唯一的重大進(jìn)展,以前確定一個蛋白質(zhì)的三維結(jié)構(gòu)需要數(shù)月或數(shù)年,現(xiàn)在只需要幾秒鐘。
托普說,AlphaFold 已經(jīng)加速并促成大規(guī)模的蛋白質(zhì)結(jié)構(gòu)被破解,包括核孔復(fù)合體的結(jié)構(gòu)," 我們可以期待每天都有更多的生物之謎被揭示 "。事實上,按照哈薩比斯的說法,這個數(shù)據(jù)庫的價值可以覆蓋從了解疾病到保護(hù)蜜蜂,從解決生物學(xué)難題到深入研究生命起源本身,對解決一些重要的問題,例如可持續(xù)發(fā)展、燃料問題、糧食不安全和被忽視的疾病等,都將產(chǎn)生重大的影響。
該數(shù)據(jù)庫已經(jīng)在瘧疾的治療中發(fā)力了。今年 5 月,牛津大學(xué)的生物化學(xué)教授馬修 · 希金斯(Matthew Higgins,從事瘧疾研究)領(lǐng)導(dǎo)的研究團(tuán)隊宣布,他們已經(jīng)使用 AlphaFold 幫助確定了一種來自瘧原蟲的關(guān)鍵蛋白質(zhì)的結(jié)構(gòu),并找出能阻止瘧原蟲傳播的抗體可能結(jié)合的位置。
希金斯在接受外媒采訪時稱,他們之前采用蛋白質(zhì)晶體學(xué)技術(shù)來計算這種分子結(jié)構(gòu),但多年來一直沒有取得突破,因這種蛋白質(zhì)的結(jié)構(gòu)動態(tài)性強并且會到處移動,而在將 AlphaFold 預(yù)測的結(jié)構(gòu)模型與實驗數(shù)據(jù)結(jié)合后,他們順利地解決了這一難題。他們準(zhǔn)備將最新的研究成功用于設(shè)計優(yōu)化的疫苗,以誘導(dǎo)感染者產(chǎn)生最有效的、能阻斷瘧疾傳播的抗體。

目前借助于 AlphaFold,已經(jīng)發(fā)表的蛋白質(zhì)結(jié)構(gòu)(圖片來源:DeepMind)
而環(huán)境研究,也會因為這一數(shù)據(jù)庫而受益。據(jù)外媒,英國樸茨茅斯大學(xué)的結(jié)構(gòu)生物學(xué)教授兼酶創(chuàng)新中心(CEI)的主任約翰 · 麥吉漢(John McGeehan)正在使用 AlphaFold 來識別自然界中的酶的結(jié)構(gòu),以期找到能消化和回收塑料的酶。他們已經(jīng)發(fā)現(xiàn)了從未見過的三維的蛋白質(zhì)結(jié)構(gòu)具有分解塑料的功能。
DeepMind 表示,該公司在與其他機構(gòu)和組織合作時,會優(yōu)先考慮最富社會效益的項目。他們與被忽略疾病藥物研發(fā)組織(DNDI)合作,幫助推進(jìn)利什曼原蟲病(Leishmaniasis)、南美錐蟲病等嚴(yán)重影響貧困地區(qū)的疾病的治療,以及對世界衛(wèi)生組織(WHO)列為優(yōu)先研究項目中的關(guān)鍵蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測,包括麻風(fēng)病和血吸蟲病等。
從量變到質(zhì)變
如果把 AlphaFold 看作一個人,它大概會是成長飛速的天才少年。
DeepMind 隸屬于谷歌的母公司 Alphabet,擊敗了傳奇圍棋選手李世石的 AlphaGo 亦為其旗下產(chǎn)品。2016 年,擊敗李世石后不久,DeepMind 成立了針對 " 蛋白質(zhì)折疊問題 " 的研究團(tuán)隊。到 2018 年,DeepMind 首次公開了 AlphaFold 的預(yù)測結(jié)果,其成果發(fā)表在《自然》上。
2020 年 11 月 30 日,AlphaFold2 以巨大優(yōu)勢在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP)中一舉奪魁,其預(yù)測的蛋白質(zhì)結(jié)構(gòu)已達(dá)到原子精度,可與實驗測得的結(jié)構(gòu)相媲美。要知道,多年來,科學(xué)家只能通過核磁共振、X 射線和冷凍電鏡技術(shù)來確定蛋白質(zhì)的結(jié)構(gòu)。他們需要為了一個蛋白質(zhì)結(jié)構(gòu)反復(fù)試驗,其間花費了數(shù)年時間和巨額費用。2005 年,《科學(xué)》雜志在創(chuàng)刊 125 周年之際將預(yù)測蛋白質(zhì)結(jié)構(gòu)列為 125 個最具挑戰(zhàn)性的科學(xué)問題之一。因此,AlphaFold 的這次勝利被視為解決了 50 年來生物學(xué)領(lǐng)域的一個重大挑戰(zhàn)。

在中等難度的蛋白結(jié)構(gòu)預(yù)測中,AlphaFold 連續(xù)兩年奪冠,今年更是取得了將近 90 分的 GDT 成績。來源:DeepMind
到了 2021 年,DeepMind 決定把 AlphaFold 的力量交到世界手中,于是在當(dāng)年的 7 月 15 日在《自然》上開源了 AlphaFold 的代碼以及 60 頁的詳細(xì)補充信息。
就在 1 周后,DeepMind 在《自然》上又發(fā)表了對整個人類蛋白質(zhì)組的結(jié)構(gòu)預(yù)測結(jié)果,且使當(dāng)時已知的高置信度蛋白質(zhì)結(jié)構(gòu)的數(shù)量增加了一倍。與此同時,DeepMind 還聯(lián)合 EMBL-EBI 推出了 AlphaFold 數(shù)據(jù)庫,其中囊括了人類蛋白質(zhì)組以及另外 20 種模式生物體內(nèi)超過 35 萬個蛋白質(zhì)結(jié)構(gòu)。
而又于 11 月,DeepMind 又更新了 AlphaFold2 的源代碼,以解讀多鏈蛋白質(zhì)復(fù)合物,這顯著提高了預(yù)測蛋白質(zhì)之間相互作用的準(zhǔn)確性。2022 年,AlphaFold 數(shù)據(jù)庫迎來了庫容的數(shù)量級增長。這個 " 蛋白質(zhì)宇宙 " 就擁有了獨一無二的強大力量。
更高的期待
當(dāng)然這個數(shù)據(jù)庫并非萬能,科學(xué)家有更高的期待。
倫敦帝國理工學(xué)院教授基思 · 威爾遜(Keith Willison)稱,AlphaFold 在蛋白質(zhì)折疊方面仍有問題需要解決。AlphaFold 只能基于已知實驗數(shù)據(jù)進(jìn)行預(yù)測,但對于無法折疊成穩(wěn)定 3D 結(jié)構(gòu)的蛋白質(zhì)就無能為力了,這些蛋白質(zhì)通常具有不穩(wěn)定和不可預(yù)測的折疊模式。
伊利諾伊大學(xué)厄巴納 - 香檳分校計算生物學(xué)家彭健稱,AlphaFold 可以幫助科學(xué)家重新評估以前的研究,以更好地了解疾病是如何發(fā)生的。不過他提示說,對于具有相關(guān)信息但認(rèn)識不足的罕見蛋白質(zhì),AlphaFold 的預(yù)測質(zhì)量也可能不那么高了。
哥倫比亞大學(xué)系統(tǒng)生物學(xué)家穆罕默德 · 庫萊希(Mohammed AlQuraishi)在接受據(jù)《麻省理工科技評論》采訪時稱,許多蛋白質(zhì)會受基因突變和自然等位基因的影響,但它們的結(jié)構(gòu)會如何改變,這個數(shù)據(jù)庫不會解決。他說," 希望能準(zhǔn)確模擬蛋白質(zhì)突變體的工具很快會出現(xiàn) "。
庫萊希等人參與創(chuàng)辦了非營利性人工智能研究聯(lián)盟 OpenFold,他們在 AlphaFold 數(shù)據(jù)庫基礎(chǔ)上做了進(jìn)一步改造。2022 年 6 月 28 日,OpenFold 發(fā)布了其開發(fā)的第一個能預(yù)測蛋白質(zhì)結(jié)構(gòu)的 AI 模型,該模型是基于谷歌 DeepMind 和華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所的工作而開發(fā)的。OpenFold 內(nèi)部評價是,該模型比 AlphaFold2 平均精度更高,運行時間更快。
不過,山東大學(xué)數(shù)學(xué)與交叉科學(xué)研究中心教授楊建益(從事蛋白質(zhì)結(jié)構(gòu)預(yù)測)告訴《環(huán)球科學(xué)》,AlphaFold2 已經(jīng)很好用了,部署也很簡單,對硬件要求并不高,有圖形處理器(GPU)就夠,很多公司和高校都在用,速度還很快。他說," 我個人并不太看好 OpenFold,復(fù)現(xiàn) AlphaFold2 的訓(xùn)練過程意義并不大,我自己也測試過 OpenFold,它的性能并不如 AlphaFold2。"
封面圖為蛋白質(zhì) Pfs48/45,它是瘧原蟲體內(nèi)的一種關(guān)鍵蛋白質(zhì)。科學(xué)家利用 AlphaFold 破解了其三維結(jié)構(gòu),推動了相關(guān)抗體的研發(fā)。來源:DeepMind
原文地址:http://www.myzaker.com/article/62e3f76a8e9f0938f45fb30d
轉(zhuǎn)載請注明:重大突破!AI破解幾乎所有蛋白質(zhì)結(jié)構(gòu),兩億個全新數(shù)據(jù)將帶來什么 | 快導(dǎo)航網(wǎng)