曹一允,蔡蘊明 合譯
於2024年十月九日
(歡迎轉載,但請引述本網址)
本文譯自諾貝爾化學獎委員會公佈給大眾的新聞稿,原文可自以下官方網站取得:
https://www.nobelprize.org/uploads/2024/10/popular-chemistryprize2024-3.pdf
若有興趣閱讀進階的原文資料,請由下列官方網址取得:
https://www.nobelprize.org/uploads/2024/10/advanced-chemistryprize2024.pdf
- *曹一允在美國德州農工大學Karen Wooley教授指導下取得博士,現於日本萊雅公司進行研究。
- *蔡蘊明現為台大化學系名譽教授。
- *感謝臺大化學系的蔡明軒幫忙將此文放上化學系的網頁,以及版面設計。
他們透過計算和人工智慧揭示了蛋白質的秘密
化學家長期以來一直夢想著完全理解和掌握生命的化學工具 — 蛋白質,這個夢想現在已經觸手可及。哈薩比斯 (Demis Hassabis)和強普 (John M. Jumper) 已成功利用人工智慧來預測幾乎所有已知蛋白質的結構。貝克 (David Baker) 學會如何掌握生命的建構組元,並創造全新的蛋白質。他們的發現,潛力巨大。
生命的旺盛化學反應怎可能存在?這個問題的答案就是蛋白質,而蛋白質可謂是絕妙的化學工具。它們通常由二十種胺基酸組成,能夠以無數種方式組合。以 DNA 中儲存的資訊為藍圖,胺基酸在我們的細胞中連接在一起形成長串。
接著蛋白質的魔力發生了:一串胺基酸扭曲並折疊成一種明確的 — 有時是獨特的 — 三維結構(圖 1),而這種結構賦予了蛋白質功能。有些成為可以制造肌肉、角或羽毛的化學建構組元,而有些則可能成為荷爾蒙或抗體。其中許多會形成酶,以驚人的精確度驅動生命的化學反應。位於細胞表面的蛋白質也很重要,它們充當細胞之間或其與周圍環境之間的溝通管道。
這二十種胺基酸是生命的化學建構組元,其潛力怎麼強調都不為過,2024 年諾貝爾化學獎,是有關如何讓人們在全新的水平上理解和掌握它們。一半的獎金授予了 哈薩比斯 和強普,他們利用人工智慧成功解決了化學家五十多年來一直困擾的問題:根據胺基酸序列預測蛋白質的三維結構,這使得他們能夠預測幾乎所有兩億種已知蛋白質的結構。獎金的另一半則頒給貝克,他開發了電腦化的方法來實現許多人認為不可能的事情:創造以前不存在的蛋白質,並且在許多例子中具有全新的功能。
2024 年諾貝爾化學獎表彰了兩項不同的發現,但正如您將看到的,它們密切相關。為了瞭解今年的獲獎者所克服的挑戰,我們必須回溯至現代生物化學的黎明時刻。
第一張蛋白質的顆粒狀圖片
自十九世紀起,化學家就知道蛋白質對於生命程序很重要,但直到 1950 年代,研究人員才開始具有足夠精確的化學工具,能開始更詳細地探索蛋白質。劍橋研究人員 John Kendrew 和 Max Perutz 在那50年代末,取得了突破性的發現,他們成功地使用一種稱為 X-射線晶體學的方法,提出了第一個蛋白質的三維模型。為了表彰這項發現,他們於 1962 年獲得了諾貝爾化學獎。
隨後,研究人員主要使用 X-射線晶體學 — 通常經過極大的努力 — 成功得到約二十萬種不同蛋白質的圖像,這為 2024 年諾貝爾化學獎奠定了基礎。
一個謎題:蛋白質如何找到其獨特的結構?
美國科學家 Christian Anfinsen 還有另一個早期的發現,他利用各種化學技巧,成功地使一個蛋白質將其折疊結構展開,然後重新折疊回去。有趣的觀察是,蛋白質每次都回復成完全相同的形狀。1961年,他得出結論:蛋白質的三維結構完全由蛋白質中的胺基酸序列決定,這使他於 1972 年榮獲諾貝爾化學獎。
然而,Anfinsen 的邏輯中存在一個悖論,另一位美國學者 Cyrus Levinthal 在1969年指出,他計算出即使蛋白質僅由100個胺基酸組成,該蛋白質理論上將可以呈現至少 1047 種不同的三維結構。如果這串胺基酸鏈是隨機折疊,則需要花比宇宙年齡更長的時間,才能找到正確的蛋白質結構。在細胞中,那只需要幾毫秒。那麼這串胺基酸實際上是如何折疊起來的呢?
Anfinsen 的發現和 Levinthal 的悖論暗示折疊是一個預定的過程,而且 — 很重要的 — 有關蛋白質如何折疊的所有資訊,都必須存在於胺基酸序列中。
迎向生物化學的巨大挑戰
上述見解導致了另一個決定性的認知 — 如果化學家知道蛋白質的胺基酸序列,他們就應該能夠預測蛋白質的三維結構。這是一個令人興奮的想法,如果成功了,他們將不再需要使用繁瑣的 X-射線晶體學,並且可以節省大量時間,此外還能夠得到 X-射線晶體學不適用的所有蛋白質的結構。
這些合乎邏輯的結論,讓他們迎向了生物化學面臨的巨大挑戰:如何預測結構。為了鼓勵該領域更快速的發展,研究人員於 1994 年啟動了一個名為「蛋白質結構預測技術的關鍵測試」(CASP) 的計畫,該計畫後來發展成為一項競賽。每隔一年,對來自世界各地的研究人員,給予一個結構剛剛確定的蛋白質之胺基酸序列,不過,這些結構對參與者保密,其挑戰就是根據這個已知的胺基酸序列,預測該蛋白質結構。
CASP 吸引了許多研究人員,但事實證明解決預測問題極為困難。研究人員在競賽中提出的預測與實際結構之間的一致性,幾乎沒有任何改善。一直到了2018 年,一位國際象棋大師、神經科學專家和人工智慧先驅進入了這個領域,才出現突破。
桌遊高手進入蛋白質奧林匹克
讓我們快速看看 哈薩比斯 的背景:他四歲開始下棋,十三歲達到大師水平。在他十幾歲的時候,開始了程式設計師的職業生涯,並成為成功的遊戲開發人員。他開始探索人工智慧以及研究神經科學,並取得了多項革命性的發現。他利用自己對大腦的了解,為人工智慧開發了更好的神經網路。2010 年,他與人共同創立了 DeepMind 公司,為流行的棋盤遊戲開發了精湛的人工智慧模型。該公司於 2014 年出售給谷歌,兩年後,DeepMind 引起了全球關注,因為它實現了當時許多人認定的人工智慧聖杯:擊敗了世界上最古老的棋盤遊戲之一:圍棋的冠軍玩家。
然而,對 哈薩比斯 來說,圍棋並不是目標,而是開發更好的 AI 模型的手段。這場勝利之後,他的團隊已經準備好解決對人類更重要的問題,因此在 2018 年,他報名參加了第十三屆 CASP 競賽。
哈薩比斯 的人工智慧模型意外獲勝
在過去那些年,參與CASP的研究人員所預測的蛋白質結構,其準確度最多只有 40%。透過哈薩比斯 團隊的 AI 模型 AlphaFold,達到了將近 60%,他們贏了。優異的成績讓很多人都大吃一驚 — 這是意想不到的進展,但其解決方法仍然不夠好。真正的成功,是要與目標結構相比,預測的準確度必須達到 90%。
哈薩比斯 和他的團隊繼續開發 AlphaFold,但是,無論他們如何努力,演算法從未完全成功。殘酷的事實是,他們已經走進了死胡同。團隊很疲憊,但一位相對較新進的員工,對如何改進人工智慧模型有了決定性的想法,這位員工就是:強普。
強普 接受了生物化學的巨大挑戰
強普 對宇宙的迷戀,促使他開始學習物理和數學。然而,2008 年,當他開始在一家使用超級電腦,模擬蛋白質及其動力學(dynamics)的公司工作時,他意識到物理知識可以用來幫助解決醫學問題。
2011 年,當 強普 開始攻讀理論物理博士學位時,他對蛋白質產生了新的興趣。為了節省電腦容量 — 大學裡緊缺的東西,他開始發展更簡單、更巧妙的方法來模擬蛋白質動力學。很快地,他也接受了生物化學的這項巨大挑戰。2017 年,當他剛完成博士學位時,聽到了一個傳言:谷歌的 DeepMind 已經開始秘密的預測蛋白質的結構,因此他向他們送出了一份工作申請。他在蛋白質模擬方面的經驗,意味著他對如何改善 AlphaFold 有創造性的想法,因此,在團隊開始停滯不前後,他得到了晉升,強普 和 哈薩比斯 共同領導了從根本上改革人工智慧模型的工作。
改革後的人工智慧模型取得了驚人的結果
新版本 — AlphaFold2 — 是根據 強普 對蛋白質的瞭解而修改的,該團隊也開始使用最近人工智慧巨大突破背後的創新:稱為 Transformer 的神經網路。這些可用比以前更靈活的方式,在大量數據中找到模式,並有效地決定應該如何聚焦以實現特定目標。
團隊利用資料庫中,所有已知蛋白質結構和胺基酸序列的大量資訊,對 AlphaFold2 進行了訓練(圖 2),新的 AI 架構開始為第十四屆 CASP 競賽及時提供了良好的結果。
2020 年,當 CASP 的舉辦者評估結果時,體認到生物化學長達 50 年的挑戰已經結束。在大多數情況下,AlphaFold2 的表現幾乎與 X-射線晶體學一樣好,這令人震驚。當 CASP 創辦人之一 John Moult 於 2020 年 12 月 4 日比賽結束時,他問道:現在接下來該做什麼?
我們將回到這一點。現在我們要回到過去,看一下 CASP 的另一位參與者。讓我們介紹 2024 年諾貝爾化學獎的另一半,它涉及從頭開始創造新蛋白質的藝術。
一本關於細胞的教科書讓 貝克 改變了方向
當 貝克 開始在哈佛大學學習時,他選擇了哲學和社會科學。然而,在演化生物學課程中,他偶然發現了現在經典之教科書《細胞分子生物學》的第一版,這導致他改變了人生的方向。他開始探索細胞生物學,最終對蛋白質結構著迷。1993 年,當他開始領導一個西雅圖華盛頓大學的研究小組時,他接受了那個生物化學領域的巨大挑戰。透過巧妙的實驗,他開始探索蛋白質如何折疊。當他在 1990 年代末開始開發可以預測蛋白質結構的電腦軟體:Rosetta 時,那些實驗為他提供了深入的見解。
貝克 在 1998 年使用 Rosetta 首次參加 CASP 比賽,與其他參賽者相比,表現非常好。這一成功引發了一個新想法 — 貝克 的團隊可以反向使用該軟體。原先是在 Rosetta 中輸入胺基酸序列並得出蛋白質結構,但他們應該能夠反向輸入所需的蛋白質結構,並獲得有關其胺基酸序列的建議,這將使他們能夠創造出全新的蛋白質。
貝克 成為蛋白質構建者
蛋白質設計領域 — 研究人員創造具有新功能的客製化蛋白質 — 於 1990 年代末期開始起飛,在大多情況下,研究人員對現有的蛋白質進行了改造,讓它們可以做一些工作,例如分解有害物質或充當化學製造業的工具。
然而,天然蛋白質的範圍是有限的。為了增加獲得具有全新功能的蛋白質的潛力,貝克 的研究小組希望從頭開始創造它們。正如 貝克 所說:“如果你想製造一架飛機,你不是從改造一隻鳥開始;相反的,你要先瞭解空氣動力學的主要原理,並根據這些原理建造飛行器”
一個獨特的蛋白質現身世界
建構全新蛋白質的領域稱為從頭設計。研究小組繪製一個具有全新結構的蛋白質,然後讓 Rosetta 計算,哪種類型的胺基酸序列可以產生所需的蛋白質。為此,Rosetta 搜尋了所有已知蛋白質結構的資料庫,並尋找與所需結構相似的蛋白質短片段。Rosetta 利用蛋白質能量全景圖的基礎知識,優化了這些片段並提出了胺基酸序列。
為了研究該軟體的成功程度,貝克 的研究小組在產生所需蛋白質的細菌中,引入了設計出之胺基酸序列的基因,然後他們使用 X-射線晶體學取得了蛋白質結構。
事實證明,Rosetta 真的可以創造蛋白質。研究人員開發的蛋白質 Top7,幾乎與他們設計的結構完全相同。
貝克 實驗室的精彩創作
對於從事蛋白質設計的研究人員來說,Top7 是晴天霹靂。那些以前從頭創造蛋白質的人只能模仿現有的結構,而 Top7 的獨特結構在自然界中並不存在。此外,該蛋白質含有 93 個胺基酸,比以前使用從頭設計生產的任何蛋白質都要大。
貝克於 2003 年發表了他的發現,這是只能被形容為非凡發展的第一步;貝克 實驗室創造的許多令人驚嘆的蛋白質中的一些例子如圖 4 所示。他還發布了 Rosetta 的程式碼,因此全球研究社群能繼續開發該軟體,尋找新的應用領域。
是時候回答前述介紹 2024 年諾貝爾化學獎時尚未回答的問題了:現在接下來該做什麼?
曾經需要花費數年的工作現在只需幾分鐘
當 哈薩比斯 和 強普 確認 AlphaFold2 確實有效後,他們計算了所有人類蛋白質的結構。然後,他們預測了研究人員迄今為止,在繪製地球生物圖時發現的,幾乎所有兩億種蛋白質的結構。
谷歌 DeepMind 也公開了 AlphaFold2 的程式碼,任何人都可以存取它。人工智慧模型已成為研究人員的金礦,截至 2024 年 10 月,AlphaFold2 已被來自 190 個國家的超過兩百萬人使用。以前,如果有的話,通常需要數年時間才能獲得蛋白質結構,現在只需幾分鐘即可完成。人工智慧模型並不完美,但它同時估計了其產生的結構的正確性,因此研究人員知道其預測結構的可靠性。圖 5 顯示了 AlphaFold2 如何幫助研究人員的眾多範例中的幾個。
2020 年 CASP 競賽結束後,當 貝克 意識到基於 Transformer 的 AI 模型的潛力時,他也在 Rosetta 中加入了這樣的一個模型,這也促進了蛋白質的從頭設計。近年來,貝克實驗室不斷創造出令人難以置信的蛋白質(圖 4)。
為造福人類產生令人眼花撩亂的發展
蛋白質作為化學工具的驚人多功能性,體現在生命的巨大多樣性上。我們現在可以如此輕鬆地看到這些小分子機器的結構,這真是令人難以置信。它使我們能夠更好地了解生命的運作方式,包括為什麼會出現一些疾病,抗生素的抗藥性是如何發生的,或為什麼一些微生物可以分解塑膠。
創造具有新功能的蛋白質的能力同樣令人震驚,這可以帶來新的奈米材料、標靶藥物、更快速的疫苗開發、更小的感測器和更綠色的化學工業 — 僅舉幾個為人類帶來最大利益的應用。