【2024諾貝爾化學獎】他們透過計算和人工智慧揭示了蛋白質的秘密

曹一允，蔡蘊明合譯
於2024年十月九日
(歡迎轉載，但請引述本網址)

本文譯自諾貝爾化學獎委員會公佈給大眾的新聞稿，原文可自以下官方網站取得：
https://www.nobelprize.org/uploads/2024/10/popular-chemistryprize2024-3.pdf

若有興趣閱讀進階的原文資料，請由下列官方網址取得：
https://www.nobelprize.org/uploads/2024/10/advanced-chemistryprize2024.pdf

*曹一允在美國德州農工大學Karen Wooley教授指導下取得博士，現於日本萊雅公司進行研究。
*蔡蘊明現為台大化學系名譽教授。
*感謝臺大化學系的蔡明軒幫忙將此文放上化學系的網頁，以及版面設計。

他們透過計算和人工智慧揭示了蛋白質的秘密

化學家長期以來一直夢想著完全理解和掌握生命的化學工具 — 蛋白質，這個夢想現在已經觸手可及。哈薩比斯 (Demis Hassabis)和強普 (John M. Jumper) 已成功利用人工智慧來預測幾乎所有已知蛋白質的結構。貝克 (David Baker) 學會如何掌握生命的建構組元，並創造全新的蛋白質。他們的發現，潛力巨大。

生命的旺盛化學反應怎可能存在？這個問題的答案就是蛋白質，而蛋白質可謂是絕妙的化學工具。它們通常由二十種胺基酸組成，能夠以無數種方式組合。以 DNA 中儲存的資訊為藍圖，胺基酸在我們的細胞中連接在一起形成長串。

接著蛋白質的魔力發生了：一串胺基酸扭曲並折疊成一種明確的 — 有時是獨特的 — 三維結構（圖 1），而這種結構賦予了蛋白質功能。有些成為可以制造肌肉、角或羽毛的化學建構組元，而有些則可能成為荷爾蒙或抗體。其中許多會形成酶，以驚人的精確度驅動生命的化學反應。位於細胞表面的蛋白質也很重要，它們充當細胞之間或其與周圍環境之間的溝通管道。

圖1. 一個蛋白質可以由數十個到數千個胺基酸組成。這串胺基酸會摺疊成一個三維結構，而這個結構對於蛋白質的功能具有決定性作用。

這二十種胺基酸是生命的化學建構組元，其潛力怎麼強調都不為過，2024 年諾貝爾化學獎，是有關如何讓人們在全新的水平上理解和掌握它們。一半的獎金授予了 哈薩比斯 和強普，他們利用人工智慧成功解決了化學家五十多年來一直困擾的問題：根據胺基酸序列預測蛋白質的三維結構，這使得他們能夠預測幾乎所有兩億種已知蛋白質的結構。獎金的另一半則頒給貝克，他開發了電腦化的方法來實現許多人認為不可能的事情：創造以前不存在的蛋白質，並且在許多例子中具有全新的功能。

2024 年諾貝爾化學獎表彰了兩項不同的發現，但正如您將看到的，它們密切相關。為了瞭解今年的獲獎者所克服的挑戰，我們必須回溯至現代生物化學的黎明時刻。

第一張蛋白質的顆粒狀圖片

自十九世紀起，化學家就知道蛋白質對於生命程序很重要，但直到 1950 年代，研究人員才開始具有足夠精確的化學工具，能開始更詳細地探索蛋白質。劍橋研究人員 John Kendrew 和 Max Perutz 在那50年代末，取得了突破性的發現，他們成功地使用一種稱為 X-射線晶體學的方法，提出了第一個蛋白質的三維模型。為了表彰這項發現，他們於 1962 年獲得了諾貝爾化學獎。

隨後，研究人員主要使用 X-射線晶體學 — 通常經過極大的努力 — 成功得到約二十萬種不同蛋白質的圖像，這為 2024 年諾貝爾化學獎奠定了基礎。

一個謎題：蛋白質如何找到其獨特的結構？

美國科學家 Christian Anfinsen 還有另一個早期的發現，他利用各種化學技巧，成功地使一個蛋白質將其折疊結構展開，然後重新折疊回去。有趣的觀察是，蛋白質每次都回復成完全相同的形狀。1961年，他得出結論：蛋白質的三維結構完全由蛋白質中的胺基酸序列決定，這使他於 1972 年榮獲諾貝爾化學獎。

然而，Anfinsen 的邏輯中存在一個悖論，另一位美國學者 Cyrus Levinthal 在1969年指出，他計算出即使蛋白質僅由100個胺基酸組成，該蛋白質理論上將可以呈現至少 10⁴⁷ 種不同的三維結構。如果這串胺基酸鏈是隨機折疊，則需要花比宇宙年齡更長的時間，才能找到正確的蛋白質結構。在細胞中，那只需要幾毫秒。那麼這串胺基酸實際上是如何折疊起來的呢？

Anfinsen 的發現和 Levinthal 的悖論暗示折疊是一個預定的過程，而且 — 很重要的 — 有關蛋白質如何折疊的所有資訊，都必須存在於胺基酸序列中。

迎向生物化學的巨大挑戰

上述見解導致了另一個決定性的認知 — 如果化學家知道蛋白質的胺基酸序列，他們就應該能夠預測蛋白質的三維結構。這是一個令人興奮的想法，如果成功了，他們將不再需要使用繁瑣的 X-射線晶體學，並且可以節省大量時間，此外還能夠得到 X-射線晶體學不適用的所有蛋白質的結構。

這些合乎邏輯的結論，讓他們迎向了生物化學面臨的巨大挑戰：如何預測結構。為了鼓勵該領域更快速的發展，研究人員於 1994 年啟動了一個名為「蛋白質結構預測技術的關鍵測試」(CASP) 的計畫，該計畫後來發展成為一項競賽。每隔一年，對來自世界各地的研究人員，給予一個結構剛剛確定的蛋白質之胺基酸序列，不過，這些結構對參與者保密，其挑戰就是根據這個已知的胺基酸序列，預測該蛋白質結構。

CASP 吸引了許多研究人員，但事實證明解決預測問題極為困難。研究人員在競賽中提出的預測與實際結構之間的一致性，幾乎沒有任何改善。一直到了2018 年，一位國際象棋大師、神經科學專家和人工智慧先驅進入了這個領域，才出現突破。

桌遊高手進入蛋白質奧林匹克

讓我們快速看看 哈薩比斯 的背景：他四歲開始下棋，十三歲達到大師水平。在他十幾歲的時候，開始了程式設計師的職業生涯，並成為成功的遊戲開發人員。他開始探索人工智慧以及研究神經科學，並取得了多項革命性的發現。他利用自己對大腦的了解，為人工智慧開發了更好的神經網路。2010 年，他與人共同創立了 DeepMind 公司，為流行的棋盤遊戲開發了精湛的人工智慧模型。該公司於 2014 年出售給谷歌，兩年後，DeepMind 引起了全球關注，因為它實現了當時許多人認定的人工智慧聖杯：擊敗了世界上最古老的棋盤遊戲之一：圍棋的冠軍玩家。

然而，對 哈薩比斯 來說，圍棋並不是目標，而是開發更好的 AI 模型的手段。這場勝利之後，他的團隊已經準備好解決對人類更重要的問題，因此在 2018 年，他報名參加了第十三屆 CASP 競賽。

哈薩比斯的人工智慧模型意外獲勝

在過去那些年，參與CASP的研究人員所預測的蛋白質結構，其準確度最多只有 40%。透過哈薩比斯 團隊的 AI 模型 AlphaFold，達到了將近 60%，他們贏了。優異的成績讓很多人都大吃一驚 — 這是意想不到的進展，但其解決方法仍然不夠好。真正的成功，是要與目標結構相比，預測的準確度必須達到 90%。

哈薩比斯 和他的團隊繼續開發 AlphaFold，但是，無論他們如何努力，演算法從未完全成功。殘酷的事實是，他們已經走進了死胡同。團隊很疲憊，但一位相對較新進的員工，對如何改進人工智慧模型有了決定性的想法，這位員工就是：強普。

強普接受了生物化學的巨大挑戰

強普對宇宙的迷戀，促使他開始學習物理和數學。然而，2008 年，當他開始在一家使用超級電腦，模擬蛋白質及其動力學(dynamics)的公司工作時，他意識到物理知識可以用來幫助解決醫學問題。

2011 年，當強普開始攻讀理論物理博士學位時，他對蛋白質產生了新的興趣。為了節省電腦容量 — 大學裡緊缺的東西，他開始發展更簡單、更巧妙的方法來模擬蛋白質動力學。很快地，他也接受了生物化學的這項巨大挑戰。2017 年，當他剛完成博士學位時，聽到了一個傳言：谷歌的 DeepMind 已經開始秘密的預測蛋白質的結構，因此他向他們送出了一份工作申請。他在蛋白質模擬方面的經驗，意味著他對如何改善 AlphaFold 有創造性的想法，因此，在團隊開始停滯不前後，他得到了晉升，強普和 哈薩比斯 共同領導了從根本上改革人工智慧模型的工作。

改革後的人工智慧模型取得了驚人的結果

新版本 — AlphaFold2 — 是根據強普對蛋白質的瞭解而修改的，該團隊也開始使用最近人工智慧巨大突破背後的創新：稱為 Transformer 的神經網路。這些可用比以前更靈活的方式，在大量數據中找到模式，並有效地決定應該如何聚焦以實現特定目標。

團隊利用資料庫中，所有已知蛋白質結構和胺基酸序列的大量資訊，對 AlphaFold2 進行了訓練（圖 2），新的 AI 架構開始為第十四屆 CASP 競賽及時提供了良好的結果。

2020 年，當 CASP 的舉辦者評估結果時，體認到生物化學長達 50 年的挑戰已經結束。在大多數情況下，AlphaFold2 的表現幾乎與 X-射線晶體學一樣好，這令人震驚。當 CASP 創辦人之一 John Moult 於 2020 年 12 月 4 日比賽結束時，他問道：現在接下來該做什麼？

我們將回到這一點。現在我們要回到過去，看一下 CASP 的另一位參與者。讓我們介紹 2024 年諾貝爾化學獎的另一半，它涉及從頭開始創造新蛋白質的藝術。

一本關於細胞的教科書讓貝克改變了方向

當貝克開始在哈佛大學學習時，他選擇了哲學和社會科學。然而，在演化生物學課程中，他偶然發現了現在經典之教科書《細胞分子生物學》的第一版，這導致他改變了人生的方向。他開始探索細胞生物學，最終對蛋白質結構著迷。1993 年，當他開始領導一個西雅圖華盛頓大學的研究小組時，他接受了那個生物化學領域的巨大挑戰。透過巧妙的實驗，他開始探索蛋白質如何折疊。當他在 1990 年代末開始開發可以預測蛋白質結構的電腦軟體：Rosetta 時，那些實驗為他提供了深入的見解。

貝克在 1998 年使用 Rosetta 首次參加 CASP 比賽，與其他參賽者相比，表現非常好。這一成功引發了一個新想法 — 貝克的團隊可以反向使用該軟體。原先是在 Rosetta 中輸入胺基酸序列並得出蛋白質結構，但他們應該能夠反向輸入所需的蛋白質結構，並獲得有關其胺基酸序列的建議，這將使他們能夠創造出全新的蛋白質。

貝克成為蛋白質構建者

蛋白質設計領域 — 研究人員創造具有新功能的客製化蛋白質 — 於 1990 年代末期開始起飛，在大多情況下，研究人員對現有的蛋白質進行了改造，讓它們可以做一些工作，例如分解有害物質或充當化學製造業的工具。

然而，天然蛋白質的範圍是有限的。為了增加獲得具有全新功能的蛋白質的潛力，貝克的研究小組希望從頭開始創造它們。正如貝克所說：“如果你想製造一架飛機，你不是從改造一隻鳥開始；相反的，你要先瞭解空氣動力學的主要原理，並根據這些原理建造飛行器”

一個獨特的蛋白質現身世界

建構全新蛋白質的領域稱為從頭設計。研究小組繪製一個具有全新結構的蛋白質，然後讓 Rosetta 計算，哪種類型的胺基酸序列可以產生所需的蛋白質。為此，Rosetta 搜尋了所有已知蛋白質結構的資料庫，並尋找與所需結構相似的蛋白質短片段。Rosetta 利用蛋白質能量全景圖的基礎知識，優化了這些片段並提出了胺基酸序列。

為了研究該軟體的成功程度，貝克的研究小組在產生所需蛋白質的細菌中，引入了設計出之胺基酸序列的基因，然後他們使用 X-射線晶體學取得了蛋白質結構。

事實證明，Rosetta 真的可以創造蛋白質。研究人員開發的蛋白質 Top7，幾乎與他們設計的結構完全相同。

貝克實驗室的精彩創作

對於從事蛋白質設計的研究人員來說，Top7 是晴天霹靂。那些以前從頭創造蛋白質的人只能模仿現有的結構，而 Top7 的獨特結構在自然界中並不存在。此外，該蛋白質含有 93 個胺基酸，比以前使用從頭設計生產的任何蛋白質都要大。

貝克於 2003 年發表了他的發現，這是只能被形容為非凡發展的第一步；貝克實驗室創造的許多令人驚嘆的蛋白質中的一些例子如圖 4 所示。他還發布了 Rosetta 的程式碼，因此全球研究社群能繼續開發該軟體，尋找新的應用領域。

是時候回答前述介紹 2024 年諾貝爾化學獎時尚未回答的問題了：現在接下來該做什麼？

曾經需要花費數年的工作現在只需幾分鐘

當 哈薩比斯 和強普確認 AlphaFold2 確實有效後，他們計算了所有人類蛋白質的結構。然後，他們預測了研究人員迄今為止，在繪製地球生物圖時發現的，幾乎所有兩億種蛋白質的結構。

谷歌 DeepMind 也公開了 AlphaFold2 的程式碼，任何人都可以存取它。人工智慧模型已成為研究人員的金礦，截至 2024 年 10 月，AlphaFold2 已被來自 190 個國家的超過兩百萬人使用。以前，如果有的話，通常需要數年時間才能獲得蛋白質結構，現在只需幾分鐘即可完成。人工智慧模型並不完美，但它同時估計了其產生的結構的正確性，因此研究人員知道其預測結構的可靠性。圖 5 顯示了 AlphaFold2 如何幫助研究人員的眾多範例中的幾個。

2020 年 CASP 競賽結束後，當貝克意識到基於 Transformer 的 AI 模型的潛力時，他也在 Rosetta 中加入了這樣的一個模型，這也促進了蛋白質的從頭設計。近年來，貝克實驗室不斷創造出令人難以置信的蛋白質（圖 4）。

為造福人類產生令人眼花撩亂的發展

蛋白質作為化學工具的驚人多功能性，體現在生命的巨大多樣性上。我們現在可以如此輕鬆地看到這些小分子機器的結構，這真是令人難以置信。它使我們能夠更好地了解生命的運作方式，包括為什麼會出現一些疾病，抗生素的抗藥性是如何發生的，或為什麼一些微生物可以分解塑膠。

創造具有新功能的蛋白質的能力同樣令人震驚，這可以帶來新的奈米材料、標靶藥物、更快速的疫苗開發、更小的感測器和更綠色的化學工業 — 僅舉幾個為人類帶來最大利益的應用。