近年來,人工智能(AI)已在醫(yī)學(xué)、生物學(xué)及制藥領(lǐng)域中展示出廣闊的發(fā)展前景。特別是在蛋白質(zhì)設(shè)計(jì)和工程領(lǐng)域,基于 AI 技術(shù)創(chuàng)建人工的蛋白質(zhì)序列已經(jīng)成為現(xiàn)實(shí),并可能被用于**各種**。
日前,來自 AI 研究企業(yè) Salesforce Research 、合成生物學(xué)公司 Tierra Biosciences 和加州大學(xué)舊金山分校的一組研究人員合作開展研究,創(chuàng)建了一個能夠從頭開始生造酶的人工智能系統(tǒng)——ProGen。
ProGen 系統(tǒng)基于 AI 語言模型發(fā)展而來,其能夠以類似“遣詞造句”的方式生成跨多個蛋白質(zhì)家族、且功能可預(yù)測的蛋白質(zhì)序列。經(jīng)檢測,該系統(tǒng)生成的酶與自然界中發(fā)現(xiàn)的酶同樣有效,即使這些人工生成的氨基酸序列與已知的天然蛋白質(zhì)之間存在顯著差異。
該研究以:Large language models generate functional protein sequences across diverse families 為題,于2023年1月26日發(fā)表于 Nature Biotechnology 期刊。
研究團(tuán)隊(duì)表示,該技術(shù)可能超越獲得諾貝爾獎的蛋白質(zhì)定向進(jìn)化技術(shù),因?yàn)槠鋷缀蹩梢杂糜诩铀偎蟹N類新蛋白質(zhì)的開發(fā)工作,無論是**開發(fā)還是塑料降解酶的制備。
“人工設(shè)計(jì)的性能比受進(jìn)化過程啟發(fā)的設(shè)計(jì)要好得多”,論文的作者之一,來自加州大學(xué)舊金山分校藥學(xué)院的 James Fraser 表示,“當(dāng)前的人工智能模型能夠通過學(xué)習(xí)蛋白質(zhì)進(jìn)化的過程從而實(shí)現(xiàn)**,但其與正常的進(jìn)化過程不同,人們能夠調(diào)整結(jié)構(gòu)以獲得特定的功能。例如,讓一種酶具有超乎想象的熱穩(wěn)定性或耐酸性等。”
73%的人造溶菌酶具備功能性
為了開發(fā) ProGen 系統(tǒng),研究團(tuán)隊(duì)將來自于 19000 個家族的 2.8 億種不同蛋白質(zhì)的氨基酸序列輸入機(jī)器學(xué)習(xí)模型中,同時提供相關(guān)蛋白質(zhì)特性作為控制標(biāo)簽,然后讓系統(tǒng)花費(fèi)數(shù)周時間來“消化”這些信息。
“對于蛋白質(zhì)研究領(lǐng)域而言,*重要的信息包括蛋白質(zhì)家族、生物過程和分子功能等屬性。”研究人員介紹道,通過調(diào)節(jié)這些控制標(biāo)簽,ProGen 能夠根據(jù)所需屬性生成特定的蛋白質(zhì)序列,并且具備****的進(jìn)化序列多樣性。隨著輸入氨基酸序列和條件標(biāo)簽的增多,研究者能夠?qū)崿F(xiàn)對于產(chǎn)生蛋白質(zhì)的功能控制。
在此之后,研究者向模型提供來自五個溶菌酶家族的 56000 個序列以及相關(guān)信息,從而對模型進(jìn)行微調(diào)。基于上述現(xiàn)有的“學(xué)習(xí)材料”,AI 模型迅速生成了一百萬個序列。根據(jù)這些序列與天然蛋白質(zhì)序列的相似程度及其氨基酸序列構(gòu)成的自然程度,研究團(tuán)隊(duì)從中選擇了 100 個序列展開研究。
“來自五個溶菌酶家族的所有人工蛋白質(zhì)均顯示出活性,并且在這些人工制造的溶菌酶中,有 73% 被發(fā)現(xiàn)具有**功能,而在天???蛋白質(zhì)中僅有 59% 具備功能性。”研究人員對此表示。
在**批進(jìn)行體外篩選的 100 種蛋白質(zhì)中,研究團(tuán)隊(duì)選擇了其中五種人工蛋白質(zhì)在大腸桿菌中進(jìn)行重組表達(dá),并將它們的活性與雞蛋清溶菌酶(HEWL)進(jìn)行比較。后者主要存在于雞蛋白、以及人類的眼淚、唾液和牛奶中,具有抵御**和**的作用。
比較數(shù)據(jù)表明,五種人工蛋白質(zhì)中有兩種能夠以相當(dāng)于 HEWL 的活性分解**的細(xì)胞壁,盡管它們之間僅有約 18% 的序列是相同的。另一方面,存在于自然界中的已知蛋白質(zhì)與這兩個序列的相似度分別為 90% 和 70% 左右。
“這一結(jié)果證實(shí),ProGen 系統(tǒng)不僅能夠?qū)W習(xí)生成結(jié)構(gòu)穩(wěn)定且‘合理’的氨基酸序列,并且其產(chǎn)生的序列已被證實(shí)能夠在現(xiàn)實(shí)世界中執(zhí)行其預(yù)期功能。”研究人員進(jìn)一步介紹道,ProGen 生成的人工蛋白質(zhì)不僅可以正確表達(dá),并且展示出與天然折疊相類似的結(jié)構(gòu)。
在另一輪篩選中,研究團(tuán)隊(duì)發(fā)現(xiàn),即使只有 31.4% 的序列與目前已知的天然蛋白質(zhì)相似,這些由 AI 生成的酶類依然顯示出活性。與之相比,天然蛋白質(zhì)中發(fā)生任何一個突變就有可能讓其停止工作。
“這項(xiàng)工作表明,蛋白質(zhì)可以被理解為是一種由氨基酸組成的‘語言’。就像單詞一個接一個地串在一起形成句子一樣,氨基酸一個接一個地串在一起形成蛋白質(zhì)。”研究人員對此表示,當(dāng)前的人工智能技術(shù)已經(jīng)可以通過研究原始序列數(shù)據(jù)來了解酶應(yīng)該如何形成,在此之后,通過 X 射線晶體學(xué)測量發(fā)現(xiàn),這些人造蛋白質(zhì)的原子結(jié)構(gòu)完全符合其設(shè)計(jì)預(yù)期,盡管這些序列此前并不存在。
開箱即用,像處理語言文本一樣從頭“書寫”蛋白質(zhì)
在生物學(xué)領(lǐng)域中,按需制造蛋白質(zhì)可說是其中*復(fù)雜也*具影響力的工作之一。在過去幾十年間,盡管蛋白質(zhì)工程研究領(lǐng)域經(jīng)過不斷發(fā)展,取得了一系列舉世矚目的成就。然而,此前的蛋白質(zhì)工程實(shí)驗(yàn)技術(shù)仍然依賴于啟發(fā)式和隨機(jī)突變的方式,從而選擇出可用的初始序列。
2020 年,來自硅谷的 AI 技術(shù)企業(yè) Salesforce Research 開發(fā)了 ProGen 系統(tǒng),該系統(tǒng)基于一種用于生成英語文本的自然語言編程發(fā)展而來,以便將自然語言處理(NLP)方法應(yīng)用至蛋白質(zhì)屬性分類,進(jìn)一步研究并生成新的蛋白質(zhì)。
“當(dāng)前結(jié)果證實(shí),自然語言處理技術(shù)雖然是為讀寫語言文本而開發(fā)的,但其也可以用于學(xué)習(xí)一些生物學(xué)的基本原理。”研究團(tuán)隊(duì)認(rèn)為,就像 AI 生成圖片或文本的方式一樣。有了足夠的信息,人工智能生成的內(nèi)容就可以變得類似于自然界中天然存在的事物,從而難以區(qū)分。
而對于蛋白質(zhì)領(lǐng)域而言,其體現(xiàn)在設(shè)計(jì)上的廣度就更加龐大。僅以溶菌酶為例,其長度*多約為 300 個氨基酸左右,但是考慮到有 20 種天然氨基酸作為制造“單元”,那么制造一個溶菌酶就存在大約 20300 種搭配。考慮到這種近乎于無限的制造可行性,使用 AI 技術(shù)輕松、快速地推動蛋白質(zhì)設(shè)計(jì)工作就顯得迫在眉睫。
“當(dāng)你使用大量數(shù)據(jù)訓(xùn)練 AI 模型時,它們對于結(jié)構(gòu)和制造規(guī)則方面表現(xiàn)出十分強(qiáng)大的學(xué)習(xí)能力,”Salesforce Research 的人工智能研究總監(jiān)、該論文的通訊作者 Nikhil Naik 對此介紹道,“人工智能了解哪些‘單詞’可以同時出現(xiàn),以及它們組合在一起的可行性。”
該研究的通訊作者之一、基于 AI 技術(shù)的蛋白質(zhì)設(shè)計(jì)公司 Profluent Bio 創(chuàng)始人 Ali Madani 博士此前曾在 Salesforce Research 擔(dān)任研究科學(xué)家。任職期間,他領(lǐng)導(dǎo)了該公司的機(jī)器學(xué)習(xí)研究計(jì)劃,并且擔(dān)任 ProGen moonshot 的架構(gòu)師,從而推進(jìn)了蛋白質(zhì)設(shè)計(jì)的生成建模項(xiàng)目。2022 年,他與加州大學(xué)舊金山分校教授 James Fraser 等人合作創(chuàng)立了 Profluent Bio,以跨學(xué)科合作的方式推動 AI 設(shè)計(jì)蛋白質(zhì)工作的研究進(jìn)展。
Ali Madani 認(rèn)為,“這種開箱即用、從頭開始生成功能性蛋白質(zhì)的能力表明人們正在進(jìn)入蛋白質(zhì)設(shè)計(jì)的新時代。其為蛋白質(zhì)開發(fā)工程師提供了一種多功能的新工具,我們期待看到該技術(shù)在各種****應(yīng)用領(lǐng)域中的下一步發(fā)展。”
總體而言,該研究突出了人工智能語言模型在蛋白質(zhì)設(shè)計(jì)和工程中的潛力,使用深度學(xué)習(xí)語言模型對蛋白質(zhì)進(jìn)行**的從頭設(shè)計(jì)將在生物學(xué)、醫(yī)學(xué)和環(huán)境問題中展示出發(fā)展前景。不過,研究人員同時指出,在使用 AI 語言模型進(jìn)行蛋白質(zhì)設(shè)計(jì)和制造時,必須考慮倫理影響。