AI於藥物探索階段的應用:靶點識別與驗證篇

人工智慧與機器學習(Artificial Intelligence/Machine Learning, AI/ML)可被應用於藥物開發的整個過程,涵蓋了早期的藥物探索(Drug Discovery)、臨床前試驗(Preclinical Research)、臨床試驗(Clinical Research),以及上市後監測(Post-Market Safety Monitoring)等階段。本文將深入淺出地介紹 AI 在藥物探索階段的應用和實例。上篇將重點放在靶點識別與靶點驗證,而下篇則專注於先導化合物的識別與優化。

▍藥物探索的任務目標

「藥物探索」是藥物開發的第一步,這個階段主要有四個重要任務,簡單來說就是:

  1. 靶點識別(Target identification):研究人員會利用基因組學、蛋白質組學和生物資訊學等方法,找出跟疾病密切相關的物質,比如分子、蛋白質和基因,這些就是我們要治療的目標(靶點)。
  2. 靶點驗證(Target validation):一旦找到靶點,接下來就要進行很多實驗(可以是在體內或體外)來確認這個靶點和疾病之間的關係。
  3. 先導化合物識別(Lead compound identification):確定了靶點之後,研究人員會從大量的化合物中篩選出那些能夠作用於靶點並產生所需效果的先導化合物,然後分析它們的效力、選擇性、藥物動力學和安全性等特性。
  4. 先導化合物優化(Lead optimization):在這一步,可能會對先導化合物進行一些修改,透過反覆的化學改造、結構-活性關係研究和生物評估來進行優化。目標是提高它們的效力和選擇性,同時減少潛在的毒性。

藥物探索一直是一個耗時且複雜的過程,目的是為特定疾病找到有效的治療候選分子。傳統上,這一過程可能需要數年時間和大量資金投入。然而,隨著AI技術的進步,藥物探索的模式正發生重大變革。如今,許多公司正利用 AI 工具來加速藥物探索的整個過程,通常被稱為「端到端的藥物探索過程(end-to-end drug discovery process)」(Jiho Yoo et al,2023),這兩個端點分別代表了前兩項步驟的任務目標確認與疾病相關的靶點,以及後兩項步驟的任務目標找到能作用於這些靶點並產生治療效果的候選藥物。

End to End Drug Discovery Process. (資料來源:Jiho,2023;繪製P.Y. Huang)

▍AI於靶點識別與靶點驗證的應用

通常,我們可以透過觀察自然界中的遺傳變異或設計實驗來確認靶點和疾病之間的因果關係,但這樣做往往耗時費工。這時,AI就派上用場了!它能快速處理和分析大量的生物數據,比如基因、蛋白質和疾病相關的資料,幫助我們建立因果關係的預測模型,並利用已知與疾病相關的基因或蛋白質特徵來提高預測的準確性。

談到利用 AI 建立生物數據處理的預測模型,代表的機器學習類型有以下三種(Jiho Yoo et al, 2023):

1.淺層結構模型(Shallow-Structure Model)

淺層結構模型(Shallow-Structure Model)是一種能夠直接從數據中學習的模型。它的主要目標是優化一個稱為「評分函數」(Score Function)的公式,此公式可用來評估數據的好壞。

應用此模型於生物數據(例如基因和蛋白質)的處理時,我們可以把該模型想像成是一個聰明的助手,幫助我們理解和分類這些生物數據。此模型會學習如何將生物數據轉換成一組特別的數字,稱為「嵌入向量」(embedding vectors),再透過前述優化的「評分函數」公式計算進行預測。

想像一下,我們在玩一個遊戲,遊戲中有很多不同的角色(就像基因和蛋白質),每個角色都有自己的特點,而淺層結構模型就像是一個評分系統,可以快速地告訴我們哪些角色相似,或者哪些角色可以一起合作。例如,當我們想知道某個基因的功能時,淺層結構模型能迅速地告訴我們這個基因可能會做什麼,或者它和其他基因之間的關係。因此,淺層結構模型是一種快速、有效的方法,可以幫助研究者理解和分類生物數據。

2. 圖像化神經網絡(Graph Neural Networks, GNNs)

圖像化神經網絡(Graph Neural Networks, GNNs)專門設計用來處理「圖形」這種數據結構。這種圖形數據就像是一個巨大的社交網絡,每個節點(點)代表一個個體,此個體可能是蛋白質、基因,甚至是一個人。而連接這些節點的線,則代表它們之間的關係或互動。在生物學領域,這些關係可以是蛋白質之間的互相影響,或基因之間的調控作用。

圖像化神經網絡之所以強大,是因為它能模擬這種「互動」的過程,並利用一個叫「消息傳遞」的技巧來讓每個節點學習。這個過程就像是每個節點(比如蛋白質)不斷和周圍的節點(它的「朋友們」)交換訊息,學習彼此的狀況,並利用這些訊息來改進自己對世界的認知。換句話說,當我們分析一個蛋白質,它會依賴與它相連的其他蛋白質來幫助它理解自己在整個系統中的角色。

讓我們再用一個更具體的例子來說明。如果我們在研究細胞內部的信號傳遞,研究者可能會想知道某些特定蛋白質是如何彼此互動,從而影響細胞的行為。GNNs 可以模擬這種蛋白質之間的「對話」,幫助我們找到哪些蛋白質是「關鍵角色」,哪些蛋白質是「支持者」。它不僅能揭示這些蛋白質如何協同運作,還能幫助研究者發現新的治療靶點,從而有助於設計出更有效的藥物。

總結來說,圖像化神經網絡的強大之處在於它能夠將複雜系統中的每個部分(節點)與它們的關係(連接)一起考慮,並通過「消息傳遞」的方式讓每個節點不斷學習與更新。這樣,無論是在生物學、社交網絡還是其他複雜的領域,GNNs 都能幫助我們更深入地理解這些系統,並找到重要且不容易被直接觀察到的規律或趨勢。

3. 特徵提取模型(Feature extraction)

特徵提取模型就像一個超級偵探,專門從大量的數據中找出有用的線索,幫助我們理解複雜的系統。這些線索叫做「特徵」,它們可以是任何有助於解決問題的關鍵資訊。在這個過程中,偵探不僅要找到特徵,還要分析它們的重要性,並把這些特徵交給不同的「助手」來進行進一步的推理和預測。

具體來說,這些「助手」包括前述的淺層模型,這種助手擅長快速且簡單地處理訊息;第二種助手是圖像化神經網絡(GNNs),可以研究每個節點(例如蛋白質或基因)之間的互動;第三種是 transformers,它是一種更高階的助手,能夠處理更大的數據範圍,擅長從大量的訊息中學習出更深層的關聯。

在生物學領域,特徵提取可以從複雜的生物世界中提取出關鍵訊息,並透過一系列的助手來幫助研究者找出與疾病有關的重要生物標記,例如哪些基因變異會引發某種疾病,或者哪些蛋白質在特定疾病中扮演了關鍵角色。

▍鏈結預測與分類

在進入具體實例之前,我們先來總結一下上述這三種模型應用在靶點識別與驗證上的助益。首先,淺層結構模型能夠快速分析基因與蛋白質之間的關係,幫助研究人員找到潛在的治療靶點。接著,圖神經網絡透過消息傳遞,能夠深入了解蛋白質之間的複雜互動,進一步驗證這些靶點在細胞中的實際作用,從而確保靶點的生物學意義。最後,特徵提取模型則能從大量數據中挖掘出關鍵特徵,支援機器學習模型進行準確的預測,例如哪些基因或蛋白質會互相影響,或是某種基因變異是否會導致特定疾病。透過這些機器學習的模型的應用,最終是為了達到「鏈結預測(Link Prediction)」以及「分類(Classification)」兩個目的,以利識別出潛在的靶點。

「鏈結預測(Link Prediction)」通常依賴於已知的數據和節點之間的關係來進行推斷。好比說兩個不相連的節點其實有很多共同的鄰居,這意味著這兩個節點也可能建立連結,研究者使用不同的算法來計算這些相似性,並根據結果來預測可能的連結,對於找出哪些蛋白質可能會互相作用,以及理解細胞如何運作非常重要。

「分類(Classification)」的目的是將數據分到不同的類別中。此模型根據已有的數據學習,然後在面對新的數據時,能夠做出預測,就像是訓練一個小助手,讓它學會如何辨別不同類型的水果,當我們給它一個新的水果時,它可以幫助我們把這些水果根據它們的特徵(比如顏色、形狀和大小)放進正確的盒子裡。在生物數據方面,分類可以用來識別哪些基因或蛋白質與特定疾病有關,研究者可以使用分類模型來判斷某個基因是否會導致某種疾病。

以往研究人員需要進行反覆實驗才能確認的事情,現在透過這些模型的輔助不僅加速了靶點識別與驗證的進程,還提高了成功率,節省研究者大量的時間和資源。

接下來,我們透過Insilico Medicine利用其自身開發的AI平台,識別出與肌萎縮側索硬化症(Amyotrophic lateral sclerosis, ALS)相關靶點為探討案例,從中體會AI對於靶點識別上的具體效益與貢獻。

Application of AI on Target Identification.

▍Insilico Medicine—靶點識別平台 vs ASL

什麼是肌萎縮側索硬化症?

肌萎縮側索硬化症(Amyotrophic lateral sclerosis, ALS),俗稱漸凍人,是一種會導致上下運動神經元退化的疾病,患者的主要症狀是肌肉逐漸萎縮、無力,最終因呼吸衰竭而死亡。大多數患者病情進展迅速,平均發病後存活時間約為五至六年。目前,科學家仍未確定為什麼運動神經細胞會受損,而一旦確診,病人只能坐以待斃。目前USFDA核准的肌萎縮側索硬化症(ALS)藥物無法逆轉患者的神經退行性變化,甚至有些接受治療的患者並未顯示治療效果,因此開發新的治療方案仍為之迫切。

靶點識別平台—PandaOmics

Insilico Medicine(簡稱 Insilico)是一家位於美國的生物技術公司,成立於2014年,專注於利用人工智能技術來加速藥物發現。該公司開發了一個名為 Pharma.AI 的平台,結合深度學習和生成模型,幫助研究人員識別治療靶點、設計新分子並預測臨床試驗的成功率。PandaOmics 是 Pharma.AI 平台中的一個核心組件,整合了超過20種機器學習與生物資訊模型,利用 AI 演算法處理大量生物數據,能夠分析基因表達和生物路徑(Biological Pathway)的變化,專門應用於靶點識別與生物標記的發現。

Insilico Medicine's AI Platform for Pharmaceutical Research And Development. (Source: Insilico Medicine)

數據來源與應用

Insilico 的研究團隊收集了237名已故 ALS 患者的大腦和脊髓樣本,並與91名健康對照樣本進行比較,這提供了直接的生物學證據,幫助研究人員了解 ALS 的病理變化。此外,他們還使用了135個來自 Answer ALS 項目的運動神經元樣本。Answer ALS 是一個全球性的研究計劃,旨在建立一個龐大的患者和樣本數據庫,幫助研究 ALS 的病因和治療方法。這些運動神經元是從 ALS 患者的誘導性多功能幹細胞(iPSC)中提取的,使研究人員能夠在實驗室中模擬患者的細胞行為,以深入理解疾病機制。Insilico將取得這些CNS與運動神經元樣本數據,透過PandaOmics 平台提取與 ALS 相關的基因資訊,成功地篩選出了28個潛在的治療靶點。

為了驗證這些候選靶點的有效性,研究團隊使用了一種模擬 C9orf72 媒介 ALS(c9ALS)的果蠅模型。在這個模型中,他們發現有18個靶點與 ALS 功能上相關,而抑制其中8個靶點能顯著減少神經退行性變化,這一結果證明了 AI 可以有效地應用在識別靶點方面,接下來,這些識別出的靶點將被進一步地推向臨床試驗,以探索它們在 ALS 治療中的潛力。

▍總結

藥物探索一直是一個耗時且複雜的過程,目的是為特定疾病找到有效的治療候選分子。傳統上,這一過程可能需要數年時間和大量資金投入。然而,隨著人工智慧和機器學習技術的進步,藥物探索的模式正發生重大變革。例如,上述Insilico Medicine就開發出了一套完整的藥物發現平台,這些工具大大縮短了藥物探索的時間,從傳統方法的3至5年縮減至僅需12到18個月,這樣的突破呈現了AI是如何幫助研究者更快地找到潛在候選藥物,並且降低了整體開發成本。如今,已有越來越多像Insilico Medicine一樣的公司,積極地運用AI工具進行端到端的藥物探索研究,例如BenevolentAI、Exscientia,以及Recursion Pharmaceuticals等,有些研究項目甚至已推展至臨床試驗階段。

不過,這個令人興奮的技術平台還是面臨一些挑戰,特別是在靶點識別的階段。現在的數據往往偏向那些已經知道的靶點,對於那些尚未深入研究的靶點,資料還是很不足。為了克服這個問題,業界正在努力整合更多不同來源的數據,並利用自動化工具來處理大量的學術文章,以發掘新的靶點。即使如此,這些新發現的靶點還是需要經過嚴格的生物學驗證,也就是說,設計和執行精細的實驗是必不可少的。如何有效地更新和優化 AI 模型,以確保它們能準確反映最新的數據,仍然是一大挑戰。

總結來說,AI技術正在改變藥物探索和開發的流程,雖然還有一些挑戰,但不可否認的,但它的潛力已漸漸地改變了醫藥領域整體的開發流程與系統,讓新的治療方式能夠更快、更有效地到達患者手中。

▍本篇思路

《賦智圖》

Thinking Map & Takeaways

返回文章分類