從人類基因解碼到未來新醫療體系的最佳利器 – 生物資訊
92/07/10
瀏覽次數
13231
劉宣良|
臺北科技大學化學工程系
人類基因體計畫的完成,已成功地將去氧核醣核酸(DNA)上約三十億個核啟酸單元(A、C、T、G)的排列順序定出,這些龐大的資訊,足以填滿超過二千片的電腦磁碟或二百本每本厚達五百頁的電話簿。而在後基因時代中,科學家們將致力於研究蛋白質體學,此一領域主要在探討:不同的基因(約四萬個)在何時會在哪些細胞中作用;這些基因所表現出來的蛋白質結構,以及它是如何在細胞中作用的;各種基因在不同疾病上所扮演的角色等問題。這將會產生極為龐大的生物資訊,需要妥為儲存以供比對與運用,而生物資訊學(bioinformatics)將是處理這類龐大資訊的最佳利器。
生物分子
在還未進入生物資訊的主題前,先了解一些主要的生物分子,這些分子包含去氧核醣核酸(DNA)、核醣核酸(RNA)、蛋白質、醣類及脂肪等。每個生物細胞均是由這些重要的生物分子及水所構成。
DNA是負責遺傳的主要分子,由A、C、T、G 四種不同的單元依任意的順序排列,例如一個有10個單元的DNA分子,會有4的10次方種不同的排列順序,各種生物的遺傳雖然均由DNA分子負責,由於排列順序的差異,以致造成相互間極大的不同;RNA是負責傳遞遺傳訊息的分子,它將DNA的遺傳密碼攜帶出來,並負責將DNA所下達的遺傳指令,合成相關的蛋白質。
蛋白質分子在生物細胞中,負責所有生化反應及新陳代謝的催化工作,如果身體中一個蛋白質功能失調,或合成的數量失衡,將導致生理機制失常的連鎖反應。由此可知這三種生物分子的重要性。
DNA分子會進行自我複製,而DNA分子將遺傳訊息傳遞給RNA分子的過程稱為轉錄,RNA分子根據DNA所提供的訊息製造出相關蛋白質的過程則稱為轉譯。
生物資訊學
生物資訊學是結合電腦科技與生物學的一門新興科技,負責蒐集與儲存大量的生物資料,架構功能強大的搜尋引擎及解釋這些生物資料的意義。這樣的工作,猶如電信公司儲存大量的客戶電話號碼資料一般,必須具備快速查詢及提供用戶詳細資料的功能。
生物資訊學最重要的工作,就是提供藥廠在新藥開發初期,能快速及準確地找到標的物。過去藥廠研發新藥猶如大海撈針一般,必須地毯式地篩選大量的分子;如今,利用生物資訊所提供的生物分子序列,如基因序列或蛋白質的胺基酸序列,及其結構訊息,能有效地縮小搜尋範圍,節省龐大的研發經費及時間,延長藥物自核准上市後到專利過期的時間,而為藥廠帶來相當於每年五億美元的龐大營收利益。目前,生物資訊的獲得已非難事,但更重要的挑戰是如何判讀這些龐大的生物資訊。讓我們將時間拉回到八○年代,來探索生物資訊的起源。
生物資料庫的建立
生物資訊最早始於對生物資料庫的建立,在八○年代初期,最有名的資料庫就是所謂的基因銀行,這個資料庫是由美國能源部所架構,用來儲存世界各地的科學家針對一些生物體內DNA定序的結果。目前這個資料庫已轉移給美國國家研究院轄下的國家生物科技資訊中心(National Center for Biotechnology Information, NCBI)來管理。透過網際網路的連線,全世界的研究學者,均可免費且快速地進入此資料庫,取得特定基因的序列。這個資料庫是目前全世界最大的公共生物資料庫,收集來自不同物種的DNA序列。
自從一九九○年人類基因體計畫(Human Genome Project, HGP)開始運作以來,存入此資料庫的DNA序列更是以級數般的速度累積。基因銀行每天與歐洲分子生物實驗室(European Molecular Biology Laboratory, EMBL)資料庫和日本DNA資料庫(DNA DataBank of Japan, DDBJ)進行同步交換。
目前存在基因銀行資料庫中的資料,有來自四萬七千個以上物種的六百二十萬筆序列紀錄,總計超過七十三億個鹼基。此外,NCBI也提供一個方便易用的整合型檢索系統Entrez,以利研究人員調閱基因銀行中所儲存的DNA序列。生物資料庫的建立,顯然是生物資訊學中相當重要的課題,尤其是如何使資料庫能夠支援高效率的資料搜尋、比對及不同資料庫間的聯繫。
後基因時代
從美國瑟雷拉公司(Celera Genomics)在二○○○年四月公布人類DNA序列草圖之後,後基因時代已然來臨。這些由三十億個A、T、C、G鹼基對所組成的線性資訊,對於未來疾病診斷及藥物設計將有重大的影響。
人類基因體計畫始於九○年代初期,由美國官方贊助經費,結合美國四大定序中心及英、日、法、德、中國大陸等相關研究中心,超過一千位的科學家,其規模的龐大足以媲美登陸月球的計畫,然而卻由創立於一九九八年的瑟雷拉公司以不到三年的時間,率先公布了人體DNA序列。
在瑟雷拉公司宣布後不到一個月,這個官方組織HGP也不甘示弱地宣布了人體第21對染色體的DNA序列。同年的六月二十六日,美國總統柯林頓與英國首相布萊爾,聯袂宣布人類DNA密碼將完全免費地公開於公眾基因資料庫,任何人都可自由地由網路取得該資料庫中的資訊,並利用這些資訊。此舉不但為這個計畫的完成,建立一個劃時代的里程碑,同時也為後基因時代的來臨,揭開了序幕。
從官方組織與民間公司的競爭,可看出人類基因序列的重要性;然而,這些線性的訊息,卻無法解答人為什麼會生病、為什麼會衰老等問題。這些訊息所表現出的蛋白質體及其控制生理代謝的機制,才是後基因時代研究的重點。
根據美國佛羅斯特與蘇利文市場調查公司(Frost & Sullivan)的分析報告指出,全球的蛋白質體市場將從一九九九年的七億美金,快速成長到二○○五年的五百六十億美金,龐大的市場使一些生物科技公司趨之若鶩。在後基因時代中,能夠快速分析蛋白結構與功能,才能真正掌握市場的商機。
隨著人類基因解讀的完成,及未來研究更多蛋白質所產生的龐大資訊,科學家必須架構不同的資料庫予以儲存,並利用各式電腦軟體加以比對或計算。科學家不但對於在不同細胞中,有哪些基因會表現為蛋白質有興趣,並試圖了解在這些細胞及組織中,各種蛋白質間的交互作用及其在疾病產生上所扮演的角色。
此外,蛋白質的結構也是科學家研究的重點;要完成這些龐大又瑣碎的工作,生物資訊學乃是唯一的不二法門。很多大型藥廠不惜以相當大的成本,併購新興的生物資訊公司,以縮短其新藥開發的時程,拜耳公司以一億美金的代價與德國生物資訊大廠萊茵生科(Lion Bioscience)公司的交易,就是這些小型生物資訊公司,以其所建構的生物資訊工具及服務,換取高額報酬的著名案例。
先前提過,人類基因組是由大約三十億鹼基對所組成。如果將這些資訊儲存成文字檔,大約需要兩千片磁碟片才夠。而這只是一個開端而已,隨之而來的是更大量的分析資料,如利用微陣列晶片及蛋白質二維電泳等方式,決定不同的基因在何時表達,以及在何種組織器官中表達的相關資料;利用結晶X射線繞射及核磁共振,決定蛋白質的三度空間結構資料;各種蛋白質間交互作用的模式;以及單一核啟酸多樣性資料等,因而需要建立許多不同的巨型資料庫來儲存。
如果沒有電腦的輔助,這麼大量的資訊,就如同一本沒有按姓氏筆劃排列的電話號碼簿,一點價值都沒有。生物資訊學,正隨著這一波資訊潮流的突飛猛進而蓬勃發展,甚至有可能使整個生物醫學研究全面改觀。生物資訊學主要的重點,是有關如何儲存、管理、傳輸、進而分析與生物相關的大量資訊,然而由於生物資訊學本身仍在不斷地演化中,將來它的領域所包括的範圍可能更廣。
目前,許多相關的生技公司,把大部分的研究重點放在基因組序列分析和基因預測上,其主要的著眼點,在於第一時間取得基因專利的申請。一旦基因組定序的工作在一、兩年內全部完成,後基因時代即正式展開,屆時研究的重點將轉移至功能性基因體、蛋白質體、及單一核啟酸多樣性上。在一般藥廠中,生物資訊部門扮演的角色,主要在新藥研發的早期階段–尋找藥物作用目標,但是近來有開始參與全程新藥研發的趨勢。
基因組序列分析
隨著人類基因密碼解讀完成,伴隨而來的大量DNA序列資料,馬上產生一個重要的課題,即如何從這些資料中,找到大約四萬個人類的主要基因。人類的DNA序列中大概僅有不到5%是能產生蛋白質的基因,因此要從人類基因組中辨認出有功能的基因,首先就必須了解基因的結構。一般來說,人類基因可概分為以下幾個部分:啟動子、5'非轉譯區、表現序列、內子、3'非轉譯區、聚腺啟酸化作用點,其中只有表現序列才攜帶產生蛋白質的訊息。
因此,辨認基因的電腦程式,最主要的任務就是從DNA序列中,找出基因表現的開始與結束位置,即起始密碼與停止密碼,及接合點(分為提供點和接受點),進而將同一基因所有的表現序列拼湊出來,最終的目的就是建立出一個完整的基因。科學家研究使用電腦方法去預測散布在基因組中的基因,已經有15年的歷史。目前有兩種預測基因的電腦方法,一是根據機率與統計的方法,另一是尋找相似性的方法,隨著已知基因的大量累積,新的電腦程式大都採用尋找相似性的方法。
生物資訊與蛋白質結構
雖然人類基因體計畫,在科學界是一項吸引眾人目光的偉大工程,但是早在大量基因體序列被定序之前,歐美等先進國家的企業界,早就先一步跨足。人類基因體定序計畫完成後,才會引發的新一波科學研究熱潮中,那就是蛋白質的三度空間立體結構。這些企業界之所以一味地想捷足先登,彼此暗中較勁的最主要原因,就是蛋白質三度空間立體結構的決定,是未來新藥開發的動力。蛋白質的立體結構,可以協助搜尋並快速決定小分子藥物的構造,因此它將大幅降低新藥開發所需的時間與投資成本。
要取得蛋白質構造的大量資料,遠比取得DNA序列定序資料困難得多,因為DNA只是由四個鹼基對組成,所產生的直線序列,而蛋白質則是由20種胺基酸組成,並在立體空間上摺疊,產生複雜的螺旋、蓆狀、和彎曲的次構造。如果想直接從DNA序列去預測蛋白質的立體構造,即使利用電腦輔助,就算只是一個最簡單的蛋白質,也是一項相當艱難的工作。
由於蛋白質的三度空間立體結構如此不易決定,自一九五七年第一個蛋白質肌血紅素的立體結構被確定以來,到現在為止也僅有約一萬二千個蛋白質的立體結構被確定,同時輸入國際公開的蛋白質構造儲存庫中。
目前,以研究蛋白質三度空間立體結構為主的公司,有美國加州聖地牙哥的SGX 公司、Syrrx公司、SBI公司、紐澤西州普林斯頓的SFG公司以及英國劍橋的AT公司等。
其中SFG公司使用核磁共振(NMR)技術,而SGX和Syrrx公司則採廣為運用的X射線晶體繞射技術,並將整個過程自動化,來決定蛋白質的立體結構。在採用X射線的過程中,蛋白質首先被純化,然後誘使其產生結晶,結晶物被X射線照射而產生繞射圖形,經繁鎖的電腦計算,進而推測出蛋白質內所有原子的立體結構模型。
這種自動化X射線晶體繞射技術使得SGX和Syrrx二家公司都宣稱,將在二○○三年另外確定出約一千個蛋白質的立體結構。此外,有些生物資訊公司則致力於軟體的開發,以便在蛋白質三度空間立體構造的預測上運用,從事這方面研究的公司有美國加州聖地牙哥的SBI公司等。
現行的相似性模擬技術在預測擁有極高序列相似性的蛋白質的主軸構造時,能發揮良好的功能,但在預測蛋白質表面構造時,並不那麼成功,而且沒有普遍適用的演算方法,可預測所有的蛋白質構造,因此SBI公司就專門致力於蛋白質模擬技術的研發。
SBI公司的研發團隊,從8~12個成功的個別預測技術中,挑出有用的要素將它們組合,這種技術首先用來預測蛋白質的表面構造,找出其表面具有動態性的特質,並進一步預測蛋白質的彎曲結構,在做此預測時仍需符合相似性模擬的基本要求,亦即在預測同種類的蛋白質時,至少其同族性其他蛋白質的X射線晶體繞射資料或核磁共振構造資料必須已知。
SBI所開發的科技,不僅能預測蛋白質的立體結構,並能從蛋白質的立體結構上,迅速地鑑定小分子的藥物模型,以從事藥物開發。目前杜邦製藥公司便與其攜手合作,計劃在未來的幾年裡,利用SBI的技術去探測各式各樣的藥物標的。
一九九八年間,SBI和三個大藥廠已成功地將此一技術應用在六個臨床上非常重要的蛋白質特定物上,其中包括病毒蛋白質分解酵素、蛋白質激酵素、賀爾蒙以及與細胞死亡分解有關的蛋白質等,至於與心臟衰竭有關的內皮受體拮抗劑已進入第二階段的臨床試驗。
當前,不僅私人企業對蛋白質的立體結構深感興趣,就連某些政府及學術機構,亦積極致力於這方面的研究,其中包括美國國家衛生研究院、德國、日本及加拿大政府等。而這方面的總投資,將可媲美人類基因體定序計畫上的花費。這些政府所支助的研究計畫,其研究成果屬於公開性資料,免費供一般學術機構及私人公司運用,以造福全人類。
美國國家衛生研究院投入1.25億美元,以期在10年內定出一萬個蛋白質的立體結構,而這一萬個蛋白質是經過詳細挑選,希望能依各式各樣常見的的螺旋、蓆狀以及彎曲形次構造,將其分類成一千個不同種類的蛋白質,這樣做的目的,是希望能從這個建立起來的蛋白質構造資料庫中,預測陸陸續續從人類基因體定序計畫所定出的基因序列中蘊藏的蛋白質構造。