時間:2024-04-04 10:28:05
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇生物信息學(xué)的定義范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。
一、 引言
隨著后基因組時代的來臨,高通量生物技術(shù)的發(fā)展,生物醫(yī)學(xué)的實驗手段和研究方法均發(fā)生了巨大的變革,生命科學(xué)研究中不斷涌現(xiàn)出海量的生物數(shù)據(jù),包括基因組數(shù)據(jù)、蛋白質(zhì)組數(shù)據(jù)、功能基因組數(shù)據(jù)等。這些生命組學(xué)的數(shù)據(jù)使得生物醫(yī)學(xué)研究者以系統(tǒng)生物學(xué)的角度來研究生命現(xiàn)象[1-6],同時它們的迅速增長,帶來了數(shù)據(jù)的存儲與傳輸、數(shù)據(jù)處理、數(shù)據(jù)獲取及數(shù)據(jù)的理解與應(yīng)用等等一系列的問題,這些問題促進(jìn)了生物信息學(xué)的產(chǎn)生和快速發(fā)展[7-13],也吸引了來自數(shù)學(xué)、生物學(xué)、化學(xué)、藥學(xué)、信息學(xué)等各個領(lǐng)域的研究人員廣泛關(guān)注并取得了大量成果[43-49]。生物信息學(xué)定義為應(yīng)用信息科學(xué)技術(shù)來理解、組織及管理生物分子數(shù)據(jù),旨在為生物研究人員提供一些工具及資源,方便他們獲取生物數(shù)據(jù),分析數(shù)據(jù),從而發(fā)現(xiàn)生物世界的新知識[14]。它是一門新興前沿交叉學(xué)科,吸引著各種有影響力國際組織的重大的關(guān)注,ORACLE、MICROSOFT、Google等公司也先后加大力度投入生物信息學(xué)領(lǐng)域的開發(fā)和研究[15-17]。由于這一領(lǐng)域有著極大的潛力,美國國家標(biāo)準(zhǔn)技術(shù)協(xié)會(NIST)和美國國防部高級研究計劃局(DARPA)及美國計算機(jī)協(xié)會也相繼投入這一領(lǐng)域的研究。為了強(qiáng)應(yīng)這一潮流,搶占學(xué)科發(fā)展的制高點(diǎn),同時培養(yǎng)生物信息學(xué)人才,很多學(xué)校新增設(shè)了生物信息學(xué)這門課程。接下來我們將結(jié)合實際中的教學(xué)談幾點(diǎn)體會及相應(yīng)的一些嘗試探索。
二、生物信息學(xué)的特點(diǎn)
生物信息學(xué)在我國是一門新興前沿學(xué)科,它是信息學(xué)、生物學(xué)、數(shù)理統(tǒng)計等多學(xué)科的交叉、結(jié)合的產(chǎn)物。它需要多個領(lǐng)域的專家通力合作。傳統(tǒng)的生物學(xué)研究實質(zhì)是一門實驗科學(xué),需要對實驗數(shù)據(jù)進(jìn)行處理與分析,從而新現(xiàn)象、新的生物學(xué)規(guī)律,從而分析、歸納和總結(jié),提煉出新的生物學(xué)知識。然而隨著生物科學(xué)與信息技術(shù)的高速發(fā)展,生物數(shù)據(jù)的積累速度不斷加快,特別是人類基因組計劃順利實施,使得生物分子數(shù)據(jù)量以超過摩爾定律的速度迅速發(fā)展。利用這些豐富數(shù)據(jù),通過分析、處理揭示數(shù)據(jù)背后的生物學(xué)意義,是生物學(xué)家、數(shù)學(xué)家和信息處理人員面臨的一個嚴(yán)峻的挑戰(zhàn)。生物信息學(xué)就是為迎接這一挑戰(zhàn)而發(fā)展起來的一門新交叉學(xué)科。下面結(jié)合幾方面談?wù)勆镄畔W(xué)的特點(diǎn)。
生物信息學(xué)研究對象
生物體是一個復(fù)雜的系統(tǒng),同時也可看作是一個信息系統(tǒng)控制著生物的遺傳、生長、和發(fā)育。生物分子是生信信息的載體,對于生物信息學(xué)而言,主要研究兩種載體,即DNA分子和蛋白質(zhì)分子。攜帶著三種信息,遺傳信息、結(jié)構(gòu)信息及進(jìn)化信息。
DNA分子作為遺傳信息的載體,它的核苷酸序列上存儲著蛋白質(zhì)的氨基酸序列編碼信息,存儲著基因表達(dá)調(diào)控信息,攜帶著遺傳信息,主要存儲在DNA四種字符組成的堿基序列中,控制生物體性狀的基因是一系列DN段。這些遺傳信息的傳遞與表達(dá)促使生物體不斷生長與發(fā)育。DNA通過自我復(fù)制,不斷傳遞著遺傳信息使生物體得以繁衍,基因通過轉(zhuǎn)錄和翻譯,使得遺傳信息得以在生物體中表達(dá),從而后代表現(xiàn)出與親代相似的生物性狀。基因表達(dá)中,遺傳信息從DNA傳到RNA,這一過程稱之為轉(zhuǎn)錄,然后從RNA傳遞到蛋白質(zhì),這一過程稱之為翻譯,在表達(dá)中,基因控制著蛋白質(zhì)的合成。
蛋白質(zhì)是機(jī)體各種生理活動的物質(zhì)基礎(chǔ),蛋白質(zhì)分子是大分子化合物,其基本單位是小分子的氨基酸,組成蛋白質(zhì)的氨基酸有20種, DNA序列中三個連續(xù)的堿基為一個蛋白質(zhì)的氨基酸編碼。堿基字符序列與氨基酸字符序列組成了基本的生物信息,分析這些生物信息有助于認(rèn)識生命活動的規(guī)律及生命本質(zhì)。
總而言之,生物分子信息具體表現(xiàn)為DNA序列數(shù)據(jù)、蛋白質(zhì)序列數(shù)據(jù)、生物分子結(jié)構(gòu)數(shù)據(jù)、生物分子功勇數(shù)據(jù),生物信息學(xué)則綜合利用信息科學(xué)、生物學(xué)與數(shù)理科學(xué)的研究方法來收集、存儲、處理、分析與解釋海量生物信息。生物信息學(xué)把基因組DNA序列信息分析作為源頭,破譯遺傳語言,認(rèn)識遺傳信息的組織規(guī)律,識別隱藏在DNA序列中的基因,掌握基因的調(diào)控與表達(dá)功能,獲得蛋白質(zhì)的編碼信息后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測。
生物信息學(xué)研究的主要內(nèi)容
生物分子信息的收集與管理。生物分子數(shù)據(jù)量巨大,如核酸序列的數(shù)據(jù)以千兆計。因而有組織搜集和管理這些數(shù)據(jù)是各項工作的前提,便于一些研究人員共享這些數(shù)據(jù),及時得到最新的實驗結(jié)果,需要把這些數(shù)據(jù)整理成生物信息數(shù)據(jù)庫,同時要不斷更新與管理這些收集的信息從而使這些數(shù)據(jù)的一致性、可靠性和完整性得以保證。
數(shù)據(jù)庫搜索及序列比對。搜索同源序列在某種程度上就是通過序列比較尋找相似序列,這可使研究人員通過搜索序列數(shù)據(jù)庫找到與新序列同源的已知序列,并根據(jù)同源性推測該新序列的生物功能。而序列比對則是為了判斷兩個序列之間是否具有足夠的相似性。從而判定二者之間是否具有同源性。
基因表達(dá)數(shù)據(jù)的分析與處理。基因表達(dá)數(shù)據(jù)反映基因轉(zhuǎn)錄產(chǎn)物在細(xì)胞中的豐度,通過這些數(shù)據(jù)可以用來分析哪些基因的表達(dá)發(fā)生了改變,基因之間有何相關(guān)性,基因的活動的受限,基因的功能,提供疾病發(fā)病機(jī)理等等,是生物信息學(xué)研究中的熱點(diǎn)與重點(diǎn)。
生物醫(yī)學(xué)信息學(xué)的定義
根據(jù)美國醫(yī)藥信息學(xué)會(American Medical Informatics Association, AMIA)的定義:Biomedical Informatics (BMI) is the interdisciplinary, scientific field that studies and pursues the effective uses of biomedical data, information, and knowledge for scientific inquiry, problem solving and decision making, motivated by efforts to improve human health.
生物醫(yī)學(xué)信息學(xué)(BMI)是一門研究如何有效利用生物醫(yī)學(xué)數(shù)據(jù)、信息和知識的跨學(xué)科科學(xué),以滿足科學(xué)查詢、解決問題和制定決策的需求,并通過不斷的努力,推動和提高人們的健康。
生物醫(yī)學(xué)信息學(xué)的關(guān)鍵屬性
生物醫(yī)學(xué)信息學(xué)主要從事生物醫(yī)學(xué)數(shù)據(jù)、信息、知識的產(chǎn)生、存儲、獲取、使用及共享的理論、方法和過程的研究、開發(fā)和應(yīng)用。
生物醫(yī)學(xué)信息學(xué)建立在計算機(jī)技術(shù)、通訊技術(shù)以及信息科學(xué)的基礎(chǔ)上,是IT技術(shù)在生物醫(yī)學(xué)領(lǐng)域上的應(yīng)用。
生物醫(yī)學(xué)信息學(xué)在方法學(xué)上可以支持從分子水平到大眾水平的研究、推論、建模、模擬、實驗和轉(zhuǎn)化。覆蓋從基礎(chǔ)醫(yī)學(xué)、臨床科研,到臨床診療、公共衛(wèi)生等多種生物醫(yī)學(xué)領(lǐng)域的研究和應(yīng)用。
生物醫(yī)學(xué)信息學(xué)認(rèn)為生物醫(yī)學(xué)信息的最終使用者是人。因此,社會科學(xué)和行為科學(xué)對于技術(shù)性解決方案的設(shè)計和評價,以及對于復(fù)雜經(jīng)濟(jì)、倫理、社會、教育和組織架構(gòu)的演進(jìn),起到了非常重要的影響作用。
BMI各應(yīng)用領(lǐng)域的相互關(guān)系和區(qū)別
在生物醫(yī)學(xué)信息學(xué)領(lǐng)域有很多看似非常相近的術(shù)語和名詞,很容易被混淆和亂用,例如:信息學(xué)、醫(yī)學(xué)信息學(xué)、生物信息學(xué)、衛(wèi)生信息學(xué)、生物醫(yī)學(xué)信息學(xué)、公共衛(wèi)生信息學(xué)等等。如何理解這些術(shù)語?它們之間的區(qū)別和聯(lián)系又是怎樣的呢?
Shortliffe教授解釋說:生物醫(yī)學(xué)信息學(xué)是一門基礎(chǔ)性生物醫(yī)學(xué)科學(xué),是一門應(yīng)用潛力非常廣泛的科學(xué)。生物醫(yī)學(xué)信息學(xué)研究和發(fā)展的推動力,是生物學(xué)和醫(yī)學(xué)領(lǐng)域的臨床、科研和實踐中所遇到的各種問題。生物醫(yī)學(xué)信息學(xué)將生物醫(yī)學(xué)的理論和方法與計算機(jī)、信息和通訊技術(shù)相結(jié)合,以創(chuàng)新和發(fā)展新的方法和理論為目標(biāo)。這些核心理論和方法包括數(shù)學(xué)建模、數(shù)據(jù)庫理論、認(rèn)知科學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)挖掘,自然語言處理等等,反過來又促進(jìn)生物醫(yī)學(xué)科學(xué)和健康科學(xué)的研究、應(yīng)用和創(chuàng)新。
生物醫(yī)學(xué)信息學(xué)理論、方法和技術(shù)首先被應(yīng)用到臨床醫(yī)療、診斷和護(hù)理等臨床醫(yī)學(xué)領(lǐng)域,同時也被應(yīng)用在牙科和獸醫(yī)學(xué)領(lǐng)域。這些領(lǐng)域關(guān)注的是患者個體,是以患者為中心實現(xiàn)臨床相關(guān)信息的采集、集成、共享和應(yīng)用,因此被稱為臨床信息學(xué)。
與臨床信息學(xué)緊密聯(lián)系在一起的是公共衛(wèi)生信息學(xué),它的應(yīng)用不是針對單一的患者個體,而是關(guān)注整個人群,以大眾健康和管理為目標(biāo)。臨床信息學(xué)和公共衛(wèi)生信息學(xué)共享了很多相同的方法和技術(shù),這兩個方面結(jié)合在一起就是我們通常所說的醫(yī)學(xué)信息學(xué)。因此,生物醫(yī)學(xué)信息學(xué)不能等同于醫(yī)學(xué)信息學(xué)。
生物醫(yī)學(xué)信息學(xué)在生物學(xué)領(lǐng)域的應(yīng)用,特別是在細(xì)胞生物學(xué)和分子生物學(xué)上的應(yīng)用,主要關(guān)注的是細(xì)胞和分子水平的過程,這部分被稱為生物信息學(xué)。
生物醫(yī)學(xué)信息學(xué)在放射影像、圖像成像和分析、以及影像管理方面的應(yīng)用被稱作影像信息學(xué)。影像信息學(xué)以組織和器官為主要對象,包括:放射影像、病理影像、超聲影像、皮膚病學(xué)、以及分子可視化等等應(yīng)用領(lǐng)域。
據(jù)Shortliffe教授介紹,其實這些應(yīng)用領(lǐng)域的邊際是非常模糊的,例如生物信息學(xué)和影像信息學(xué)相結(jié)合就產(chǎn)生了分子生物成像學(xué);生物信息學(xué)和臨床信息學(xué)的結(jié)合形成了藥物基因組學(xué),而臨床信息學(xué)和公共衛(wèi)生信息學(xué)相結(jié)合則形成了大眾消費(fèi)健康學(xué)。
BMI和HIT的關(guān)系
生物醫(yī)學(xué)信息學(xué)與計算機(jī)科學(xué)(軟件和硬件)、臨床科學(xué)、基礎(chǔ)生物醫(yī)學(xué)科學(xué)、流行病學(xué)、統(tǒng)計學(xué)、生物工程學(xué)、管理科學(xué)及認(rèn)知科學(xué)與決策密切相關(guān)。
生物醫(yī)學(xué)信息學(xué)(BMI)與醫(yī)學(xué)信息技術(shù)(Healthcare Information Technology, HIT)有著密切的關(guān)系,但相互各有側(cè)重。BMI更偏重于BMI理論的研究、方法的建立、教學(xué)、以及這些理論和方法在生物醫(yī)學(xué)研究領(lǐng)域應(yīng)用。其主要參與者是學(xué)術(shù)研究人員、科研機(jī)構(gòu)及相關(guān)實驗室。而HIT則更偏重于應(yīng)用,主要是把BMI的方法、理念以及研究成果與醫(yī)療臨床實踐相結(jié)合,并通過廠商開發(fā)成相應(yīng)的醫(yī)療信息系統(tǒng)產(chǎn)品,供醫(yī)院和衛(wèi)生行政機(jī)構(gòu)使用。其主要參與者是醫(yī)療IT廠商、醫(yī)療臨床機(jī)構(gòu)及衛(wèi)生行政機(jī)構(gòu)等。在美國,生物醫(yī)學(xué)信息學(xué)領(lǐng)域的學(xué)術(shù)組織是美國醫(yī)藥信息學(xué)會(AMIA),而醫(yī)學(xué)信息技術(shù)領(lǐng)域的學(xué)術(shù)組織是美國醫(yī)療信息管理和系統(tǒng)協(xié)會(HIMSS)。
加強(qiáng)生物醫(yī)學(xué)信息學(xué)教育和培訓(xùn)
生物醫(yī)學(xué)信息學(xué)對于生物醫(yī)學(xué)研究、企業(yè)應(yīng)用系統(tǒng)的研發(fā)、圖書館情報學(xué)和知識管理、公共衛(wèi)生統(tǒng)計、生物技術(shù)和制藥、臨床實踐和管理、以及政府決策研究,都將發(fā)揮重要的作用。
但是,目前要真正把信息技術(shù)應(yīng)用到生物醫(yī)學(xué)領(lǐng)域以及臨床診療中,還存在一個非常大的障礙,就是缺乏同時具備信息技術(shù)知識和生物醫(yī)學(xué)領(lǐng)域知識的復(fù)合型人才。因此,作為交叉科學(xué)的生物醫(yī)學(xué)信息學(xué),要肩負(fù)起自己的使命,要為復(fù)合型人才的培養(yǎng)做出貢獻(xiàn)。各醫(yī)學(xué)院校和研究機(jī)構(gòu),在開展常規(guī)的生物醫(yī)學(xué)信息學(xué)學(xué)位教育之外,還應(yīng)該積極開設(shè)信息學(xué)相關(guān)的培訓(xùn),為醫(yī)學(xué)生和護(hù)理學(xué)生提供雙學(xué)位課程。另外,要加強(qiáng)對醫(yī)藥衛(wèi)生專業(yè)人員的信息學(xué)繼續(xù)教育,并積極為臨床醫(yī)護(hù)人員所進(jìn)行生物信息學(xué)研究提供必要的支持和協(xié)作。
下一代測序技術(shù)的應(yīng)用產(chǎn)生了大量的測序數(shù)據(jù),這對生物學(xué)特別是生物信息學(xué)在數(shù)據(jù)的存儲、管理和搜索等方面帶來了新的挑戰(zhàn)。一直以來計算機(jī)存儲和處理數(shù)據(jù)能力的增長速度都快于生物數(shù)據(jù)的增長速度,但2003年后,由于測序技術(shù)的發(fā)展使得測序成本大幅度下降,產(chǎn)生了大量的生物數(shù)據(jù),計算機(jī)的存儲和計算能力逐漸無法滿足大數(shù)據(jù)的需求。這促進(jìn)了云計算的運(yùn)用和發(fā)展,它使得用戶可以根據(jù)需求租用硬件設(shè)備和軟件,避免了對硬件設(shè)備的大量資金投入和管理投入。
1 云計算定義
“云”是一個通過虛擬技術(shù)把云端計算機(jī)或是服務(wù)器連接在一起的服務(wù)網(wǎng)絡(luò)。存儲和分析數(shù)據(jù)都由“云”端的服務(wù)器或是計算機(jī)完成。中國云計算專家劉鵬給出如下定義:“云計算是一種商業(yè)計算模型,它將計算任務(wù)分布在大量計算機(jī)構(gòu)成的資源池上,使用戶能夠按需獲取計算力、存儲空間和信息服務(wù)。”
按照資源的共享水平,云計算的服務(wù)模式分為三種,基礎(chǔ)架構(gòu)即服務(wù)(Infrastructure as a service), 平臺即服務(wù)(Platform as a service)和軟件即服務(wù)(Software as a service)。
IaaS(Infrastructure as a service) Service:基礎(chǔ)架構(gòu)即服務(wù)。它整合了基礎(chǔ)設(shè)施如虛擬主機(jī)、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備等資源成為一個服務(wù)平臺提供給用戶使用。IaaS位于網(wǎng)絡(luò)的底層,向用戶提供按需分配、按需付費(fèi)的計算設(shè)備和存儲設(shè)備。
PaaS(Platform as a service)提供服務(wù)平臺,用戶掌控運(yùn)作應(yīng)用程序的環(huán)境,可以在平臺上應(yīng)用,測試和開發(fā)軟件。
SaaS(Software as a service)即在服務(wù)平臺上提供軟件供用戶使用,用戶只使用軟件,不掌握操作系統(tǒng)、硬件等網(wǎng)絡(luò)基礎(chǔ)架構(gòu)。用戶不必自己安裝軟件,只需要瀏覽器連接到公共的服務(wù)平臺即可。供應(yīng)商會按照用戶的要求安裝所需的軟件,并負(fù)責(zé)軟件的升級和維護(hù)。
云計算的主要優(yōu)點(diǎn):
(1)把用戶從安裝和測試軟件的工作中解脫出來。云計算平臺可以按照用戶的需求提供軟件及硬件的服務(wù)。用戶不需要考慮網(wǎng)絡(luò)下面復(fù)雜的硬件架構(gòu),僅僅需要關(guān)注計算和分析就可以。
(2)按需租用計算資源可以讓用戶支付更少的費(fèi)用。在云計算平臺上,用戶在最初時可以租用少量的機(jī)器,以后隨著需求的增加或減少相應(yīng)的增加或減少租用的機(jī)器。用戶所付的費(fèi)用就是實際租用機(jī)器的費(fèi)用。
(3)云計算方便研究人員之間的數(shù)據(jù)共享和分析。不同研究者在本地服務(wù)器上安裝的軟件版本可能不同,所以共享數(shù)據(jù)和軟件很困難。云計算可以使登錄同一個平臺的用戶共享操作系統(tǒng)和所有的軟件數(shù)據(jù),保證了軟件的版本同步更新。
2 云計算在生物信息中的應(yīng)用
我們把云計算在生物信息學(xué)中的應(yīng)用按IaaS, PaaS和SaaS三個方面分別介紹。
2.1 IaaS
用戶租用云計算上的虛擬主機(jī)可以自己控制計算、存儲等硬件設(shè)備,建立需要的計算環(huán)境。并且大量的生物信息學(xué)工具可以打包為虛擬鏡像用于租用的云計算的虛擬主機(jī)上,可以很方便的進(jìn)行多種數(shù)據(jù)分析。如CloVR提供的一個包含預(yù)配置和自動的生物信息學(xué)流程的虛擬主機(jī),可以運(yùn)行在本地的計算機(jī)上也可以運(yùn)行在云計算平臺上。這個虛擬機(jī)以Ubuntu和BioLinux為基礎(chǔ),安裝了Grid Engine和Hadoop作為作業(yè)調(diào)度,Ergatis作為工作流系統(tǒng),還有很多開源的生物信息學(xué)軟件,如BLAST、16S rRNA等。用戶也可以開發(fā)自己的軟件運(yùn)行在虛擬機(jī)上。Bioconductor是一個開源的關(guān)于R語言的生物信息學(xué)庫,提供了一系列的軟件包用于微陣列數(shù)據(jù)分析。用戶可以下載Bioconductor提供的鏡像安裝到租用的云計算平臺上。
2.2 PaaS
Galaxy Cloudman和Eoulsan可以看做PaaS。Galaxy整合了一系列的簡單易用的工具,提供一個簡易的網(wǎng)頁用來分析數(shù)據(jù)。Galaxy Cloudman把Galaxy的軟件工具打包成一個鏡像,可以在AWS(Amazon Web Service)上應(yīng)用。用戶可以將其他安裝在Galaxy平臺上的軟件安裝到自己的云計算平臺上,甚至可以在Galaxy Cloudman上定義插件。通過添加額外的工具,可以擴(kuò)展默認(rèn)函數(shù)并測試和使用。從這個意義上說,Galaxy Cloudman可以看做PaaS。
Eoulsan整合了很多下一代基因數(shù)據(jù)分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一個框架內(nèi),同時,它也支持用戶自己開發(fā)的插件用于數(shù)據(jù)分析。
2.3 SaaS
很多傳統(tǒng)的生物信息學(xué)工具如BLAST、UCSC Genome Browser僅僅用一個瀏覽器就可以登錄到服務(wù)器使用相應(yīng)的服務(wù),它們也可以稱為SaaS。這些服務(wù)一般由軟件工具的開發(fā)者提供,伸縮性很差。我們主要介紹應(yīng)用于云計算平臺上可以伸縮的生物信息學(xué)工具。
短序列(讀段)匹配是指將測序得到短序列匹配到參考基因組上,這是許多測序數(shù)據(jù)分析的第一步,如SNP識別和基因表達(dá)譜分析。CloudBurst,CloudAligner,SEAL和Crossbow都是應(yīng)用于云計算基于MapReduce的軟件,可以匹配數(shù)以百萬計的序列。Schatz用”seed-and-extend”算法開發(fā)的CloudBurst可以確定錯誤匹配的數(shù)目。CloudBurst模仿了RMAP的算法,但速度提高了30倍。但是CloudBurst不支持fastq文件,并且不能處理重亞硫酸鹽測序和(雙)末端測序產(chǎn)生的數(shù)據(jù)。CloudAligner彌補(bǔ)了這個缺點(diǎn),并且比CloudBurst快35%到80%。SEAL整合了BWA,在序列匹配時可以去除重復(fù)的序列,這對SNP識別和以后分析很有用。應(yīng)用MapReduce的Crossbow整合了Bowtie和SOAPsnp,可以在幾個小時內(nèi)匹配數(shù)以十億計的序列。
差異表達(dá)分析可以用來尋找不同樣本中表達(dá)有明顯差別的基因,而RNA測序(RNA-seq)用來量化樣本中的基因表達(dá)水平。Myrna是一個云計算平臺上計算大規(guī)模RNA測序的軟件。它整合了序列匹配、歸一化、聚類分析和統(tǒng)計模型,直接輸出不同樣本的基因表達(dá)水平和不同表達(dá)水平的基因。然而,Myrna 最大的缺陷是不能正確地將短序列匹配到外顯子拼接位點(diǎn)上。但FX彌補(bǔ)了這個缺點(diǎn)。FX用改進(jìn)的匹配函數(shù)分析RNA數(shù)據(jù),以RPKM或是BPKM的格式輸出不同基因的表達(dá)水平。
3 云計算面臨的問題
云計算提供了強(qiáng)大的計算能力,但云計算自身的特點(diǎn)也使它的發(fā)展面臨了一些困難和制約。云計算在生物信息學(xué)上的應(yīng)用尚處于初期階段,盡管已經(jīng)出現(xiàn)了一定數(shù)量的生物信息學(xué)工具,但仍有很多的分析無法完成,很多的工具還需升級或者開發(fā)。云計算上數(shù)據(jù)的隱私性和安全性也是用戶需要考慮的方面。特別是一些生物數(shù)據(jù)涉及到病人的隱私,但很多國家還沒有保護(hù)這種數(shù)據(jù)隱私的法律。云計算服務(wù)提供商需要制定一些規(guī)則來保護(hù)用戶的數(shù)據(jù)。
4 對應(yīng)用云計算的建議
對于將要使用云計算的用戶,需要考慮以下三個方面:數(shù)據(jù)規(guī)模、安全隱私和費(fèi)用。
數(shù)據(jù)規(guī)模及安全隱私:首先要考慮你的數(shù)據(jù)規(guī)模是否超過了本地計算機(jī)的處理能力。現(xiàn)在本地的個人電腦可以處理數(shù)千兆的數(shù)據(jù),服務(wù)器一次可以處理數(shù)百G的數(shù)據(jù)。如果用戶熟悉并行計算的技術(shù),可以處理數(shù)TB的數(shù)據(jù)。但如果你的數(shù)據(jù)更大并且不精通并行計算,本地計算機(jī)和服務(wù)器就很難處理了,就可以考慮云計算。用戶如果要向云計算平臺上傳輸數(shù)據(jù),需要考慮數(shù)據(jù)的安全性和隱私性。比如涉及病人的隱私是否會泄露,云計算服務(wù)提供商是否可以保證數(shù)據(jù)的安全等。
費(fèi)用:云計算的費(fèi)用一般是按照使用的計算資源的多少和使用時間的長短計算的。使用云計算前應(yīng)該評估其使用費(fèi)用。用戶應(yīng)該考慮所有階段的費(fèi)用,如數(shù)據(jù)傳輸、保存、分析等。
目前,云計算和生物信息學(xué)都處在快速發(fā)展當(dāng)中,云計算在生物信息學(xué)中的應(yīng)用也越來越廣泛和深入。特別是生物數(shù)據(jù)的大規(guī)模增漲,生物學(xué)家必須從大量的數(shù)據(jù)當(dāng)中分辨出有用的信息。這就需要強(qiáng)大的存儲能力和計算分析能力,云計算可以很好的解決這個問題。 云計算和生物信息學(xué)的結(jié)合將極大的促進(jìn)生物學(xué)的發(fā)展。
參考文獻(xiàn)
[1]劉鵬主編.云計算(第二版)[M].北京:電子工業(yè)出版社,2011(05).
[2]Schatz MC,CloudBurst:Highly sensitive read mapping with MapReduce,Bioinformatics
25(11):1363-1369,2009.
[3]Nguyen T,ShiW,Ruden D,CloudAligner:A fast and full-featured mapreduce based tool.for sequence mapping, BMC Res Notes 4:171,2011.
[4]Hong D,Rhie A,Park SS,Lee J,Ju YS,Kim S,Yu SB,Bleazard T,Park HS,Rhee H,Chong H,Yang KS,Lee YS,Kim IH,Lee JS,Kim JI,Seo JS,F(xiàn)X:An RNA-seq analysis tool on the cloud, Bioinformatics 28(5):721-723,2012.
作者簡介
作為整個信息鏈的起點(diǎn),事實就是事物在人類視野(感觀/邏輯)中的原始映像[1]。事實是事情的真實情況,包括事物、事件、事態(tài),即客觀存在的一切物體與現(xiàn)象、社會上發(fā)生的不平常事情和局勢及情況的變異態(tài)勢[2]。事實也是人類知識的起源,人類全部知識的最初信息基礎(chǔ)就是事實。
1.2數(shù)據(jù)(Data)
通常認(rèn)為,數(shù)據(jù)是對事物純粹的、客觀的記錄,是原始的未經(jīng)解讀的數(shù)字、文字、圖像、符號、聲音、計算機(jī)代碼等[3]。而數(shù)據(jù)本身缺乏關(guān)聯(lián)和目的性,但當(dāng)數(shù)據(jù)結(jié)合一定的背景、規(guī)則、意義之后,就會形成信息。
1.3信息(Information)
作為整個信息鏈中的中心鏈環(huán)的信息,它的下游是面向物理屬性的,上游是面向認(rèn)知屬性的。“信息”既有物理屬性也有認(rèn)知屬性,因此成為“信息鏈”的代表稱謂。
1.4知識(Knowledge)
知識來自于信息,信息只有同接收者的個人經(jīng)驗、信息與知識準(zhǔn)備結(jié)合,也就是同接收者的個人背景融合才能轉(zhuǎn)化為知識,它比數(shù)據(jù)或信息更接近行動。知識必須經(jīng)過學(xué)習(xí)或研究以及從信息中經(jīng)過去粗取精、去偽存真等加工才能夠獲得[4]。
1.5情報(Intelligence)
情報是為實現(xiàn)主體某種特定目的,有意識地對有關(guān)的事實、數(shù)據(jù)、信息、知識等要素進(jìn)行加工后得到的產(chǎn)物。情報既包含有信息的成分,也包含有知識的成分。從信息層面看,情報所包含的信息是與人類社會有關(guān)的;從知識層面看,情報是與知識的利用價值緊緊聯(lián)系在一起的。從一定程度上來說,情報是知識的子集。1.6智慧(Wisdom)智慧是能迅速、靈活、正確地理解和解決事物的能力。這種能力來源于人類基于已有的知識,是針對物質(zhì)世界運(yùn)動過程中產(chǎn)生的問題,根據(jù)獲得的信息進(jìn)行分析、對比、演繹,找出解決方案的能力。從嚴(yán)格意義上來講,智慧是屬于知識層面的,是人類大腦運(yùn)用知識活動的產(chǎn)物———即運(yùn)作和應(yīng)用知識的知識。有知識不一定有智慧,但有智慧一定有知識。知識只有轉(zhuǎn)化為智慧,才能顯示出其真正的價值。
1.7事實、數(shù)據(jù)、信息、知識、情報、智慧之間的關(guān)系
數(shù)據(jù)是客觀事實的記錄,信息是有意義的事實和數(shù)據(jù),知識是系統(tǒng)化的信息,情報是進(jìn)入人類社會交流系統(tǒng)的運(yùn)動著的知識,智慧是運(yùn)用信息和知識解決問題的能力。這樣由事實(Facts)數(shù)據(jù)(Data)信息(In-formation)知識(Knowledge)情報(Intelligence)智慧(Wisdom)層層遞進(jìn),構(gòu)成了一條完整的信息鏈,見圖1[5]。
2醫(yī)學(xué)信息學(xué)的相關(guān)概念
2.1國外醫(yī)學(xué)信息學(xué)定義的三種導(dǎo)向
2.1.1以信息技術(shù)為導(dǎo)向定義側(cè)重于技術(shù)和工具,即通常強(qiáng)調(diào)以計算機(jī)為基礎(chǔ)的技術(shù)。“臨床計算”、“醫(yī)學(xué)中的計算機(jī)”、“醫(yī)學(xué)計算機(jī)科學(xué)”、“計算機(jī)在醫(yī)學(xué)中的應(yīng)用”等認(rèn)識比較常見[6]。
2.1.2以角色、任務(wù)或面向領(lǐng)域為導(dǎo)向定義側(cè)重于組織內(nèi)部信息人員的角色。例如,護(hù)理信息學(xué)、牙醫(yī)信息學(xué)等通過醫(yī)學(xué)信息學(xué)分支學(xué)科來定義。
2.1.3以概念為導(dǎo)向定義側(cè)重于如數(shù)據(jù)、信息和知識這些概念在醫(yī)學(xué)領(lǐng)域中的特定內(nèi)涵。從總體上來看,國外醫(yī)學(xué)信息學(xué)的定義是朝著形成基于數(shù)據(jù)、信息、知識的醫(yī)學(xué)信息學(xué)定義方向發(fā)展的。
2.2中國醫(yī)學(xué)信息學(xué)定義的兩種傾向
2.2.1基于字面拆分后的概念解析
第一種拆分是將“醫(yī)學(xué)信息學(xué)”拆分為“醫(yī)學(xué)”+“信息學(xué)”(medicalinformatics)———偏重于方法論層面。把“醫(yī)學(xué)信息學(xué)”定義為信息學(xué)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用,同時確定醫(yī)學(xué)信息學(xué)的范圍是“醫(yī)學(xué)”和“信息學(xué)”之交叉。前者指其應(yīng)用領(lǐng)域,后者指其方法學(xué)。第二種拆分是將“醫(yī)學(xué)信息學(xué)”拆分為“醫(yī)學(xué)信息”+“學(xué)”(medicalinformationscience)———側(cè)重于學(xué)科體系層面(即理論與技術(shù)方法統(tǒng)一的學(xué)科體系)。把醫(yī)學(xué)信息學(xué)定義為研究“醫(yī)學(xué)信息”的一門科學(xué),即研究醫(yī)學(xué)領(lǐng)域中的信息現(xiàn)象和信息規(guī)律的一門科學(xué)。
2.2.3基于國外醫(yī)學(xué)信息學(xué)定義的翻譯與重組
此類定義大多為將國外醫(yī)學(xué)信息學(xué)的定義翻譯成不同形式的漢語語言并且進(jìn)行重組,與國外對醫(yī)學(xué)信息學(xué)的定義無太大區(qū)別。
3醫(yī)學(xué)信息學(xué)研究中的信息鏈
3.1“數(shù)據(jù)信息”鏈
這一環(huán)節(jié)的重點(diǎn)在于對醫(yī)療大數(shù)據(jù)的應(yīng)用。當(dāng)下全球大量的公共衛(wèi)生信息、電子病歷信息、用藥信息、住院信息、圖像信息、管理信息、基因信息、醫(yī)學(xué)知識庫信息以及實驗室數(shù)據(jù)等構(gòu)成了醫(yī)療衛(wèi)生大數(shù)據(jù)[7]。隨著信息技術(shù)與衛(wèi)生及生物醫(yī)學(xué)日益緊密的結(jié)合,大數(shù)據(jù)對衛(wèi)生及生物醫(yī)學(xué)的研究與應(yīng)用也將產(chǎn)生深刻影響。因此,如何更好地利用大數(shù)據(jù)便成為信息技術(shù)與衛(wèi)生及生物醫(yī)學(xué)領(lǐng)域共同面對的挑戰(zhàn)。大數(shù)據(jù)在醫(yī)療行業(yè)可應(yīng)用于臨床、研發(fā)、公共衛(wèi)生和創(chuàng)新商業(yè)模式等領(lǐng)域,在健康領(lǐng)域的終極應(yīng)用是疾病診斷和預(yù)測性治療。雖然醫(yī)療大數(shù)據(jù)的研究和應(yīng)用如火如荼,但在應(yīng)用過程中也面臨著諸多問題,如數(shù)據(jù)的存儲、數(shù)據(jù)的整合、數(shù)據(jù)的挖掘利用和保護(hù)等方面都面臨著一些問題。這也就需要我們在利用醫(yī)療大數(shù)據(jù)的同時,變革數(shù)據(jù)管理方式、建立完善的區(qū)域衛(wèi)生信息化標(biāo)準(zhǔn)體系、積極探索利用數(shù)據(jù)挖掘技術(shù)等等各種措施,利用創(chuàng)新的方法和模式,發(fā)揮大數(shù)據(jù)在醫(yī)院行政管理、健康教育與管理、衛(wèi)生信息服務(wù)和疾病的控制預(yù)防中的作用和價值。
3.2“信息知識”鏈
這一環(huán)節(jié)主要關(guān)注醫(yī)學(xué)知識庫的建立。數(shù)據(jù)庫是計算機(jī)應(yīng)用系統(tǒng)中的一種專門管理數(shù)據(jù)資源的系統(tǒng),它有文字、符號、圖形、圖像、數(shù)字及聲音等多種形式。而知識庫是知識工程中結(jié)構(gòu)化、易操作、易利用、有組織的知識集群,是針對某一(或某些)領(lǐng)域問題求解的需要,采用某種(或若干)知識表示方式在計算機(jī)存儲器中存儲、組織、管理和使用的互相聯(lián)系的知識集合區(qū)別與聯(lián)系[8]。知識庫的概念來自兩個不同的領(lǐng)域,一個是人工智能及其分支———知識工程領(lǐng)域,另一個是傳統(tǒng)的數(shù)據(jù)庫領(lǐng)域。人工智能和數(shù)據(jù)庫兩項計算機(jī)技術(shù)的有機(jī)結(jié)合,促成了知識庫系統(tǒng)的產(chǎn)生和發(fā)展。建立醫(yī)學(xué)知識庫,需要一支多學(xué)科人才的專業(yè)隊伍,并且要能夠適應(yīng)數(shù)字化醫(yī)療向智慧化醫(yī)療的轉(zhuǎn)變需要,構(gòu)建大型的一站式通用智能醫(yī)學(xué)知識庫。建立知識庫,要以本體為建設(shè)思路和方法,不僅要構(gòu)建西醫(yī)學(xué)科的知識庫,更要構(gòu)建中醫(yī)學(xué)科知識庫,且重視與“大數(shù)據(jù)”醫(yī)療的整合,更好地利用臨床信息,將有用的信息知識化。
3.3“知識智慧”鏈
這一環(huán)節(jié)的著重點(diǎn)在于智慧醫(yī)療的實現(xiàn)。2008年,IBM首先提出了“智慧醫(yī)療”的概念。早期的智慧醫(yī)療強(qiáng)調(diào)物聯(lián)網(wǎng)的作用,設(shè)想把物聯(lián)網(wǎng)技術(shù)充分應(yīng)用到醫(yī)療領(lǐng)域中,以實現(xiàn)醫(yī)療的信息互聯(lián)、共享協(xié)作、臨床創(chuàng)新、科學(xué)診斷以及公共衛(wèi)生預(yù)防。而未來的智慧醫(yī)療將是以衛(wèi)生信息化和信息共享為基礎(chǔ),以患者為中心,以個性化、智能化醫(yī)療服務(wù)為核心的醫(yī)療服務(wù)體系[9]。智慧醫(yī)療包括了智慧醫(yī)院、區(qū)域醫(yī)療、家庭自助健康監(jiān)護(hù)等多種服務(wù)方式,它將成為未來醫(yī)療衛(wèi)生信息化發(fā)展的主要潮流。智慧醫(yī)療可以創(chuàng)建一個更加合理的醫(yī)療產(chǎn)業(yè)鏈,并且使用戶體會到更加智能化和協(xié)調(diào)化的醫(yī)療服務(wù)[10]。
4醫(yī)學(xué)信息學(xué)的未來發(fā)展方向
4.1學(xué)科體系的協(xié)同融合,加速了生物醫(yī)學(xué)信息學(xué)的形成與發(fā)展
醫(yī)學(xué)信息學(xué)(MedicalInformatics,MI)和生物信息學(xué)(Bioinformatics,BI)雖然產(chǎn)生背景不同,但是進(jìn)入后基因組時代之后,生物信息學(xué)和醫(yī)學(xué)信息學(xué)的邊界趨于模糊,互相滲透和結(jié)合的趨勢明顯。其目的就是要提供新的生物醫(yī)學(xué)知識的開發(fā)和共享框架。正是兩者的協(xié)同融合加速產(chǎn)生了一門新的學(xué)科———生物醫(yī)學(xué)信息學(xué)(BiomedicalInformatics,BMI)。可以預(yù)見的是,基于相同的學(xué)科理論基礎(chǔ)和彼此交叉融合的研究內(nèi)容,生物醫(yī)學(xué)信息學(xué)一定是醫(yī)學(xué)信息學(xué)和生物信息學(xué)未來的發(fā)展方向。
4.2學(xué)科研究向促進(jìn)“轉(zhuǎn)化研究”的方向發(fā)展
首先,在信息鏈的研究視角下,醫(yī)學(xué)信息學(xué)的發(fā)展會更加注重信息鏈中的要素從低層次到高層次的鏈環(huán)轉(zhuǎn)化;其次,在醫(yī)療領(lǐng)域,醫(yī)學(xué)信息學(xué)面臨的最大的挑戰(zhàn)是如何將生物醫(yī)學(xué)研究領(lǐng)域的成果快速、可靠地轉(zhuǎn)化為現(xiàn)實可用的臨床解決方案。同時,醫(yī)學(xué)信息學(xué)出現(xiàn)了新的分支學(xué)科,即轉(zhuǎn)化醫(yī)學(xué)信息學(xué)。轉(zhuǎn)化醫(yī)學(xué)信息學(xué)通常被認(rèn)為是以轉(zhuǎn)化醫(yī)學(xué)中的相關(guān)信息問題為研究對象,結(jié)合信息科學(xué)、理論基礎(chǔ)和應(yīng)用技術(shù),服務(wù)于轉(zhuǎn)化醫(yī)學(xué)的研究,其目的是促進(jìn)基礎(chǔ)醫(yī)學(xué)研究成果順利向臨床應(yīng)用轉(zhuǎn)化[11]。轉(zhuǎn)化醫(yī)學(xué)信息學(xué)的研究內(nèi)容包括醫(yī)學(xué)信息的標(biāo)準(zhǔn)化和醫(yī)學(xué)數(shù)據(jù)的組織與存儲等。它可以利用信息技術(shù)有效地加快基礎(chǔ)研究變?yōu)榕R床應(yīng)用,有力地促進(jìn)轉(zhuǎn)化醫(yī)學(xué)的發(fā)展。
4.3學(xué)科的社會服務(wù)功能不斷提升
4.3.1個性化
個性化意味著衛(wèi)生信息管理和衛(wèi)生信息服務(wù)以用戶為中心,圍繞每個用戶的狀態(tài)、需求乃至興趣愛好來采集信息或提供信息服務(wù)。可以設(shè)想,在未來每個患者都將擁有自己的個人健康中心。
4.3.2智能化
智能化意味著通過對既有信息的分析,挖掘其中的規(guī)律,利用獲得的規(guī)律來處理新的信息,并給用戶提供科學(xué)合理的建議。
4.4新技術(shù)支撐和引領(lǐng)著醫(yī)學(xué)信息學(xué)的未來發(fā)展
在未來發(fā)展中,許多嶄新的技術(shù)可以有效地促進(jìn)醫(yī)學(xué)信息學(xué)的研究和應(yīng)用的發(fā)展。遠(yuǎn)程醫(yī)療(Telemedicine):計算機(jī)技術(shù)、多媒體技術(shù)、通信技術(shù)與醫(yī)療技術(shù)結(jié)合。移動醫(yī)療(MobileHealth):通過移動通信技術(shù)來提供醫(yī)療服務(wù)。健康物聯(lián)網(wǎng)(TheInternetofthings):利用物聯(lián)網(wǎng)進(jìn)行健康和疾病的管理。健康云(Healthcloud):以SaaS的方式向醫(yī)院和醫(yī)療機(jī)構(gòu)提供醫(yī)院管理和居民健康檔案管理方面的服務(wù)。醫(yī)療大數(shù)據(jù)(Medicalbigdata):大數(shù)據(jù)技術(shù)與醫(yī)療行業(yè)結(jié)合,充分開發(fā)利用醫(yī)療數(shù)據(jù)蘊(yùn)含的信息與價值。轉(zhuǎn)化醫(yī)學(xué)(TranslationalMedicine):建立基礎(chǔ)研究與臨床醫(yī)療間更為直接便捷的聯(lián)系。智慧醫(yī)療(Wisemedical):使用物聯(lián)網(wǎng)技術(shù)打造健康檔案和醫(yī)療信息平臺,實現(xiàn)患者與醫(yī)護(hù)人員、醫(yī)療機(jī)構(gòu)和醫(yī)療設(shè)備的互動。
4.5我國醫(yī)學(xué)信息學(xué)學(xué)科發(fā)展亟待解決的問題
我國醫(yī)學(xué)信息學(xué)最近幾年發(fā)展很快,但學(xué)科研究體系不夠完善和成熟、學(xué)科建設(shè)和理論研究比較薄弱、標(biāo)準(zhǔn)設(shè)置滯后、系統(tǒng)規(guī)劃和人才不足等問題制約了醫(yī)學(xué)信息學(xué)的健康發(fā)展。
4.5.1亟需解決學(xué)科正名和專業(yè)名稱規(guī)范化問題
醫(yī)學(xué)信息學(xué)在國內(nèi)的學(xué)科地位的確很尷尬,主要表現(xiàn)在國內(nèi)的三大學(xué)科體系(目錄),即“中國圖書館分類法”(簡稱中圖法)、“國家標(biāo)準(zhǔn)的學(xué)科分類與代碼”(簡稱國標(biāo)法)、“教育部頒布的學(xué)科專業(yè)目錄”(簡稱教育法)中均沒有“醫(yī)學(xué)信息學(xué)”的類名。因此,當(dāng)務(wù)之急是要盡快確立“醫(yī)學(xué)信息學(xué)”的學(xué)科名稱及其在學(xué)科體系中的位置。醫(yī)學(xué)信息教育在國內(nèi)看似很火爆,其實是亂象叢生。此前教育部只批了中南大學(xué)、南通大學(xué)、徐州醫(yī)學(xué)院的醫(yī)學(xué)信息學(xué)專業(yè),但國內(nèi)很多學(xué)校都在信息管理與信息系統(tǒng)等專業(yè)后面加括號注明“醫(yī)學(xué)信息學(xué)方向”,然后對外宣稱是醫(yī)學(xué)信息學(xué)專業(yè)。與此類似的還有一種叫“衛(wèi)生信息管理專業(yè)”。顯然這都是不負(fù)責(zé)任的做法。因此,希望教育主管部門加大宏觀指導(dǎo)與調(diào)控力度,規(guī)范醫(yī)學(xué)信息學(xué)的學(xué)科建設(shè)與專業(yè)教育。首先,在學(xué)科及專業(yè)目錄上設(shè)立獨(dú)立的“醫(yī)學(xué)信息學(xué)”,既不要讓“醫(yī)學(xué)信息學(xué)”依托(附)于其他學(xué)科/專業(yè),也不需要在別的學(xué)科/專業(yè)后面的括號內(nèi)出現(xiàn)“醫(yī)學(xué)信息學(xué)”。根據(jù)教育部2012年9月頒布的《普通高等學(xué)校本科專業(yè)目錄》,建議將“醫(yī)學(xué)信息學(xué)”納入到“特設(shè)專業(yè)”中的“1010醫(yī)學(xué)技術(shù)類”。其次,成立全國醫(yī)學(xué)信息學(xué)教學(xué)指導(dǎo)委員會(教指委),規(guī)范指導(dǎo)醫(yī)學(xué)信息學(xué)的專業(yè)教育。再次,協(xié)調(diào)指導(dǎo)“醫(yī)學(xué)信息”類的學(xué)術(shù)組織,整合醫(yī)學(xué)信息學(xué)的學(xué)術(shù)研究力量和研究隊伍,指引醫(yī)學(xué)信息學(xué)的健康發(fā)展。
4.5.2加強(qiáng)學(xué)科課程的設(shè)置和培養(yǎng)目標(biāo)的確立
我國醫(yī)學(xué)信息學(xué)專業(yè)的本科課程設(shè)置比較落后,學(xué)科的課程體系不完善且專業(yè)教材缺乏,不同學(xué)校的教學(xué)內(nèi)容和培養(yǎng)目標(biāo)差別很大,體現(xiàn)不出學(xué)科的重要性和交叉復(fù)雜性。故要求科學(xué)合理地加強(qiáng)學(xué)科的課程設(shè)置,正確處理好計算機(jī)科學(xué)、醫(yī)學(xué)和信息科學(xué)之間的關(guān)系,參照國外已有的教學(xué)方案并聯(lián)系自己的教學(xué)實際情況去充實教學(xué)計劃,擴(kuò)寬教學(xué)范疇,使整個醫(yī)學(xué)信息學(xué)的教育更加合理。4.5.3實現(xiàn)專業(yè)教育體系化,加強(qiáng)專業(yè)人才的培養(yǎng)由于沒有認(rèn)識到醫(yī)學(xué)信息學(xué)教育的重要意義,醫(yī)學(xué)信息學(xué)地位不高,所以學(xué)科的科研投入、教育投入和人才培養(yǎng)都面臨難題,教材和師資的缺乏也導(dǎo)致了專業(yè)教育規(guī)范化和體系化不足。為此,要深刻認(rèn)識到醫(yī)學(xué)信息學(xué)教育的意義,推動專業(yè)教育向規(guī)范化和體系化邁進(jìn)。醫(yī)學(xué)信息學(xué)作為一門新興學(xué)科,其發(fā)展需要大批的高水平人才。人才的培養(yǎng)需要在專業(yè)教育中實現(xiàn),只有通過規(guī)范科學(xué)的教育體系培養(yǎng)高素質(zhì)的醫(yī)學(xué)信息學(xué)人才,培養(yǎng)醫(yī)學(xué)信息學(xué)研究的復(fù)合型人才和對在崗人員進(jìn)行進(jìn)修培訓(xùn),才能適應(yīng)醫(yī)學(xué)信息學(xué)的快速發(fā)展。
【中圖分類號】TP391
【文獻(xiàn)標(biāo)識碼】A
【文章編號】1672—5158(2012)10-0078-01
一、生物信息數(shù)據(jù)庫的現(xiàn)狀及問題
在生物信息學(xué)的發(fā)展過程中,逐步建立起了大量基于網(wǎng)絡(luò)的生物數(shù)據(jù)庫,而且開發(fā)了眾多檢索工具,從而實現(xiàn)了生物信息數(shù)據(jù)的智能處理和綜合分析。生物信息數(shù)據(jù)在具有增長迅猛、更新及時、種類繁多等特點(diǎn)的同時,更表現(xiàn)出高度的復(fù)雜性、多樣性和不一致性。
隨著生物信息數(shù)據(jù)量的激增以及數(shù)據(jù)處理能力的復(fù)雜程度不斷提高,現(xiàn)有的生物信息數(shù)據(jù)庫已經(jīng)逐漸暴露出許多問題。三大核酸數(shù)據(jù)庫依靠傳統(tǒng)方式交換數(shù)據(jù),無法及時反應(yīng)出其他專用生物信息數(shù)據(jù)庫的變化情況以及非核酸類數(shù)據(jù)信息。網(wǎng)上所提供的大部分?jǐn)?shù)據(jù)分析工具采用面向問題的搜索方法,搜索效率隨著問題規(guī)模的擴(kuò)大而降低,并且無法智能地對數(shù)據(jù)中存在的未知知識進(jìn)行發(fā)掘。為此,在后基因組時代,需要將數(shù)據(jù)倉庫思想及智能數(shù)據(jù)挖掘技術(shù)運(yùn)用到生物信息學(xué)領(lǐng)域中。
二、基于生物信息數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)
(一) 生物信息數(shù)據(jù)庫中的算法工具
在生物信息學(xué)中,基因比對是最常用和最經(jīng)典的研究手段。在核酸序列或蛋白質(zhì)序列之間進(jìn)行兩兩比對,比較兩個序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者的相似形、同源性,進(jìn)而探尋可能的分子進(jìn)化關(guān)系,揭示序列中蘊(yùn)涵的結(jié)構(gòu)、功能等信息。數(shù)據(jù)挖掘主要存在以下幾種經(jīng)典分析模式:關(guān)聯(lián)模式分析、序列模式分析、分類分析、聚類分析,其中關(guān)聯(lián)模式分析應(yīng)用最為廣泛。
(二) OLAP和數(shù)據(jù)挖掘技術(shù)
傳統(tǒng)的針對數(shù)據(jù)庫的開發(fā)工具多為聯(lián)機(jī)事物處理模式,它主要是面向具體的查詢和統(tǒng)計,有著較為具體的應(yīng)用目的。然而隨著越來越多數(shù)據(jù)庫的出現(xiàn),數(shù)據(jù)量的迅猛增長,OLTP在數(shù)據(jù)資源的充分利用、為用戶提供有效支持和幫助等方面,則顯得力不從心。因此,基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理以及數(shù)據(jù)挖掘引起了日益廣泛的關(guān)注和應(yīng)用。OLAP是一種自上而下、不斷深入的分析工具。用戶提出問題或假設(shè),OLAP則負(fù)責(zé)從上而下深入地提取出關(guān)于該問題的詳細(xì)信息,并以可視化的方式呈現(xiàn)給用戶。DM是一種決策支持過程和挖掘性工具,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),高度自動化地對原始數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,做出歸納性和預(yù)測性的推理。
(三) 基于生物信息數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)
實現(xiàn)數(shù)據(jù)挖掘的前提條件是必須具有海量數(shù)據(jù),而這恰恰是數(shù)據(jù)倉庫的基本特點(diǎn)之一,二者緊密結(jié)合可以有效解決大量應(yīng)用中出現(xiàn)的問題。在生物信息學(xué)領(lǐng)域,使用數(shù)據(jù)挖掘技術(shù)可以大幅提高研究人員的工作效率,改變原有的預(yù)測法;數(shù)據(jù)挖掘算法還可以結(jié)合生物信息專業(yè)領(lǐng)域的公式算法,根據(jù)研究人員的設(shè)想,對數(shù)據(jù)進(jìn)行全面高效的分析。
基于數(shù)據(jù)挖掘等技術(shù)發(fā)展起來的智能決策技術(shù)具備了在生物信息學(xué)領(lǐng)域中大展身手的天賦,特別是基于海量數(shù)據(jù)的數(shù)據(jù)挖掘和開采技術(shù)更具有廣泛的需求和應(yīng)用背景。另一方面,目前生物信息學(xué)的研究方法和發(fā)展情況,已經(jīng)形成了較為完善的智能決策系統(tǒng),成為數(shù)據(jù)倉庫和數(shù)據(jù)開采較為成功的應(yīng)用案例。另外,現(xiàn)有各種生物信息應(yīng)用分析軟件從一定程度上講,已經(jīng)反映并且實現(xiàn)了數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的思想和技術(shù)。
三、實現(xiàn)生物信息異地多源數(shù)據(jù)庫的綜合利用
(一) 建立基于Web的生物信息數(shù)據(jù)倉庫
基于現(xiàn)有的生物信息數(shù)據(jù)庫,運(yùn)用數(shù)據(jù)倉庫思想,利用OLAP和數(shù)據(jù)挖掘技術(shù),建立生物信息數(shù)據(jù)倉庫,是一種不需要大幅增加硬件設(shè)備以及物理裝置的前提下,實現(xiàn)基于Web平臺的生物信息集成與處理平臺的可行方案。設(shè)計一個基于Web的生物信息數(shù)據(jù)倉庫,其主要結(jié)構(gòu)由五部分組成:外部數(shù)據(jù)源;基于Web的數(shù)據(jù)調(diào)度、傳輸;數(shù)據(jù)的變形整合;元數(shù)據(jù)規(guī)則、元數(shù)據(jù)管理;基于Web的綜合管理平臺。
DWBW以DDBJ/EMBI/GeneBank作為主要數(shù)據(jù)源,同時以其他主要的生物信息數(shù)據(jù)庫作為整個數(shù)據(jù)倉庫的基本數(shù)據(jù)源。通過分析數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)類型,建立DWBW的元數(shù)據(jù)規(guī)則。這樣,基于上述各種數(shù)據(jù)庫就可以建立起一個基于Web的虛擬數(shù)據(jù)倉庫,由于不存在一個物理上位于某地的存儲中心來保存這些數(shù)據(jù),用戶面對的只是基于網(wǎng)絡(luò)的分布式虛擬的數(shù)據(jù)倉庫。其模型、算法的運(yùn)行由專用的分析工具服務(wù)器來完成,而對于數(shù)據(jù)的調(diào)用和整理都是在源數(shù)據(jù)庫上進(jìn)行的,根據(jù)不同用戶提交問題的不同,具體分析過程則由分配服務(wù)器交給服務(wù)器去完成分析,只是最終將結(jié)果返回請求分類服務(wù)器,顯示給用戶。
DWBW將通過統(tǒng)一的基于Web的頁面與用戶進(jìn)行交互,在后臺則主要由請求分類服務(wù)器、Web服務(wù)器及專用分析工具服務(wù)器共同完成對問題的提交和分析,實現(xiàn)對數(shù)據(jù)倉庫元數(shù)據(jù)規(guī)則的理解,然后根據(jù)分類的結(jié)果,與相關(guān)分析工具進(jìn)行匹配,將問題提交到相應(yīng)的分析工具服務(wù)器進(jìn)行處理。處理完成后返回給請求分類服務(wù)器,進(jìn)而返回給提交問題的用戶。
(二) DWBW的關(guān)鍵技術(shù)
生物信息學(xué)元數(shù)據(jù)的抽取。數(shù)據(jù)的整理和抽取,是開發(fā)所有數(shù)據(jù)倉庫時所遇到的最難解決也是最具挑戰(zhàn)性的問題之一。將不同時期生成的大量歷史數(shù)據(jù)中的數(shù)據(jù)結(jié)構(gòu)、字段的定義以及對象之間的關(guān)系等一系列的描述信息整理出來,并制定一套通用可行的規(guī)范,本身就是一個工作量巨大、難度極高的問題。因此,數(shù)據(jù)倉庫元數(shù)據(jù)的抽取整理,成為建立DWBW的關(guān)鍵問題。數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和裝載過程與一般數(shù)據(jù)倉庫建立過程中的數(shù)據(jù)整理不完全相同,其數(shù)據(jù)具有規(guī)范性強(qiáng),存儲結(jié)構(gòu)相對簡單,轉(zhuǎn)換、裝載容易等特點(diǎn)。
虛擬生物信息數(shù)據(jù)倉庫的建立。虛擬生物信息數(shù)據(jù)倉庫實現(xiàn)對生物信息平臺相關(guān)數(shù)據(jù)的組織和集成,并且將不同主題的數(shù)據(jù)對象分別存儲到各個數(shù)據(jù)集市中,同時還將建立起部分有價值數(shù)據(jù)的在線OLAP數(shù)據(jù)庫。虛擬數(shù)據(jù)倉庫采用中間件充當(dāng)數(shù)據(jù)中心,提供信息的訪問接口,對存貯在不同數(shù)據(jù)源的生物信息數(shù)據(jù)進(jìn)行存取操作。由于虛擬生物信息數(shù)據(jù)倉庫一般不是針對實時數(shù)據(jù)進(jìn)行分析統(tǒng)計,所以對于時間效率的要求不如一般查詢統(tǒng)計那么高,這就確保了開發(fā)處于不同物理位置數(shù)據(jù)源的虛擬DWBW具有可行性。同時,對于一般性的查詢比對等基本操作,不會影響其工作效率和準(zhǔn)確性。
1.引言
隨著現(xiàn)代信息技術(shù)的發(fā)展與廣泛應(yīng)用,加快了人類信息社會的建設(shè)步伐,信息化、數(shù)字化已經(jīng)逐漸進(jìn)入到醫(yī)學(xué)的各領(lǐng)域中,成為醫(yī)學(xué)界不可或缺的重要工具與手段。信息技術(shù)的高速發(fā)展正改變著醫(yī)學(xué)的教學(xué)、研究、醫(yī)療服務(wù)等的諸多傳統(tǒng)方式,并隨著現(xiàn)代信息技術(shù)的不斷發(fā)展而不斷推陳出新。但是,我們不能否認(rèn),現(xiàn)代信息技術(shù)在醫(yī)學(xué)方面的應(yīng)用不僅為醫(yī)學(xué)的認(rèn)知帶來了新的渠道,轉(zhuǎn)變了醫(yī)學(xué)的思想觀念與工作方式,同時也為醫(yī)學(xué)界帶來了一些問題,例如:新的倫理問題等。因此,在醫(yī)學(xué)信息化建設(shè)迅速發(fā)展的今天,如何才能更好的將信息技術(shù)運(yùn)用到醫(yī)學(xué)中,醫(yī)學(xué)信息化的發(fā)展前景如何?對醫(yī)學(xué)界具有十分重要的現(xiàn)實意義與長遠(yuǎn)意義。
不可否認(rèn),醫(yī)學(xué)信息化的建設(shè)是長期的,只有符合醫(yī)學(xué)發(fā)展的信息化才具有生命力。在醫(yī)院中,我們隨處可見的CT、彩超等大型的數(shù)字化醫(yī)療設(shè)備、計算機(jī)網(wǎng)絡(luò)的各種醫(yī)療收費(fèi)系統(tǒng)、醫(yī)療信息處理系統(tǒng)等,還有在醫(yī)學(xué)教學(xué)、科研領(lǐng)域,都逐漸開始使用現(xiàn)代信息技術(shù)的輔助來提升教學(xué)與科研的水平。信息技術(shù)在醫(yī)學(xué)中的應(yīng)用與改造與創(chuàng)新,使得醫(yī)學(xué)的教學(xué)、科研、臨床、管理、藥品、醫(yī)學(xué)器械的研制等都在借助信息技術(shù)來加快自身的發(fā)展,很難想象沒有現(xiàn)代信息技術(shù)、計算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的醫(yī)學(xué)院校或者醫(yī)院將會使什么模樣。
2.信息時代醫(yī)學(xué)信息化所面臨的新挑戰(zhàn)
2.1 數(shù)據(jù)的共享問題
美國在醫(yī)學(xué)信息化數(shù)據(jù)的共享方面比較開放,美國的國立生物技術(shù)信息中心中存儲大量的數(shù)據(jù)信息,這些數(shù)據(jù)信息對科學(xué)家是無償提供研究的。但是,在我國的生物醫(yī)學(xué)研究部門或者是醫(yī)療機(jī)構(gòu)中,已經(jīng)積累了大量的科研與臨床數(shù)據(jù),這些數(shù)據(jù)目前大多數(shù)仍處于獨(dú)立使用的狀態(tài)中,各機(jī)構(gòu)之間缺乏數(shù)據(jù)共享數(shù)據(jù)孤島現(xiàn)象嚴(yán)重制約著我國生物醫(yī)學(xué)的研究與發(fā)展,同時也為我國社會醫(yī)療健康保障體系的建立帶來了困難。在實際中,這些醫(yī)療機(jī)構(gòu)之間由于存在各種利益關(guān)系,一般都對自己所持有的醫(yī)學(xué)科研數(shù)據(jù)及診療數(shù)據(jù)資料保密,不愿意向同行與社會提供數(shù)據(jù)共享的服務(wù)。
2.2 數(shù)據(jù)標(biāo)準(zhǔn)化的問題
美國的著名勞倫斯伯克利國家實驗基因租的科學(xué)部主任表示,最理想的狀態(tài)就是能夠建立統(tǒng)一的電子醫(yī)療系統(tǒng),這些醫(yī)療病歷系統(tǒng)應(yīng)該具有統(tǒng)一的標(biāo)準(zhǔn)。但是,在我國的醫(yī)學(xué)現(xiàn)實中并非如此。各醫(yī)院存儲的各種數(shù)據(jù)標(biāo)準(zhǔn)不同,不同的系統(tǒng)在存儲的信息方面也不一樣,目前,醫(yī)療系統(tǒng)與醫(yī)療科研機(jī)構(gòu)之間的信息數(shù)據(jù)標(biāo)準(zhǔn)很難實現(xiàn)統(tǒng)一。究其原因主要是由于各種醫(yī)療設(shè)備的生產(chǎn)廠家、醫(yī)療系統(tǒng)的軟件開發(fā)商之間的技術(shù)標(biāo)準(zhǔn)各不相同造成的。例如:不同的醫(yī)院對信息管理系統(tǒng)中的電子病例數(shù)據(jù)信息的記錄格式、標(biāo)準(zhǔn)不同,而信息中心的數(shù)據(jù)存儲設(shè)備在構(gòu)架上也不相同,這就造成各醫(yī)院之間的醫(yī)療數(shù)據(jù)信息無法實現(xiàn)交流溝通、共享。如果同一個病人想在不同的醫(yī)院進(jìn)行治療,就必須在不同的醫(yī)院分別再做一次相應(yīng)的檢查,這不僅增加了病人的經(jīng)濟(jì)負(fù)擔(dān),嚴(yán)重的更影響了病人的最佳治療時期。因此,要想在醫(yī)學(xué)領(lǐng)域?qū)崿F(xiàn)信息化就必須先打破各醫(yī)院之間的技術(shù)壁壘,解決信息化的標(biāo)準(zhǔn)化問題。
2.3 醫(yī)學(xué)信息化綜合應(yīng)用型人才嚴(yán)重匱乏
目前,醫(yī)學(xué)信息學(xué)是建立在生物醫(yī)學(xué)、信息技術(shù)、統(tǒng)計學(xué)、管理學(xué)等多學(xué)科基礎(chǔ)上的一門交叉性的學(xué)科,在實際中,真正了解并掌握、精通信息科學(xué)知識的專業(yè)人才非常少。為了真正實現(xiàn)醫(yī)學(xué)信息化并促進(jìn)多學(xué)科的研究與教學(xué),于2009年美國的特拉華大學(xué)創(chuàng)立了生物信息學(xué)與計算機(jī)生物學(xué)中心,這一中心集中了來自美國的5個學(xué)院的60多名知名教師,并創(chuàng)立了負(fù)責(zé)多個生物信息學(xué)教育的研究項目。縱觀我國高校的現(xiàn)狀,還尚未成立專門的醫(yī)學(xué)信息專業(yè),或者是生物醫(yī)學(xué)與信息學(xué)相交叉的學(xué)科專業(yè)。在生物醫(yī)學(xué)研究領(lǐng)域中的一些復(fù)合型研究人才大部分是由學(xué)生自己自學(xué)而成的,或者是由不同學(xué)科的導(dǎo)師共同培養(yǎng)而成的。這種狀況就造成我國醫(yī)療信息化應(yīng)用人才的嚴(yán)重匱乏,并為我國醫(yī)療信息化人才的培養(yǎng)帶來了阻礙。不過我們堅信,在不久的將來,我國的醫(yī)學(xué)教育界一定會認(rèn)識到這一問題。
3.信息時代醫(yī)學(xué)信息化的發(fā)展前景
3.1 醫(yī)學(xué)信息化正朝著遠(yuǎn)程醫(yī)療與區(qū)域醫(yī)療的信息化發(fā)展
早在上世紀(jì)90年代,我國就曾經(jīng)提出過實現(xiàn)遠(yuǎn)程醫(yī)療的發(fā)展,很多偏遠(yuǎn)地區(qū)的醫(yī)院與大城市中具有實力的綜合醫(yī)院之間建立了遠(yuǎn)程醫(yī)療咨詢會與會診聯(lián)系,但是由于當(dāng)時采取的是調(diào)制解調(diào)器的電話網(wǎng)絡(luò)或較高成本的衛(wèi)星傳輸信息,在實際應(yīng)用中很難得以實現(xiàn),因此也就未在全國范圍內(nèi)進(jìn)行推廣。進(jìn)入信息時代,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與計算機(jī)技術(shù)的進(jìn)步,網(wǎng)絡(luò)音頻技術(shù)、視頻會議技術(shù)等在醫(yī)學(xué)界得到廣泛的推廣,并實現(xiàn)了遠(yuǎn)程醫(yī)療教育,從而推動了我國醫(yī)學(xué)影像信息的異地遠(yuǎn)程傳輸,進(jìn)一步推動了我國的遠(yuǎn)程醫(yī)療發(fā)展。隨著醫(yī)學(xué)界對信息共享、電子病歷等問題的探討與研究,我國醫(yī)學(xué)信息化逐漸向著區(qū)域醫(yī)療衛(wèi)生信息化的方向發(fā)展。
3.2 數(shù)字化醫(yī)院是醫(yī)學(xué)信息化發(fā)展的必然趨勢
目前對于數(shù)字化醫(yī)院的定義至今還尚無定論,從一般意義上來看,它與醫(yī)學(xué)信息化所寓意的實質(zhì)性內(nèi)容并不存在本質(zhì)上的區(qū)別。目前,我國以病人為中心的HIS建設(shè)還處于初級階段,雖然已經(jīng)在很多方面發(fā)揮了重大作用,但是還遠(yuǎn)遠(yuǎn)不能滿足病人、醫(yī)護(hù)人員、管理者實現(xiàn)方便、低廉、高效、安全的就診環(huán)境與模式,因此,數(shù)字化醫(yī)院的發(fā)展還需要建立信息化條件下合理的診療流程與復(fù)合業(yè)務(wù)的需求。總之,實現(xiàn)數(shù)字化醫(yī)院在研究、開發(fā)、應(yīng)用方面還存在很大的發(fā)展空間。
總之,目前我國醫(yī)療領(lǐng)域信息化應(yīng)用還屬于起步階段,還存在一些問題。但是我們堅信,在不遠(yuǎn)的將來,在我國政策的推動下、在信息科學(xué)技術(shù)的不斷發(fā)展下,信息時代醫(yī)療信息化的發(fā)展將不斷深入,將在我國生物醫(yī)學(xué)領(lǐng)域中得到不斷地發(fā)展與進(jìn)步。
參考文獻(xiàn)
張鵬,中國科學(xué)院深圳先進(jìn)技術(shù)研究院轉(zhuǎn)化醫(yī)學(xué)研究與發(fā)展中心執(zhí)行主任,師從我國著名骨科專家戴尅戎院士,主攻類風(fēng)濕性關(guān)節(jié)炎發(fā)病機(jī)理和治療。
作為知名骨科專家秦嶺教授領(lǐng)導(dǎo)的轉(zhuǎn)化醫(yī)學(xué)中心的核心成員,張鵬博士研究團(tuán)隊以骨科炎癥性疾病為研究重點(diǎn),從病因、發(fā)病機(jī)理、治療以及康復(fù)等方面進(jìn)行系統(tǒng)研發(fā)。以對發(fā)病機(jī)理的探討作為基礎(chǔ)研究提升水平的基石,以對該類疾病治療手段的創(chuàng)新以及相關(guān)產(chǎn)品或技術(shù)的臨床應(yīng)用和產(chǎn)業(yè)化作為最高目標(biāo),以服務(wù)廣大骨科患者作為宗旨,正在走一條具有自身特色的骨科轉(zhuǎn)化研發(fā)之路。
“老藥新用”,攻堅類風(fēng)濕
張鵬曾在導(dǎo)師戴尅戎院士的指導(dǎo)下,在國際上首次驗證了手術(shù)懸吊方式刺激迷走神經(jīng)進(jìn)而激活“膽堿能抗炎通路”對于RA模型早期炎癥發(fā)展的抑制作用。研究結(jié)果發(fā)表在SCI 期刊《Inflammation Research》上。隨后該論文陸續(xù)被《Nature Review Rheumatology》和《Nature Review Immunology》等高端雜志引用,截至目前該文章已被引用11次。
針對目前全球范圍內(nèi)新藥研發(fā)遇到“冷冬”的大環(huán)境,張鵬課題組聯(lián)合計算機(jī)化學(xué)及生物信息學(xué)相關(guān)的專家,通過計算機(jī)輔助藥物預(yù)測結(jié)合目前骨關(guān)節(jié)炎基礎(chǔ)研究中的最新成果,在臨床用藥中篩選具有治療RA及骨關(guān)節(jié)炎等疾病的藥物新功效,即“老藥新用”在骨關(guān)節(jié)炎癥中的應(yīng)用。
張鵬曾在《Inflammation Research》、《Therapeutic Advances in Musculoskeletal Disease》、《ScientificWorldJournal》等雜志發(fā)表文章,闡述了RA治療中的“老藥新用”策略:以膽堿能受體作為潛在的治療靶點(diǎn),通過應(yīng)用最新的藥物靶點(diǎn)檢索手段—“蛋白質(zhì)折疊碼”技術(shù),在臨床用藥中篩選新的抗風(fēng)濕功效,進(jìn)而通過臨床前實驗手段(體外細(xì)胞學(xué)、動物模型體內(nèi))驗證其生物學(xué)特性,從而提出了一整套基于現(xiàn)代生物信息學(xué)最新技術(shù)的“老藥新用”策略,并在RA治療中進(jìn)行具體實施。
目前,基于神經(jīng)內(nèi)科用藥GTS-21(膽堿能受體激動劑)探討其治療RA的研究已經(jīng)獲得國家自然科學(xué)基金的支持,進(jìn)展順利。該項目是張鵬博士倡導(dǎo)的骨關(guān)節(jié)炎癥“老藥新用”策略的具體實施之一。
研究小組基于傳統(tǒng)中藥在RA治療中的特殊療效,從祖國醫(yī)學(xué)理論出發(fā),結(jié)合現(xiàn)代藥理學(xué)的開發(fā),從具有“舒筋活絡(luò),祛風(fēng)除濕”的中藥品種中提取若干有效成分,用于對RA療效的觀察。從臨床前研究的角度,采用體外細(xì)胞及動物模型為研究對象,進(jìn)行了前期實驗。目前已經(jīng)篩選到了若干有效的中藥活性成分,推進(jìn)下一步的機(jī)理研究,最終期望將有活性的成分開發(fā)成RA治療中的療效確切的藥用品種。
本項目應(yīng)用研發(fā)團(tuán)隊核心成員楊家安博士具有自主知識產(chǎn)權(quán)的“蛋白質(zhì)折疊碼”技術(shù),可將復(fù)雜的蛋白空間三位信息轉(zhuǎn)成具有一維結(jié)構(gòu)的編碼,并對藥物結(jié)合靶點(diǎn)特性以及藥物數(shù)據(jù)庫進(jìn)行掃描比對,具有高效準(zhǔn)確的特點(diǎn)。張鵬博士主導(dǎo)聯(lián)合楊家安博士等核心人員建立了一整套“基礎(chǔ)研究靶點(diǎn)—蛋白質(zhì)折疊碼技術(shù)掃描分析—臨床用藥數(shù)據(jù)庫比對篩選—生物學(xué)有效性驗證”的“老藥新用”研發(fā)策略體系。
據(jù)張鵬介紹,該研究策略在目前原創(chuàng)性化學(xué)新藥研發(fā)遇到巨大挑戰(zhàn)的大背景下,可為新藥研發(fā)提供重要借鑒。“老藥新用”的策略可為新藥(1.6類新藥)的研發(fā)提供捷徑。由于“老藥”已經(jīng)在臨床中廣泛應(yīng)用,在安全性上具有保障,可避免藥物上市后因不良反應(yīng)而“退市”的情況,同時可大大降低藥物研發(fā)成本及臨床用藥價格,進(jìn)而惠及大眾。
除此之外,張鵬研究團(tuán)隊對于膠原誘導(dǎo)性關(guān)節(jié)炎模型(CIA 模型)的創(chuàng)新性發(fā)現(xiàn)完善了對該疾病模型的認(rèn)識。在此項研究中,張鵬發(fā)現(xiàn)了先前文獻(xiàn)中未作報道的CIA模型發(fā)病足爪關(guān)節(jié)破壞規(guī)律以及特殊的組織病理學(xué)表現(xiàn),為全面了解CIA模型發(fā)病的特點(diǎn)和規(guī)律提供了實驗依據(jù)。通過放射學(xué)和組織學(xué)觀察,進(jìn)一步完善了對其發(fā)病特點(diǎn)的描述,明確了該模型距下關(guān)節(jié)以及距舟關(guān)節(jié)為最早受累足爪關(guān)節(jié)的發(fā)病特點(diǎn),在組織學(xué)觀察中發(fā)現(xiàn)了相鄰關(guān)節(jié)軟骨的“融合”現(xiàn)象,并在“融合”部位發(fā)現(xiàn)了新生血管的侵入以及新骨的生成,進(jìn)而提出了“炎癥影響關(guān)節(jié)軟骨的終末分化狀態(tài)進(jìn)而啟動軟骨內(nèi)骨化”的科學(xué)假設(shè),為研究RA發(fā)病中關(guān)節(jié)軟骨在骨贅生成中的作用提供了重要的實驗支持。相關(guān)成果發(fā)表在風(fēng)濕病領(lǐng)域國際SCI期刊《Rheumatology International》 上。
信息論的創(chuàng)始人申農(nóng)為解決通訊技術(shù)中的信息編碼問題,提出通訊系統(tǒng)的一般模型,發(fā)表了《通信的數(shù)學(xué)理論》《噪聲中的通信》兩篇論文,從而奠定了信息論的理論基礎(chǔ)。他指出“信息論(狹義的)的基本結(jié)果,都是針對某些非常特殊的問題的,它們未必切合像心理學(xué)、經(jīng)濟(jì)學(xué)以及其他一些社會科學(xué)領(lǐng)域。”[1]因此,信息論分為廣義信息論和狹義信息論。狹義信息論即申農(nóng)早期的研究成果為主,它以編碼理論為中心,主要研究信息系統(tǒng)模型、信息的度量、信息容量、編碼理論及噪聲理論等。廣義信息論又稱信息科學(xué),主要研究以計算機(jī)處理為中心的信息處理的基本理論,包括評議、文字的處理、圖像識別、學(xué)習(xí)理論及其各種應(yīng)用。維納認(rèn)為“信息既不是物質(zhì),也不是能量,信息就是信息,不懂得它,就不懂得唯物主義。[2]”雖然維納并沒有給出信息的確切定義,但卻第一次將信息科學(xué)映射到哲學(xué)問題上。
此后,信息科學(xué)的發(fā)展沖擊了20世紀(jì)下半葉以來的哲學(xué)思想路線,重新開啟了對哲學(xué)形而上問題的探討。雖然從物理角度來說,信息是按照一定的方式排列組合起來的信號序列,它借助于某種介質(zhì)作為通道來傳遞、加工和貯存。但是隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,信息科學(xué)技術(shù)建構(gòu)起了全新的語言環(huán)境、精神環(huán)境,“把我們從對事物的直接領(lǐng)悟中順順當(dāng)當(dāng)?shù)赝频接蛇壿嬮g隔隔開的世界中[3]”,使“知識源保持著一種抽象的控制論意義下的距離[4]”,從而消解了現(xiàn)實中的語言涵義。而現(xiàn)代人類依靠網(wǎng)絡(luò)空間高速傳播的思想,將世界空間縮小,人們憑借大眾傳播媒介或個人或組織給予的信息來建構(gòu)起世界的“腦海圖景”,并以此來判斷世界并給予回應(yīng)。正如“洞穴”隱喻一般,真實移動的“實體”不再真實,而意識、信息構(gòu)筑的世界更“實際”,真實的世界成為“符號的宇宙”。哲學(xué)家海姆認(rèn)為虛擬現(xiàn)實表現(xiàn)為七大特征:模擬性、交互作用、人工性、沉浸性、遙在、全身沉浸和網(wǎng)絡(luò)通信。正統(tǒng)哲學(xué)都是基于客觀實在現(xiàn)實性范疇框架內(nèi)的哲學(xué),客體是意識的容器,在主體和客體之間具有明顯界限,而信息科學(xué)技術(shù)的發(fā)展,“電子化”的語言方式可快捷地掃描人的思想,意識的力量在某種程度上得以強(qiáng)化。由此,使我們不得不重新思考信息科學(xué)是否揭示并決定著我們對世界的認(rèn)知和發(fā)問方式。
哲學(xué)本以人本意識為主,是自覺之自我的最高意識成就,它依賴于社會的發(fā)展而發(fā)展。在康德建立了系統(tǒng)完善的形而上學(xué)之后,尼采宣布了“上帝已死”,海德格爾對“自我”“存在”的考證也對人類自身發(fā)展做了完備的總結(jié),維特根斯坦認(rèn)為“哲學(xué)僅余下的任務(wù)是語言分析!”,似乎哲學(xué)沒落到只囿于語言這一狹小領(lǐng)域,但信息科學(xué)技術(shù)的發(fā)展為自我、本體等哲學(xué)概念提出了重新思考的空間。信息科學(xué)在自身運(yùn)動、發(fā)展的進(jìn)程中,呈現(xiàn)出自身歷史的反映、自身性質(zhì)的規(guī)定、自身發(fā)展的種種可能性這三種自在、自為、再生的基本形態(tài),這三種關(guān)于事物歷史、現(xiàn)狀、未來的間接存在凝結(jié)在一個具有特定結(jié)構(gòu)和狀態(tài)的直接存在物中,這種直接存在的結(jié)構(gòu)和狀態(tài)被凝結(jié)著它的間接存在所規(guī)定。也即是說,自我、本體等概念被信息科學(xué)尤指信息技術(shù)、互聯(lián)網(wǎng)這一間接存在所規(guī)定。方東美先生認(rèn)為:“希臘人把時間的體系化成空間的體系,然后再就時間來看,表面上是有過去、現(xiàn)在、未來的實踐連續(xù)性,而這個過去、現(xiàn)在、未來,都可以化成現(xiàn)在的影像。換句話說,是把真實現(xiàn)在變成空間化的現(xiàn)在,這樣就便于把過去的影像納入了現(xiàn)在,把未來的影像也以前瞻的方式把它收到現(xiàn)實當(dāng)中,然后以一個空間化的現(xiàn)在籠罩一切過去現(xiàn)在和未來”[5]。這樣一種“了解時間的不重要,才是智慧之門[6]”,因此,哲學(xué)關(guān)于“我”、“本體”、“存在”等概念的思考由時間、空間的三維方向轉(zhuǎn)向一維的趨向。
此外,分析哲學(xué)家卡爾納普對語義信息的關(guān)注,將申農(nóng)的信息論引向人類領(lǐng)域,認(rèn)為由于人的選擇、接受、記憶的選擇性存在,信息本身存在著解讀的很大不確定性和可能性,因此有主觀與客觀、低級與高級、自然與社會信息等之分。生物信息學(xué)認(rèn)為生物信息包括遺傳信息、神經(jīng)――激素信息、代謝信息和人腦信息等多方面。物理學(xué)家T.Stonier在《信息物理學(xué)》提出的“信息子”認(rèn)為“有組織就必然有結(jié)構(gòu),有結(jié)構(gòu)就必然有信息”。在信息N論中,信息不是具有“粒子性”的能夠構(gòu)成世界的“本原”,而是具有演繹性的能夠生成世界的“生元”,信息的“生成”特性使世界本體成為一種過程本體,也就成了一個信息集合體。這些在信息論基礎(chǔ)上發(fā)展起來眾多交叉學(xué)科,如量子信息學(xué)、生物信息學(xué)、物理信息學(xué)等等,他們都試圖從信息主義解釋萬物緣由的本體論論調(diào),暫且不論對錯,但其提供的視角也是一種哲學(xué)嘗試。雖然信息科學(xué)技術(shù)在某種程度上剝離了對生命的人文關(guān)懷,使其變得些許冰冷,但對一些哲學(xué)概念的分析給飄散在浩浩蕩蕩信息長流中的理論派別提供了一種更深層次、更基礎(chǔ)的思維范式,從而推及對人類、宇宙的認(rèn)識。
(作者單位:四川省社會科學(xué)院研究生院)
參考文獻(xiàn):
[1]鐘義信.信息科學(xué)原理[M].福建人民出版社,1988,26.
宏基因組(Metagenome)是1998年由Handelsman等人正式提出,定義為特定生物環(huán)境中全部微生物遺傳物質(zhì)的總和。宏基因組學(xué)通過直接從環(huán)境樣品中提取全部微生物的遺傳物質(zhì)DNA,利用第二代測序技術(shù),得到高通量宏基因組數(shù)據(jù),并結(jié)合微生物基因組學(xué)的研究成果,分析環(huán)境樣品所包含的全部微生物的群落組成及其結(jié)構(gòu)功能。高通量宏基因組數(shù)據(jù)在基礎(chǔ)微生物學(xué)、水體、土壤、農(nóng)業(yè)、醫(yī)學(xué)研究等領(lǐng)域都顯示出了重要價值[1]。
1宏基因組學(xué)研究方法
宏基因組學(xué)的研究方法主要有:環(huán)境樣本的采集、宏基因組DNA的提取,高通量測序、所得序列的比對檢索分析,以及進(jìn)一步進(jìn)行微生物物種結(jié)構(gòu)和功能分析。其中,提取DNA要盡可能地提取出樣品中所以微生物的基因且保持基因片段的完整,目前的提取方法主要有直接裂解法和細(xì)胞提取法。隨著第二代測序技術(shù)的發(fā)展,宏基因組數(shù)據(jù)呈現(xiàn)出序列短小、通量巨大的特點(diǎn),一方面蘊(yùn)含更為豐富的環(huán)境微生物遺傳物質(zhì)信息,極大拓展了微生物學(xué)研究與應(yīng)用領(lǐng)域,另一方面也為分析處理帶來前所未有的挑戰(zhàn)。
2宏基因組學(xué)的應(yīng)用
在短短幾年內(nèi),高通量宏基因組數(shù)據(jù)研究已滲透到各個領(lǐng)域,包括基礎(chǔ)微生物學(xué)、海洋學(xué)、土壤學(xué)、醫(yī)學(xué)等,并在醫(yī)藥、替代能源、環(huán)境修復(fù)、生物技術(shù)、農(nóng)業(yè)、生物防御及倫理學(xué)等各方面顯示了重要的價值[2]。
2.1基礎(chǔ)微生物學(xué)研究
宏基因組為基礎(chǔ)微生物學(xué)研究打開了新局面,得以快速準(zhǔn)確地探測新基因、發(fā)現(xiàn)新物種(如未知病原體等)以及準(zhǔn)確認(rèn)識微生物群落的物種構(gòu)成及其功能結(jié)構(gòu)。由于自然界中大多數(shù)微生物物種及其生物量是未知的,其中大量微生物采樣困難、培養(yǎng)效率低下,這極大限制了傳統(tǒng)微生物學(xué)的研究與發(fā)展,而高通量宏基因組數(shù)據(jù)的產(chǎn)生則突破了這一束縛。通過分析高通量宏基因組數(shù)據(jù),包括序列比對、De Novo組裝、GO分析等等技術(shù),無需經(jīng)過提純培養(yǎng),就能探測新基因、新物種,為微生物環(huán)境工程、疾病診斷治療奠定基礎(chǔ)。
2.2海洋學(xué)和土壤學(xué)研究
海洋和土壤中包含大量微生物,它們與生態(tài)環(huán)境關(guān)系密切。目前通過采用土壤、海水等環(huán)境樣品,獲取高通量宏基因組數(shù)據(jù),探測其中微生物的組成及功能分布,能夠?qū)?dǎo)致生態(tài)環(huán)境變化的因素有更深入的認(rèn)識。如利用來自海洋石油污染區(qū)的微生物高通量宏基因組數(shù)據(jù),分析其微生物相對豐度,可以有效探測石油降解細(xì)菌及其生態(tài)關(guān)系網(wǎng),為污染治理提供新思路。利用來自豆類植物附近土壤測取的宏基因組數(shù)據(jù),分析其中固氮菌含量及其關(guān)聯(lián)因素,有助于設(shè)計提高豆類產(chǎn)量種植模式。高通量宏基因組數(shù)據(jù)為認(rèn)識復(fù)雜的微生物群落構(gòu)成及其功能提供了可能,且必將在研究生物多樣性和微生物環(huán)境工程中發(fā)揮重要作用[3]。
2.3醫(yī)學(xué)研究領(lǐng)域
高通量宏基因組數(shù)據(jù)在現(xiàn)代醫(yī)藥學(xué)中扮演著極其重要的角色,一方面通過疾病樣本的宏基因組分析,可以確定病原體或致病基因及其與其他因素之間的關(guān)聯(lián),為疾病治療提供可能;另一方面利用宏基因組數(shù)據(jù)篩選在醫(yī)藥業(yè)中具有重要應(yīng)用價值的基因及其產(chǎn)物,促進(jìn)醫(yī)藥發(fā)展。如利用取自不同牙周炎病況病人口腔高通量宏基因組數(shù)據(jù),分析處理得到各樣本微生物相對豐度數(shù)據(jù),比較不同牙周炎病況下的微生物整體分布情況,揭示出牙周炎與口腔微生物群落的生物多樣性和關(guān)聯(lián)網(wǎng)絡(luò)之間有顯著聯(lián)系。
3結(jié)語
隨著高通量測序技術(shù)的迅猛發(fā)展,宏基因組分析已經(jīng)成為探索自然環(huán)境中微生物物種和功能組成的重要手段之一,是研究微生物群落的利器。宏基因組分析手段無需經(jīng)過復(fù)雜嚴(yán)苛的實驗室培養(yǎng)過程,直接利用第二代高通量測序技術(shù),快速產(chǎn)生成千上萬的自然微生物DNA序列的短讀片。但是高通量宏基因組數(shù)據(jù)也給研究帶來挑戰(zhàn)。它呈現(xiàn)出序列短小、通量巨大的特點(diǎn)。此外,高通量測序技術(shù)的準(zhǔn)確率低于傳統(tǒng)測序技術(shù),亟需完善的概率統(tǒng)計模型和有效的算法實現(xiàn)[4]。
在應(yīng)用前景方面,隨著組合生物合成技術(shù)和納米技術(shù)迅速發(fā)展,可以考慮將宏基因組學(xué)技術(shù)與之結(jié)合,利用納米技術(shù)人工合成由宏基因組學(xué)的方法探測所得新興基因,促進(jìn)天然活性產(chǎn)物的開發(fā)及挖掘,進(jìn)一步促進(jìn)微生物工程的發(fā)展。
參考文獻(xiàn):
[1]許忠能著.生物信息學(xué)[M].北京: 清華大學(xué)出版社,2009.
其實媒體中廣為使用的“首次合成人工生命”之說,并不準(zhǔn)確。文特爾的成功之處,在于用化學(xué)試劑合成了人工染色體,并在另一微生物中顯示出生物功能。DNA是決定生物性狀的遺傳密碼,卻不是生命的唯一組成部分。從這個意義上講,文特爾只不過創(chuàng)造了部分生命。這項研究成果最為直接的意義,是人造的支原體可以利用化學(xué)合成的染色體生存繁殖,并導(dǎo)致山羊的乳腺炎。“首次創(chuàng)造生命”之說言之過甚。
事實上,文特爾本人在《科學(xué)》雜志上發(fā)表的文章題目“首次合成由化學(xué)合成基因組控制的細(xì)菌”更為客觀、嚴(yán)謹(jǐn)。《科學(xué)》雜志的相關(guān)評論指出,這項研究成果其實并不是首次創(chuàng)造新的生命形式,科學(xué)的定義應(yīng)該是“生命再創(chuàng)造”或“篡改生命”。因為“辛西婭”除了染色組是人工合成外,生命體的其他組分均是來自于已有生命形式。但是無論如何,這項耗資4000萬美元的科技成果,畢竟是人類生命科學(xué)發(fā)展的一大進(jìn)步。英國《經(jīng)濟(jì)學(xué)人》將此成果與上個世紀(jì)原子彈的誕生相提并論,其意圖顯然著眼于科技成果對人類的傷害以及對自然界的破壞。
合成生物學(xué)是后基因組時代生命科學(xué)研究的新興領(lǐng)域。早在本世紀(jì)初,它就已經(jīng)成為現(xiàn)代生命科學(xué)的研究熱點(diǎn),然而真正進(jìn)入大眾視野,還是源于“世界首個人造生命”的新聞事件。
借助合成生物學(xué)的研究成果,文特爾僅僅使用四瓶化學(xué)試劑就合成了人工生命“辛西婭”,一時間給人以合成生物學(xué)便是“造物術(shù)”的感覺。科學(xué)家認(rèn)為,合成生物學(xué)可以通過合成生物原件組裝生物系統(tǒng),創(chuàng)造新的生命形式。有人就此評論,隨著合成生物學(xué)的發(fā)展,人類可以像組裝電路一樣組裝生命,從此將代替自然扮演“上帝”的角色。
“像組裝電路一樣組裝生命”,只是合成生物學(xué)研究思路的形象比喻。合成生物學(xué)是建立在基因組學(xué)、生物信息學(xué)、系統(tǒng)生物學(xué)等學(xué)科基礎(chǔ)之上的現(xiàn)代生物科學(xué),在它的發(fā)展過程中借鑒了電子工程的研究思路。但是,實際上細(xì)胞內(nèi)部基因的表達(dá)調(diào)控、代謝網(wǎng)絡(luò)如同蜘蛛網(wǎng)一樣繁雜精細(xì),往往是牽一發(fā)而動全身。功能基因的表達(dá)遠(yuǎn)不像電路板上晶體管開關(guān)那樣簡單,細(xì)胞代謝網(wǎng)絡(luò)的復(fù)雜程度也非電路板可比。正因如此,即便在生命科學(xué)高度發(fā)達(dá)的今天,文特爾將已經(jīng)精簡的“最小基因組”移植到掏空遺傳物質(zhì)的支原體體內(nèi),實驗進(jìn)展也不是一帆風(fēng)順。這也正是人類基因組破譯十年后,其研究成果還不能直接應(yīng)用于醫(yī)療的原因。
從科學(xué)的意義上說,人工生命的誕生,標(biāo)志著合成生物學(xué)已經(jīng)可以簡單地改造生命,人類從讀取基因序列躍升至編碼基因的階段。但合成生物學(xué)遠(yuǎn)沒有發(fā)展到可以任意創(chuàng)造生命的程度。合成生物學(xué)的進(jìn)一步應(yīng)用還有賴于系統(tǒng)生物學(xué)的長足發(fā)展。“任意創(chuàng)造生命”既不是目前合成生物學(xué)發(fā)展程度所能企及的,也不是發(fā)展該學(xué)科的最終意義。科學(xué)家真正關(guān)心的是如何利用改造的生命體為人類服務(wù)。
早在上世紀(jì)70年代,生物學(xué)家就可以利用“DNA重組技術(shù)”將長鏈DNA切割成有功能的基因片段,并把它在模式菌株中表達(dá)。如今,無論是原核生物還是真核生物都可以高效地表達(dá)異源蛋白,并開始產(chǎn)業(yè)化應(yīng)用。如利用大腸桿菌生產(chǎn)胰島素,利用動物細(xì)胞生產(chǎn)疫苗抗體,利用轉(zhuǎn)基因動物充當(dāng)生物乳腺反應(yīng)器。本世紀(jì)初,“細(xì)胞工廠”的理念逐步深入人心。