|
數(shù)據(jù)標準與質(zhì)量控制
生物醫(yī)學(xué)大數(shù)據(jù)的數(shù)據(jù)標準包括術(shù)語集、數(shù)據(jù)標準、綜合標準等。典型的術(shù)語集包括基因本體?GO、人類表型本體?HPO等,序列最簡描述信息標準集包括?MIxS?與?MIGS以及?ICD10、SNOMED-CT等醫(yī)學(xué)數(shù)據(jù)標準。生命科學(xué)領(lǐng)域的數(shù)據(jù)標準大多由有國際影響力的機構(gòu)或協(xié)會率先提出,伴隨配套的數(shù)據(jù)解析或分析軟件,逐步得到學(xué)術(shù)界的認可。例如:由國際核酸序列數(shù)據(jù)庫協(xié)會(INSDC)定義的“The DDBJ/ENA/GenBank Feature Table Definition”是?NCBI、EBI?等數(shù)據(jù)中心最早的核酸序列數(shù)據(jù)標準,以及基因組拼接數(shù)據(jù)標準;EBI?和?NCBI?等定義的基因芯片實驗數(shù)據(jù)標準?MIAME、GEO,F(xiàn)GED?定義的二代測序數(shù)據(jù)標準?MINSEQE,以及拼接文件格式?BAM、變異文件格式?VCF、遺傳特征描述格式?GFF3等,醫(yī)學(xué)領(lǐng)域得到最為廣泛認可的數(shù)據(jù)標準是醫(yī)學(xué)影像標準?DICOM。醫(yī)學(xué)領(lǐng)域的標準比生命科學(xué)領(lǐng)域的數(shù)據(jù)標準要復(fù)雜得多,規(guī)范化程度也更高。醫(yī)學(xué)領(lǐng)域的標準大多需要經(jīng)過立項、草案、發(fā)布等階段,得到了更為廣泛的認可,如國際標準化組織健康信息學(xué)標準化技術(shù)委員會的?ISO/TC 215?系列標準、HL7(衛(wèi)生信息用戶層,ISO?定義的信息交換7層協(xié)議規(guī)范中的第七層)、臨床數(shù)據(jù)交換標準協(xié)會?CDISC等;標準的范圍也遠比生命科學(xué)領(lǐng)域的數(shù)據(jù)標準復(fù)雜,包括詞匯術(shù)語、數(shù)據(jù)描述、技術(shù)操作、應(yīng)用服務(wù)和醫(yī)療管理等。
生命科學(xué)的標準主要集中在術(shù)語集和數(shù)據(jù)標準,不同的標準之間相對獨立,對數(shù)據(jù)產(chǎn)出過程、分析過程的規(guī)范性表述較少。醫(yī)學(xué)的數(shù)據(jù)標準更強調(diào)互操作、互聯(lián)互通等,不同的標準自成體系,但是對支撐科研的數(shù)據(jù)標準的描述反而較少。因此,生物醫(yī)學(xué)大數(shù)據(jù)亟待加強臨床科研的數(shù)據(jù)標準體系的建設(shè),以及數(shù)據(jù)分析過程的操作相關(guān)的標準的建設(shè)。
數(shù)據(jù)質(zhì)量控制受到數(shù)據(jù)產(chǎn)出、數(shù)據(jù)分析的影響,不同的數(shù)據(jù)質(zhì)控有所差別。芯片、基因組數(shù)以美國食品藥品監(jiān)督管理局(FDA)主導(dǎo)的?MAQC、MAQC-II、MAQC-III?等,由于獨立于技術(shù)系統(tǒng)之前,得到了較為廣泛的認可。蛋白質(zhì)組的數(shù)據(jù)質(zhì)控,缺少與?MAQC?相匹配的大項目,而是主要通過?PRIDE、iPROX?等數(shù)據(jù)匯交平臺的質(zhì)控工具來體現(xiàn)。數(shù)據(jù)質(zhì)量控制需要提供參考數(shù)據(jù)集作為基準,包括實驗方法產(chǎn)出的原始數(shù)據(jù)與參考數(shù)據(jù)集的吻合情況,以及數(shù)據(jù)分析形成的分析結(jié)果與參考數(shù)據(jù)集的吻合情況。因此,針對有廣泛用途或者重要用途的數(shù)據(jù)類型,建設(shè)參考數(shù)據(jù)集、參考數(shù)據(jù)分析流程,是數(shù)據(jù)質(zhì)量控制的關(guān)鍵環(huán)節(jié),也是生物醫(yī)學(xué)大數(shù)據(jù)平臺的重要建設(shè)內(nèi)容。
我們正在建設(shè)以組學(xué)數(shù)據(jù)百科全書——NODE為代表的開放式基礎(chǔ)性平臺,并達到了一定的數(shù)據(jù)規(guī)模。其中,在整合存儲方面,數(shù)據(jù)平臺與數(shù)據(jù)庫包括以微生物組大數(shù)據(jù)平臺為代表的領(lǐng)域示范平臺,以駱駝基因組變異數(shù)據(jù)庫、可翻譯轉(zhuǎn)錄組?RNA?數(shù)據(jù)庫等為代表的專題數(shù)據(jù)庫。在交互共享方面,正在向?NODE?系統(tǒng)集成全基因組、外顯子組、轉(zhuǎn)錄組等常規(guī)組學(xué)數(shù)據(jù)分析流程,微生物?16S?RNA、宏基因組、微生物功能注釋等領(lǐng)域組學(xué)數(shù)據(jù)分析流程。在前沿信息技術(shù)方面,利用?GPU?技術(shù)對轉(zhuǎn)錄組、宏基因組等組學(xué)數(shù)據(jù)拼接、映射等高資源消耗的環(huán)節(jié)進行優(yōu)化。在標準質(zhì)控方面,開展了包括描述信息和原始數(shù)據(jù)在內(nèi)的質(zhì)量控制,并建立了自動化的質(zhì)控流程,將實現(xiàn)數(shù)據(jù)匯交時就自動完成質(zhì)控評估的功能。
面對生物醫(yī)學(xué)大數(shù)據(jù)的挑戰(zhàn),建立全面支撐生命科學(xué)研究數(shù)據(jù)與健康醫(yī)學(xué)大數(shù)據(jù)的匯交、管理、共享與挖掘的技術(shù)與資源體系,形成以遞交為基礎(chǔ)、以整合為導(dǎo)向的數(shù)據(jù)存儲中心,以主題為基礎(chǔ)、以交互為導(dǎo)向的數(shù)據(jù)共享中心,以及以傳統(tǒng)信息技術(shù)為基礎(chǔ)、以前沿信息技術(shù)為導(dǎo)向的下一代生命科學(xué)數(shù)據(jù)轉(zhuǎn)化中心,將有效地支撐生物醫(yī)學(xué)、健康醫(yī)療等領(lǐng)域的基礎(chǔ)研究、應(yīng)用研究和產(chǎn)業(yè)示范。(作者:張國慶 李亦學(xué) 王澤峰 趙國屏 中國科學(xué)院計算生物學(xué)重點實驗室生物醫(yī)學(xué)大數(shù)據(jù)中心 中國科學(xué)院-馬普學(xué)會計算生物學(xué)伙伴研究所 中國科學(xué)院上海生命科學(xué)研究院(上海營養(yǎng)與健康研究院)中國科學(xué)院大學(xué) 上海 上海生物信息技術(shù)研究中心 上海。《中國科學(xué)院院刊》供稿)