|
以主題為基礎、以交互為導向的數據共享
NCBI?和?EBI?等機構通過數據遞交服務匯聚了大量的數據資源,并通過網絡提供數據共享。截至?2018?年?7月,NCBI?和?EBI?提供的生物序列、分子結構、遺傳信息、表型信息等可以共享的數據接近資源都已經超過?60?項,這些數據資源極大地促進了生命科學與生物醫學研究。除了共享第三方遞交的數據資源外,以美國國家癌癥研究院(NCI)建立的?TCGA(The Cancer Genome Atlas)數據庫、英國的國家隊列?UK?Biobank(UKB)等,采用的是另外一種模式,即依托大型科研項目產出的數據,提供分級共享,滿足不同類型的科研需求。介于這兩者之間,中小型研究團隊利用自身的數據采集能力和整合能力,建立了大量的種類繁多、規模懸殊、質量參差不齊的數據庫和知識庫,提供數據查詢、瀏覽、下載服務,部分數據庫還提供在線分析服務。Nucleic Acids Research?每年第?1?期都出版數據庫專刊,到目前為止,已經發表了?1?737?篇數據庫相關論文,其已經成為生物醫學數據庫領域最有影響力的專刊。
這些按照數據類型(如基因組、轉錄組、蛋白質組等)、物種(如人類、人類以外、脊椎動物、無脊椎動物、微生物等)、研究目的(如遺傳變異、轉錄因子、調控網絡)等方式建設的數據庫,在推進數據共享方面發揮了巨大的作用。但是隨著數據類型和規模的日益擴大,如何存儲、組織、訪問存放在不同平臺上的不同類型的生物醫學數據成為新的挑戰。為此,研究者提出?FAIR?原則,即可發現(findable)、可訪問(accessible)、互操作(interoperable)和重用(re-usable)。基于?FAIR?原則,BD2K、OmicsDI等平臺采用搜索引擎等技術突破傳統的以主題為基礎建設的數據庫的局限性,對?EBI、NCBI?等數據中心的數據資源提供統一檢索服務,實現以搜索引擎為核心的數據跨庫整合,更好地滿足用戶一站式的數據共享需求。
除了搜索技術外,數據可視化、在線分析也是用戶利用數據的重要手段。新的可視化技術,包括?HTML5、JavaScript?等?Web?展示技術在數據平臺中的應用越來越廣泛,用于大分子展示、分子影像、基因組瀏覽器等。此外,依托數據庫的分子序列、分子結構、調控及相互作用網絡等數據,數據庫根據自身特點,集成了序列比對、多序列比對、結構相似性比較、網絡結構分析等在線分析的工具,也極大地加強了數據的可交互性。
在建設生物醫學大數據平臺時,TB?量級的數據下載需求對數據下載、單庫檢索等數據共享手段提出了嚴峻的挑戰。因此在延續按照主題(數據類型、物種、研究領域)組織數據的基礎上,引入跨庫搜索引擎、可視化、在線分析等在線交互技術,通過更加準確地返回用戶數據訪問結果的方式,提高數據共享效率。
以傳統信息技術為基礎、以前沿信息技術為導向的數據挖掘
從分析的角度來看,生物醫學大數據包括生命科學研究數據,以及臨床醫學數據。在生物信息學、計算生物學、系統生物學等計算學科的支持下,以基因組、轉錄組、蛋白質組、代謝組等組學數據為代表的生命科學研究數據的分析方法已經日趨成熟,分析流程日益普及,正在逐步成為傳統的信息技術。臨床醫學數據在數據統計、數據建模、機器學習等技術的支持下,SAS、MATLAB、R?語言等分析工具也得到了廣泛應用。
數據挖掘能力,尤其是組學數據挖掘能力,越來越難以滿足飛速增長的數據產出。其面臨的主要挑戰在于:數據量越來越大,需要速度更快的數據壓縮、傳輸、分析方法;數據維度越來越高,需要更加準確的降維方法。基于?GPU(圖形處理器)、FPGA(現場可編程門陣列)等硬件技術,對傳統的生物信息分析方法的限速步驟進行算法優化,在序列比對、分子對接得到越來越多的應用。而以深度神經網絡為代表的人工智能技術,在醫學影像處理、高維數據降維等方面的應用呈現爆發式的增長,包括致盲性視網膜疾病與肺炎、阿爾茨海默病、皮膚癌、腦膜瘤等醫學影像輔助診斷等。此外,區塊鏈技術由于其去中心的特性,也開始在生物醫學數據共享方面得到應用。
前沿信息技術在生物醫學大數據中的應用,將涵蓋數據預處理、數據傳輸、數據分析、數據共享等范圍,提升數據挖掘能力。