|
科學大數(shù)據應用場景及管理需求
科學大數(shù)據的應用場景及典型特征
科學數(shù)據是科研活動的輸入、輸出和資產,是證實或者證偽科學發(fā)現(xiàn)或科學觀點事實、證據或者論證推理的基礎。它包括數(shù)字化觀測、科學監(jiān)測等來自儀器設備或傳感器的數(shù)據,計算模擬與模型輸出的數(shù)據,對情景或現(xiàn)象的描述,對行為的觀測或定性描述,以及用于管理或者商業(yè)目的的統(tǒng)計數(shù)據等。目前科學大數(shù)據普遍存在于各個領域的科學研究,尤其在天文學、高能物理、微生物學等大科學領域,科學大數(shù)據的應用場景尤為明顯。
在天文學領域,中法合作伽馬暴探測天文衛(wèi)星SVOM?的關鍵地面設備?GWAC?的每個相機?15?s?內會產生?32?MB?的天區(qū)圖,并于下一個天區(qū)圖產生之前完成點源提取、交叉認證等操作,最終在?3—5?s?內完成?100?萬—10?000?萬行星表數(shù)據的插入,10?億—100?億行星表數(shù)據的?JOIN?運算。
在高能物理領域,歐洲核子物理研究組織構建的大型強子對撞機(LHC)每秒進行?6?億次碰撞實驗,產生?6?PB?事例數(shù)據,經事例篩選后存儲大約?1?GB?實驗數(shù)據。目前?LHC?產生的實驗數(shù)據已超過?200?PB,未來?5?年?LHC?產生的數(shù)據將會超過?1?EB,事例數(shù)將達到千萬億級別,需在?10?s?內完成百萬分之一的事例篩選操作。
在微生物學領域,中國科學院微生物研究所世界數(shù)據中心(WDCM)對?Taxonomy、GenBank、Gene?等?36?個數(shù)據源進行實體識別、歧義消除、本體構建等數(shù)據處理操作,構建了包含?830?萬個節(jié)點、1.3?億條邊的知識圖譜結構。預計未來?5?年內,WDCM?還將匯聚開放生物資源、文獻、序列和疾病等數(shù)據,在?10?000?多個數(shù)據源中構建?100?億條關聯(lián)的知識圖譜數(shù)據,并要求?1?s?內完成?100?億條關聯(lián)數(shù)據的?6?步關聯(lián)查詢。
自?2011?年麥肯錫年度總結報告中提出“大數(shù)據”概念以來,學術界和工業(yè)界對大數(shù)據定義一直存在爭議,這些爭議主要來自不同領域中大數(shù)據的特征體現(xiàn)。目前學術界公認大數(shù)據具有“4V”特征——體量大(volume)、生成快(velocity)、多樣性(variety)和密度低(value),科學大數(shù)據應用場景充分體現(xiàn)了這“4V”特征,并具有以下獨特的性質。
科學發(fā)現(xiàn)的準確性建立在海量實驗數(shù)據的重復計算驗證之上。例如,“上帝粒子”和暗物質發(fā)現(xiàn)的正確性經過了對數(shù)百?PB?量級數(shù)據的多次重復計算,多次驗證重復出現(xiàn)同一結論時才能發(fā)布結論。
短時間內科學實驗會產生大量觀測數(shù)據并進行流程化處理,實驗數(shù)據會持續(xù)進入持久化存儲設備進行長周期存儲。例如,GWAC?在?15?s?內完成?40×32?MB?天區(qū)圖的點源檢測、入庫等操作,產生的所有數(shù)據將永久存儲。
科學現(xiàn)象觀測的量化指標存在圖像、語音、時間序列等形式,數(shù)據分布在不同國家和機構中,科學研究需要整合這些多源異構數(shù)據。例如,WDCM?整合?36?個包括文本、網頁、醫(yī)療記錄在內的數(shù)據源完成知識圖譜構建。
科學數(shù)據來自大科學裝置、互聯(lián)網、國家機構等,數(shù)據與國家利益和個人隱私相關,數(shù)據共享和挖掘分析會產生更大的社會推進作用。例如,“數(shù)字絲路”(DBAR)國際科學計劃涉及“一帶一路”沿線?65?個國家共享的地理、農業(yè)、社會輿論等數(shù)據,挖掘分析這些數(shù)據可為地區(qū)、國家的決策提供重要參考,然而如何分享成果收益、保護數(shù)據隱私是該計劃面臨的一個重要問題。
科學大數(shù)據的這些性質對數(shù)據管理系統(tǒng)提出了巨大挑戰(zhàn)。