中文字幕在线中乱码,青青青国产最新视频在线观看,无遮挡免费一级毛片视频,激情国产原创在线观看

 
 

科學大數據管理技術與系統

發布時間:2018-09-07 11:51:11  |  來源:中國網·中國發展門戶網  |  作者:黎建輝 李躍鵬 王華進 陳明奇  |  責任編輯:趙斌宇
關鍵詞:科學大數據,融合查詢,流水線,數據共享,彈性伸縮

科學大數據管理的挑戰

科學大數據管理涉及數據的收集、存儲、處理、分析、可視化和共享等全生命周期管理。如圖?1?所示,科學應用首先從科學裝置接入或從互聯網采集大量異構實驗或觀測數據,然后經過初步過濾、轉換等數據預處理操作存入持久化設備形成原始科學數據。針對具體科研目標,應用對原始數據進一步運算抽取實驗特征形成特征數據??茖W應用對特征數據整合挖掘分析形成科學發現量化指標,并通過可視化的方法將科學發現展現出來。最后整個流程中產生的所有數據都將存檔、發布以備將來查詢、驗證等科研目標使用。

科學大數據管理存在常見的“4V”問題,同時也具有獨特的性質,這些性質決定了科學大數據管理系統生命周期中面臨?4?個方面的挑戰(SPUS)。

規模動態化(Scale Dynamic)。科學實驗持續產生海量科學數據,并需進行長周期持久化存儲。比如上文中提到的大部分科學研究項目(如?GWAC、LHC等)每秒產生?GB?量級的觀測數據,并且數據無失效期,然而科研機構卻無法事先確定存儲和計算資源的配置以最優地滿足科學應用需求。因此,如何彈性動態地為這些數據分配存儲空間和數據處理資源是科學大數據管理需要面對的一個重大挑戰。

流水線管理(Pipeline Management)。科學實驗有嚴密的實驗步驟,科學裝置產生的海量原始科學數據會經過大量的特征提取、轉換、分析等數據加工操作最終產出科研成果。以?GWAC?新星發現應用為例,原始數據進入系統以后,系統需要完成特征提取、交叉認證等嚴密的數據處理操作;新星預警發生后,系統需要溯源到預警產生的特征記錄、天區圖、鏡頭等并對它們進行反復確認。此外,同一個科學裝置下也會出現大量類似的實驗流程,因此有效地創建、執行、管理這些實驗步驟和數據將極大提高科學實驗的效率。

統一訪問(Unified Access)。大科學應用經常會對不同領域、不同機構的異構數據進行融合挖掘分析。以中國科學家發起的?DBAR?國際科學計劃為例,為了給地區決策提供參考,需要獲取天、空、地綜合數據資源構建共享的地球大數據平臺。這其中涉及衛星遙感數據、氣候觀測站數據、生物觀測站數據以及社交網絡中的輿論熱點數據等異構數據的融合管理。因此,如何用統一的方式訪問多源異構數據將極大地提升科學發現的價值和規模。

共享管理(Sharing Management)。科學實驗產生的成果數據以及中間數據通過互聯開放共享以便集全世界科學家的力量進行實驗驗證、模型改進等后續科學研究,比如全世界物理學家通過互聯網從?LHC?中獲取數據進行粒子發現實驗,并通過互聯網共享科研成果??茖W數據開放性帶來的重大問題有:數據提供者與科研人員如何合理劃分科研成果、數據提供者著作權認證和激勵機制、共享數據的隱私保護等。如果不能妥善解決這些問題,將影響科研人員的積極性和科研生態圈的健康發展。

<   1   2   3   4   5   6   7   >  


返回頂部