中文字幕在线中乱码,青青青国产最新视频在线观看,无遮挡免费一级毛片视频,激情国产原创在线观看

 
 

科學(xué)大數(shù)據(jù)管理技術(shù)與系統(tǒng)

發(fā)布時間:2018-09-07 11:51:11  |  來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)  |  作者:黎建輝 李躍鵬 王華進(jìn) 陳明奇  |  責(zé)任編輯:趙斌宇
關(guān)鍵詞:科學(xué)大數(shù)據(jù),融合查詢,流水線,數(shù)據(jù)共享,彈性伸縮

 

 

 

 

計算和存儲管理組件。即計算和存儲資源隨上層應(yīng)用負(fù)載規(guī)模的變化而彈性伸縮,從而達(dá)到處理時間與資源投入的比例最優(yōu)化。目前,彈性伸縮分為漸進(jìn)式和定量式兩種方案。漸進(jìn)式伸縮方法監(jiān)控上層應(yīng)用對底層計算和存儲資源的競爭度,動態(tài)地增加或縮減底層資源。例如,在?AWS?云平臺的?E-MapReduce?集群上運行的?MapReduce?作業(yè)對資源的競爭度是集群剩余可用內(nèi)存的數(shù)量,競爭度超過閾值會將新計算或存儲節(jié)點納入集群從而完成集群的自動擴(kuò)容。定量式伸縮方法是通過預(yù)估目標(biāo)應(yīng)用的計算和存儲資源需求,提前確定應(yīng)用的計算和存儲資源規(guī)模。與漸進(jìn)式伸縮相比,定量式伸縮的反應(yīng)時間較短,然而定量式伸縮方法高度依賴對目標(biāo)應(yīng)用的計算和對存儲資源需求的準(zhǔn)確預(yù)估,如通過建立目標(biāo)應(yīng)用的負(fù)載模型預(yù)估系統(tǒng)的計算和存儲資源。

數(shù)據(jù)流水線管理組件。通過對數(shù)據(jù)處理流程的抽象,將數(shù)據(jù)處理過程映射為流水線中的若干邏輯處理單元,從而對數(shù)據(jù)處理過程進(jìn)行規(guī)范和統(tǒng)一管理。通常情況下,流水線中?1?個處理單元代表?1?個函數(shù)、WebService?或?SQL?語句等,處理單元的輸出可以作為其他?1?個或多個處理單元的輸入;通過分支、循環(huán)等方式,這些處理單元組裝在一起統(tǒng)一管理完成科學(xué)發(fā)現(xiàn)的流程。流水線管理與工作流、指令流等有相似的形式化表示,如?Pi?代數(shù)、Petri?網(wǎng)等,通過這些流水線形式化表示,系統(tǒng)可在理論上保證執(zhí)行過程的準(zhǔn)確性并對異常進(jìn)行捕獲處理。在實際應(yīng)用中,除了保證流水線的正確運行之外,流水線管理還需要解決數(shù)據(jù)接入、數(shù)據(jù)溯源、中間數(shù)據(jù)轉(zhuǎn)換等核心問題,常見的流水線管理工具有?Apache Nifi、Stream Set?等。

數(shù)據(jù)融合查詢管理組件。即用統(tǒng)一的方式訪問分析多源異構(gòu)數(shù)據(jù)。目前數(shù)據(jù)融合主要有聯(lián)邦數(shù)據(jù)庫(Federate Database)、多模型數(shù)據(jù)庫(Multi-model Database)、多存儲數(shù)據(jù)庫(Polystore Database)、數(shù)據(jù)集成(Data Integration)4?種方式。聯(lián)邦數(shù)據(jù)庫將多個自治的異構(gòu)或同構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)透明地映射到一個全局視圖中,具有自治、異源或異構(gòu)、分布式的明顯特征,比如在?SQL Server?2000?和?Mysql?5.0?中的?Federate?功能。多模型數(shù)據(jù)庫是指一個數(shù)據(jù)庫后端存儲多種類型的數(shù)據(jù),如?OrientDB、ArangoDB?等。多存儲數(shù)據(jù)庫架構(gòu)沒有統(tǒng)一全局視圖,而是由局部視圖和中間視圖構(gòu)成,通過統(tǒng)一的查詢語言進(jìn)行查詢,典型的?Polystore?架構(gòu)有?BigDAWG、Myria?等。根據(jù)數(shù)據(jù)轉(zhuǎn)換的方式,數(shù)據(jù)集成可以分為在線集成和離線集成兩種方式。離線集成將不同數(shù)據(jù)源中數(shù)據(jù)通過?ETL?轉(zhuǎn)換,存儲在全局視圖數(shù)據(jù)源中進(jìn)行統(tǒng)一管理分析,如數(shù)據(jù)倉庫、數(shù)據(jù)湖泊、DataHub?等方式。在線集成通過解析查詢語句將局部視圖中的數(shù)據(jù)在線轉(zhuǎn)換為全局視圖,如?Sparksql、Impala、Presto?等。

數(shù)據(jù)共享管理組件。該組件的根本任務(wù)是疏通數(shù)據(jù)擁有者到用戶之間的鏈路,促進(jìn)數(shù)據(jù)資源在擁有者和用戶之間的流通、傳播與重用。目前科學(xué)數(shù)據(jù)共享機(jī)制模式的研究主要集中在數(shù)據(jù)匯交機(jī)制、數(shù)據(jù)出版機(jī)制、數(shù)據(jù)聯(lián)盟機(jī)制和服務(wù)激勵機(jī)制(積分機(jī)制、在線計算服務(wù)模式)4?個方面,如王晴、李成贊等從政策法規(guī)、技術(shù)保障、評價激勵等方面對數(shù)據(jù)共享機(jī)制進(jìn)行了深入分析和論證。數(shù)據(jù)共享的隱私保護(hù)技術(shù)中最具代表性的是區(qū)塊鏈技術(shù),如丁偉等、翁健等提出了基于區(qū)塊鏈的數(shù)據(jù)共享方法,通過公私鑰等非對稱加密算法將數(shù)據(jù)存儲在區(qū)塊鏈上,從而更大程度上保護(hù)了用戶數(shù)據(jù)的隱私,并在醫(yī)療、基因等領(lǐng)域進(jìn)行了驗證。

<  1  2  3  4  5  6  7  >  


返回頂部