中文字幕在线中乱码,青青青国产最新视频在线观看,无遮挡免费一级毛片视频,激情国产原创在线观看

 
 

科學(xué)大數(shù)據(jù)智能分析軟件的現(xiàn)狀與趨勢(shì)

發(fā)布時(shí)間:2018-09-07 11:51:22  |  來源:中國(guó)網(wǎng)·中國(guó)發(fā)展門戶網(wǎng)  |  作者:鐘華 劉杰 王偉  |  責(zé)任編輯:趙斌宇
關(guān)鍵詞:科學(xué)大數(shù)據(jù),智能分析,數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),軟件系統(tǒng)

發(fā)展現(xiàn)狀

數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)離不開軟件系統(tǒng)的支撐,本文的研究對(duì)象聚焦于近?10?年來面向科學(xué)大數(shù)據(jù)智能分析的典型軟件系統(tǒng)。從適用范圍來看,科學(xué)大數(shù)據(jù)智能分析軟件可以簡(jiǎn)單分為通用型和領(lǐng)域?qū)S眯蛢深悺Mㄓ眯椭悄芊治鲕浖谴髷?shù)據(jù)、人工智能等領(lǐng)域的通用分析軟件,并被科學(xué)家團(tuán)隊(duì)?wèi)?yīng)用于特定領(lǐng)域的研究工作,如?Matlab。領(lǐng)域?qū)S眯椭悄芊治鲕浖侵羔槍?duì)特定科學(xué)領(lǐng)域的專有分析軟件,如地學(xué)、資源環(huán)境科學(xué)領(lǐng)域流行的?Google Earth Engine。

通用型科學(xué)大數(shù)據(jù)智能分析軟件

大數(shù)據(jù)和人工智能技術(shù)發(fā)展迅速,涌現(xiàn)了大量軟件系統(tǒng),本文選取科學(xué)家團(tuán)隊(duì)較為常用、具有代表性的智能分析軟件,并依據(jù)軟件系統(tǒng)的部署模式,將這些軟件分為?3?類——單機(jī)環(huán)境、分布式環(huán)境和云計(jì)算環(huán)境,同時(shí)這也是智能分析軟件發(fā)展的?3?個(gè)階段。

單機(jī)環(huán)境智能分析軟件。在商業(yè)數(shù)據(jù)分析軟件方面,Matlab?提供了用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)編程語言和交互式環(huán)境,在眾多科學(xué)領(lǐng)域應(yīng)用廣泛。在眾多開源免費(fèi)數(shù)據(jù)分析軟件中,R?語言、Scikit-Learn、Weka是典型代表。R?語言是一種用于統(tǒng)計(jì)分析和繪圖的語言,提供了豐富的統(tǒng)計(jì)分析功能,用戶還可以通過開發(fā)并安裝擴(kuò)展包增強(qiáng)?R?的功能。?Python?語言擁有大量科學(xué)數(shù)據(jù)分析的算法庫(kù),其中就包括被廣泛應(yīng)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的?Scikit-Learn。Weka?數(shù)據(jù)挖掘平臺(tái)基于?Java?語言開發(fā),提供了可視化、拖拽式的分析流程設(shè)計(jì)界面,并集成了大量數(shù)據(jù)預(yù)處理和機(jī)器學(xué)習(xí)算法。這些軟件系統(tǒng)在設(shè)計(jì)之初是以單機(jī)模式運(yùn)行,無法針對(duì)基于分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理,在大數(shù)據(jù)場(chǎng)景下存在先天不足。此外,這些軟件系統(tǒng)還缺乏對(duì)深度學(xué)習(xí)技術(shù)的有效支持。

分布式環(huán)境智能分析軟件。在分布式環(huán)境下,開源社區(qū)提供的大數(shù)據(jù)分析軟件成為主流,Hadoop Mahout、Spark MLlib是其中的典型代表,研究人員借助于?Hadoop、Spark?框架,解決了分布式并行挖掘問題,并提供了典型的機(jī)器學(xué)習(xí)算法和模型。近年來,涌現(xiàn)出一批開源深度學(xué)習(xí)框架,例如?Tensor Flow、Caffe、CNTK、MXNet?等,用于深度神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建及訓(xùn)練,支持分布式計(jì)算和異構(gòu)計(jì)算。盡管這些開源軟件提供了豐富的算法庫(kù)和高效的分布式計(jì)算平臺(tái),但仍需要專業(yè)的編程開發(fā)和系統(tǒng)配置技能,且學(xué)習(xí)曲線陡峭,不利于科學(xué)家團(tuán)隊(duì)使用。

云計(jì)算環(huán)境智能分析軟件。通過云平臺(tái)提供大數(shù)據(jù)智能分析服務(wù)已成為大型公有云平臺(tái)的標(biāo)配服務(wù),“機(jī)器學(xué)習(xí)即服務(wù)”(machine learning as a service,MlaaS)也成為多家領(lǐng)先云平臺(tái)廠商的發(fā)展趨勢(shì)。Azure Machine Learning(Azure ML)是微軟?Azure?云平臺(tái)提供的機(jī)器學(xué)習(xí)分析服務(wù),在提供大量通用機(jī)器學(xué)習(xí)分析算法基礎(chǔ)上,Azure ML?還面向數(shù)據(jù)科學(xué)家用戶提供了交互式的圖形化開發(fā)界面。類似的?MLaaS?還包括?Aliyun PAI?等。這些系統(tǒng)通常僅支持某種特定開發(fā)語言和應(yīng)用程序編程接口(API),用戶無法自主擴(kuò)充算法庫(kù),存在平臺(tái)鎖定(lock-in)問題。除了上述公有云廠商提供的大數(shù)據(jù)智能分析服務(wù),一些科學(xué)家團(tuán)隊(duì)將具有“瀏覽器/服務(wù)器”架構(gòu)模式的交互式分析軟件部署在公有云或私有云,實(shí)現(xiàn)了“簡(jiǎn)化版”的?MLaaS。例如,Jupyter Notebook是支持“瀏覽器/服務(wù)器”架構(gòu)的交互式分析軟件,支持通過瀏覽器編輯運(yùn)行多種編程語言,在服務(wù)器端進(jìn)行數(shù)據(jù)處理、數(shù)值模擬、統(tǒng)計(jì)建模、機(jī)器學(xué)習(xí)以及可視化等。

<  1  2  3  4  5  >  


返回頂部