|
中國發(fā)展門戶網(wǎng)訊 隨著新一代信息技術(shù)的迅猛發(fā)展和深入應(yīng)用,數(shù)據(jù)的數(shù)量、規(guī)模不斷擴(kuò)大,數(shù)據(jù)已日益成為土地、資本之后的又一種重要的生產(chǎn)要素,和各個國家和地區(qū)爭奪的重要資源,誰掌握數(shù)據(jù)的主動權(quán)和主導(dǎo)權(quán),誰就能贏得未來。奧巴馬政府將數(shù)據(jù)定義為“未來的新石油”,認(rèn)為一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制將成為繼陸權(quán)、海權(quán)、空權(quán)之外的另一個國家核心權(quán)力。此后,一個全新的概念——大數(shù)據(jù)開始風(fēng)靡全球。
大數(shù)據(jù)的概念與內(nèi)涵
“大數(shù)據(jù)”的概念早已有之,1980年著名未來學(xué)家阿爾文?托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。但是直到近幾年,“大數(shù)據(jù)”才與“云計算”、“物聯(lián)網(wǎng)”一道,成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。2008年,在谷歌成立10周年之際, 著名的《自然》雜志出版了一期專刊,專門討論未來的大數(shù)據(jù)處理相關(guān)的一系列技術(shù)問題和挑戰(zhàn),其中就提出了“Big Data”的概念。2011年5 月,在“云計算相遇大數(shù)據(jù)” 為主題的EMC World 2011 會議中,EMC 也拋出了Big Data概念。所以,很多人認(rèn)為,2011年是大數(shù)據(jù)元年。
此后,諸多專家、機(jī)構(gòu)從不同角度提出了對大數(shù)據(jù)理解。當(dāng)然,由于大數(shù)據(jù)本身具有較強(qiáng)的抽象性,目前國際上尚沒有一個統(tǒng)一公認(rèn)的定義。維基百科認(rèn)為大數(shù)據(jù)是超過當(dāng)前現(xiàn)有的數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)庫管理工具處理能力,處理時間超過客戶能容忍時間的大規(guī)模復(fù)雜數(shù)據(jù)集。全球排名第一的企業(yè)數(shù)據(jù)集成軟件商Informatica認(rèn)為大數(shù)據(jù)包括海量數(shù)據(jù)和復(fù)雜數(shù)據(jù)類型,其規(guī)模超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)進(jìn)行管理和處理的能力。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser提到一個簡單的定義:大數(shù)據(jù)就是任何超過了一臺計算機(jī)處理能力的龐大數(shù)據(jù)量。百度搜索的定義為:"大數(shù)據(jù)"是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理。互聯(lián)網(wǎng)周刊的定義為:"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成變革之力。
綜合上述不同的定義,我們認(rèn)為,大數(shù)據(jù)至少應(yīng)包括以下兩個方面:一是數(shù)量巨大,二是無法使用傳統(tǒng)工具處理。因此,大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。它強(qiáng)調(diào)的不僅是數(shù)據(jù)的規(guī)模,更強(qiáng)調(diào)從海量數(shù)據(jù)中快速獲得有價值信息和知識的能力。
大數(shù)據(jù)4V特征
一般認(rèn)為,大數(shù)據(jù)主要具有以下四個方面的典型特征:規(guī)模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value),即所謂的“4V”。
1.規(guī)模性。大數(shù)據(jù)的特征首先就體現(xiàn)為“數(shù)量大”,存儲單位從過去的GB到TB,直至PB、EB。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長。社交網(wǎng)絡(luò)(微博、推特、臉書)、移動網(wǎng)絡(luò)、各種智能終端等,都成為數(shù)據(jù)的來源。淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。迫切需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺和新的數(shù)據(jù)處理技術(shù),來統(tǒng)計、分析、預(yù)測和實時處理如此大規(guī)模的數(shù)據(jù)。
2.多樣性。廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)大體可分為三類:一是結(jié)構(gòu)化數(shù)據(jù),如財務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點是數(shù)據(jù)間因果關(guān)系強(qiáng);二是非結(jié)構(gòu)化的數(shù)據(jù),如視頻、圖片、音頻等,其特點是數(shù)據(jù)間沒有因果關(guān)系;三是半結(jié)構(gòu)化數(shù)據(jù),如HTML文檔、郵件、網(wǎng)頁等,其特點是數(shù)據(jù)問的因果關(guān)系弱。
3.高速性。與以往的檔案、廣播、報紙等傳統(tǒng)數(shù)據(jù)載體不同,大數(shù)據(jù)的交換和傳播是通過互聯(lián)網(wǎng)、云計算等方式實現(xiàn)的,遠(yuǎn)比傳統(tǒng)媒介的信息交換和傳播速度快捷。大數(shù)據(jù)與海量數(shù)據(jù)的重要區(qū)別,除了大數(shù)據(jù)的數(shù)據(jù)規(guī)模更大以外,大數(shù)據(jù)對處理數(shù)據(jù)的響應(yīng)速度有更嚴(yán)格的要求。實時分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見效,幾乎無延遲。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。
4.價值性。這也是大數(shù)據(jù)的核心特征。現(xiàn)實世界所產(chǎn)生的數(shù)據(jù)中,有價值的數(shù)據(jù)所占比例很小。相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)最大的價值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預(yù)測分析有價值的數(shù)據(jù),并通過機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,發(fā)現(xiàn)新規(guī)律和新知識,并運用于農(nóng)業(yè)、金融、醫(yī)療等各個領(lǐng)域,從而最終達(dá)到改善社會治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究的效果。
大數(shù)據(jù)六大發(fā)展趨勢
雖然大數(shù)據(jù)目前仍處在發(fā)展的起步階段,尚存在著諸多的困難與挑戰(zhàn),但我們相信,隨著時間的推移,大數(shù)據(jù)未來的發(fā)展前景非常可觀。
1.?dāng)?shù)據(jù)將呈現(xiàn)指數(shù)級增長
近年來,隨著社交網(wǎng)絡(luò)、移動互聯(lián)、電子商務(wù)、互聯(lián)網(wǎng)和云計算的興起,音頻、視頻、圖像、日志等各類數(shù)據(jù)正在以指數(shù)級增長。據(jù)有關(guān)資料顯示,2011年,全球數(shù)據(jù)規(guī)模為1.8ZB,可以填滿575億個32GB的iPad,這些iPad可以在中國修建兩座長城。到2020年,全球數(shù)據(jù)將達(dá)到40ZB,如果把它們?nèi)看嫒胨{(lán)光光盤,這些光盤和424艘尼米茲號航母重量相當(dāng)。美國互聯(lián)網(wǎng)數(shù)據(jù)中心則指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。
2.?dāng)?shù)據(jù)將成為最有價值的資源
在大數(shù)據(jù)時代,數(shù)據(jù)成為繼土地、勞動、資本之后的新要素,構(gòu)成企業(yè)未來發(fā)展的核心競爭力。《華爾街日報》在一份題為《大數(shù)據(jù),大影響》的報告宣傳,數(shù)據(jù)已經(jīng)成為一種新的資產(chǎn)類別,就像貨幣或黃金一樣。IBM執(zhí)行總裁羅睿蘭認(rèn)為指出,“數(shù)據(jù)將成為一切行業(yè)當(dāng)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源。”隨著大數(shù)據(jù)應(yīng)用的不斷發(fā)展,我們有理由相信大數(shù)據(jù)將成為機(jī)構(gòu)和企業(yè)的重要資產(chǎn)和爭奪的焦點谷歌、蘋果、亞馬遜、阿里巴巴、騰訊等互聯(lián)網(wǎng)巨頭正在運用大數(shù)據(jù)力量獲得商業(yè)上更大的成功,并且將會繼續(xù)通過大數(shù)據(jù)來提升自己的競爭力。
3.大數(shù)據(jù)和傳統(tǒng)行業(yè)智能融合
通過對大數(shù)據(jù)收集、整理、分析、挖掘, 我們不僅可以發(fā)現(xiàn)城市治理難題,掌握經(jīng)濟(jì)運行趨勢,還能夠驅(qū)動精確設(shè)計和精確生產(chǎn)模式,引領(lǐng)服務(wù)業(yè)的精確化和增值化,創(chuàng)造互動的創(chuàng)意產(chǎn)業(yè)新形態(tài)。麥當(dāng)勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數(shù)據(jù)分析基礎(chǔ)之上的精準(zhǔn)選址。百度、阿里、騰訊等通過對海量數(shù)據(jù)的掌握和分析,為用戶提供更加專業(yè)化和個性化的服務(wù)。在智慧城市建設(shè)不斷深入的情況下,大數(shù)據(jù)必將在智慧城市中發(fā)揮越來越重要的作用。由城市數(shù)字化到智慧城市,關(guān)鍵是要實現(xiàn)對數(shù)字信息的智慧處理,其核心是引入了大數(shù)據(jù)處理技術(shù),大數(shù)據(jù)將成為智慧城市的核心智慧引擎。智慧金融、智慧安防、智慧醫(yī)療、智慧教育、智慧交通、智慧城管等,無不是大數(shù)據(jù)和傳統(tǒng)產(chǎn)業(yè)融合的重要領(lǐng)域。
4.?dāng)?shù)據(jù)將越來越開放
大數(shù)據(jù)是人類的共同資源、共同財富,數(shù)據(jù)開放共享是不可逆轉(zhuǎn)的歷史潮流。隨著各國政府和企業(yè)對開放數(shù)據(jù)帶來的社會效益和商業(yè)價值認(rèn)識的不斷提升,全球必將很快掀起一股數(shù)據(jù)開放的熱潮。事實上,大數(shù)據(jù)的發(fā)展需要全世界、全人類的共同協(xié)作,變私有大數(shù)據(jù)為公共大數(shù)據(jù),最終實現(xiàn)私有、企業(yè)自有、行業(yè)自有的全球性大數(shù)據(jù)整合,才不至形成一個個毫無價值的“數(shù)據(jù)孤島”。大數(shù)據(jù)越關(guān)聯(lián)越有價值,越開放越有價值。尤其是公共事業(yè)和互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)開放數(shù)據(jù)將越來越多。目前,美歐等發(fā)達(dá)國家和地區(qū)的政府都在政府和公共事業(yè)上的數(shù)據(jù)做出了表率。中國政府也將一方面帶頭力促數(shù)據(jù)公開共享,另一方面,還通過推動建設(shè)各類大數(shù)據(jù)服務(wù)交易平臺,為數(shù)據(jù)使用者提供豐富的數(shù)據(jù)來源和數(shù)據(jù)的應(yīng)用。
5.大數(shù)據(jù)安全將日受重視
大數(shù)據(jù)在經(jīng)濟(jì)社會中應(yīng)用日益廣泛的同時,大數(shù)據(jù)的安全也必將受到更多的重視。大數(shù)據(jù)時代,在我們用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取有價值信息的同時,“黑客”也可以利用這些大數(shù)據(jù)技術(shù)最大限度地收集更多有用信息,對其感興趣的目標(biāo)發(fā)起更加“精準(zhǔn)的”攻擊。近年來,個人隱私、企業(yè)商業(yè)信息甚至是國家機(jī)密泄露事件時有發(fā)生。對此,美歐等發(fā)達(dá)國家紛紛制定完善了保護(hù)信息安全、防止隱私泄露等相關(guān)法律法規(guī)。可以預(yù)見,在不久的將來,其他國家也會迅速跟進(jìn),以更好地保障本國政府、企業(yè)乃至居民的數(shù)據(jù)安全。
6.大數(shù)據(jù)人才將備受歡迎
隨著大數(shù)據(jù)的不斷發(fā)展及其應(yīng)用的日益廣泛,包括大數(shù)據(jù)分析師、數(shù)據(jù)管理專家、大數(shù)據(jù)算法工程師、數(shù)據(jù)產(chǎn)品經(jīng)理等在內(nèi)的具有豐富經(jīng)驗的數(shù)據(jù)分析人員將成為全社會稀缺的資源和各機(jī)構(gòu)爭奪的人才。據(jù)著名國際咨詢公司Gartner預(yù)測,2015年全球大數(shù)據(jù)人才需求將達(dá)到440萬人,而人才市場僅能夠滿足需求的三分之一。麥肯錫公司則預(yù)測美國到2018年需要深度數(shù)據(jù)分析人才44萬—49萬,缺口為14萬—19萬人。有鑒于此,美國通過國家科學(xué)基金會,鼓勵研究性大學(xué)設(shè)立跨學(xué)科的學(xué)位項目,為培養(yǎng)下一代數(shù)據(jù)科學(xué)家和工程師做準(zhǔn)備,并設(shè)立培訓(xùn)基金支持對大學(xué)生進(jìn)行相關(guān)技術(shù)培訓(xùn),召集各個學(xué)科的研究人員共同探討大數(shù)據(jù)如何改變教育和學(xué)習(xí)等。英國、澳大利亞、法國等國家也類似地對大數(shù)據(jù)人才的培養(yǎng)做出專項部署。IBM 等企業(yè)也開始全面推進(jìn)與高校在大數(shù)據(jù)領(lǐng)域的合作,力圖培養(yǎng)企業(yè)發(fā)展需要的既懂業(yè)務(wù)知識又具分析技能的復(fù)合型數(shù)據(jù)人才。(武鋒:國家信息中心)
相關(guān)鏈接:
2020年全球大數(shù)據(jù)將達(dá)40ZB 美日歐發(fā)展經(jīng)驗啟示
中國大數(shù)據(jù)年均增速將達(dá)50% 轉(zhuǎn)向數(shù)據(jù)強(qiáng)國五大制約