|
科學大數據的思考
隨著數據積累和計算能力的提升,直接從大數據中獲取知識已經成為可能。2013?年?9?月,筆者及團隊提出“科學大數據”概念,并于?2014?年?1月以“科學大數據與數字地球”為題發表于《科學通報》。我們認為,科學大數據與互聯網大數據、商業大數據等存在本質屬性和特點上的區別,具有自己獨特的科學內涵和特點。
整體看來,科學大數據具有如下外部特征:從數據內容來講,科學大數據一般表征自然客觀對象和變化過程;從數據體量來講,科學大數據在不同學科中存在較大的差異;從數據增長速率來講,科學大數據依學科不同其數據增長速率也變化較大;從數據獲取手段來講,科學大數據一般來自觀測和實驗的記錄以及后續加工;從數據分析手段來講,科學大數據的知識發現一般需要借助科學原理模型。
通過歸納科學大數據的外部特征,其內部特征也變得相對清晰,主要概括為:數據內容的不可重復性。正如哲學家赫拉克利特的名言“人不能兩次踏進同一條河流”,對于一般自然與物理的客觀過程的觀測具有一定的不可重復性。數據的高度不確定性。由于采用的直接或非直接觀測方式、采樣手段和記錄技術,往往引入系統觀測誤差及數據記錄誤差。數據的高維特性。由于觀測對象和采樣方法本身的時間、空間屬性以及觀測傳感器的多通道特征,科學大數據往往具有時空連續性和譜段多維性,導致維數災難。數據分析的高度計算復雜性。數據的高度不確定性、高維特性,以及與科學數據分析相伴隨的原理模型的復雜性,導致了科學數據處理分析的計算復雜性??傊?,科學大數據具有不同于一般大數據的特征,其內在機理及如何應用于知識發現需深入研究。
2014?年?6?月,在我們的倡議和主持下,“國際科學計劃大數據研討會:挑戰與機遇”在北京召開。該會議由國際科學和技術數據委員會(CODATA)主辦,7?個國際組織共同主辦。會議發表的聲明強調科學研究要加強對大數據的理解,通過發展與大數據有關的研究、政策和框架來強化國際大數據科學合作,促進社會發展。盡管這在當時只是一個起點,但這份聲明是人們關注大數據潛力邁出的實質性一步。聲明要點包括:響應大數據對國際科學計劃的重要性;開發大數據為社會服務的潛力;通過國際合作來增進對大數據的理解;通過全球研究基礎設施促進大數據的普及;探索和應對大數據管理工作帶來的挑戰;鼓勵大數據科學能力建設;促進政策制定,最大限度地利用大數據。
自那時起,我們主辦或共同主辦了一系列關于科學大數據的會議,其中包括“科學大數據前沿香山科學會議”“中國科學院學部空間地球大數據科學與技術前沿論壇”“自然科學與人文科學大數據前沿探索圓桌會議”“地球大數據香山科學會議”等。有關部門和單位相續組織召開了不同的與科學大數據有關的會議,進行深入研討。
特別重要的是,在中國科學院的組織下,我們提出發展“科學大數據”的建議,上報后受到政府的重視。2015?年《國務院關于印發促進大數據發展行動綱要的通知》中把科學大數據作為綱要的一部分,提出“發展科學大數據:積極推動由國家公共財政支持的公益性科研活動獲取和產生的科學數據逐步開放共享,構建科學大數據國家重大基礎設施,實現對國家重要科技數據的權威匯集、長期保存、集成管理和全面共享。面向經濟社會發展需求,發展科學大數據應用服務中心,支持解決經濟社會發展和國家安全重大問題”。
科學大數據是國家大數據戰略的有機組成,這使得深入開展科學大數據的研究具備了良好的政策支撐和理論基礎??茖W大數據是國家大數據戰略的基石,科技界和科學家肩負重大的使命——推進科學大數據的全面系統發展。