|
全面細致的科學數據開放管理
數據管理計劃:從理念到實踐
1995?年,英國經濟和社會研究委員會(ESRC)制定了數據管理計劃(Data Management Plan,DMP),要求?ESRC?資助研究所產生的數據盡可能共享,并做好長期保存和高質量管理。美國國家科學基金會(NSF)于?2011?年?1月規定項目申請需包括數據管理計劃。近年來,數據管理從紙面計劃逐步走向實踐:關注數據類型、數據或元數據格式和內容標準、獲取和共享重用政策、數據歸檔計劃等。大量圖書館、科學數據中心、科研機構、政府部門、國際與區域組織等參與了數據管理計劃實踐的技術支持、政策解讀與培訓教育。
新興技術應用的持續助推
新興技術應用助推科學數據開放共享的例子不勝枚舉。以下僅就區塊鏈推動的數據共享、公民科學激發的數據生產和數據文獻倡議組織(DDI)推行的人機網絡互操作等方面揭示冰山一角。
區塊鏈推動的數據共享。科學大數據全生命周期的多層次演化、流水線處理等特征,對數據傳輸處理和共享提出全新挑戰。區塊鏈技術提供了解決方案:使用加密算法和共識機制保證安全;追溯源頭并“過濾”,保障數據質量;分布式決策去除中間機構,大幅提升數據共享效率。醫療數據已嘗試利用區塊鏈存儲共享個人健康數據。此外,分布式邊緣計算將發揮更大作用,通過區塊鏈一體化快速實現數據采集、處理和分析。
公民科學激發的數據生產。作為數據采集的新源頭,公民科學蓬勃發展。過去?22?年間,生態旅行者提供的近?3?萬張鯨鯊圖片幫助科研人員有效識別了?20?個鯨鯊聚集點。公民科學的數據價值也不容小覷。例如,公民科學聯盟(Citizen Science Association,CSA)現已吸納超過?80?個國家的會員注冊;而該組織所參與的?1?000?余個重要科學計劃項目,已有超百萬志愿者參與其中。
人機網絡互操作。為推動人機網絡的可理解性,DDI?聯盟推出?DDI3.3,技術內容涵蓋分類管理、非調查數據收集、樣本和權重、問卷設計、支持?DDI?作為屬性圖、質量聲明優化等,主要應用于社會學、行為科學、經濟學和公共衛生領域數據的歸檔、發現與互操作技術指導。
數據出版與可信存儲庫
數據出版為科學數據開放管理提供新平臺。以數據集及數據論文出版在近年流行,如?ESSD(2008年)、GigaScience(2012?年)、Nature Scientific Data(2015?年)、《中國科學數據》(2015?年)等實踐。廣義數據出版還包括數據存儲庫建設。存儲庫為數據集提供存儲和訪問平臺,支持標準化的數據質量控制和完整的全生命周期管理,分為通用存儲庫、機構存儲庫、領域存儲庫、出版物存儲庫、圖書館/檔案館/博物館以及科研項目存儲庫等類型。可信存儲庫作為一種穩定可靠的數據基礎設施,為包括數據出版等開放數據工作帶來技術和管理資源保障。
繁榮的數據管理培訓
數據管理培訓通過實用性強的短期技能訓練,指導科研實踐。其中,涵蓋?20?個國家節點的歐洲政府間組織ELIXIR整體推進歐洲科學數據管理培訓。英國的領域培訓涉及?DCC(通用)、CAiRO(藝術),DataTrain(考古學、人類學)、DATUM(健康衛生)、DMTpsych(心理學)、科研數據?MANTRA(地學、社會科學和臨床心理學)等。CODATA?面向發展中國家科研人員連年提供數據管理技術培訓。Data carpentry由軟件培訓衍生而來,與世界多國合作開展培訓推廣。此外,數據科學專業學位教育也日漸興盛。
影響力全面計量
始于數據引用。2010?年至今,國際科技數據委員會(CODATA)數據引用與實踐工作組詳細討論了“數據引用標準與規范”;2014?年,美國信息科學與技術協會(ASIS&T)數據訪問與保存峰會重點探討數據引用、元數據、數據重用;哈佛大學量化社會科學研究所(IQSS)在?2014年啟動數據引用研究項目。高校圖書館與非營利性組織(如?DataCite、ICPSR)也參與到數據引用規范的制定與推介培訓中。
替代計量學的社會化視角。替代計量學基于大眾社交媒體、傳統主流媒體、學術社交媒體、網絡博客、文獻管理軟件等網絡數據來綜合評價學術成果的社會影響力(包括被瀏覽、保存、討論、推薦、引用等情況)。
數據計量更進一步。從傳統文獻和參考文獻擴展到數據和文獻、數據和數據、數據和數據集間的多重關系,更關注“數據”“學術記錄”以及“學術個人”。