|
中國網/中國發展門戶網訊信息社會進入大數據時代后,人們的日常工作和行為、各種在線系統(如信息系統、工業生產線)的工作狀態、各類傳感器的信號、導航定位系統(全球定位系統?GPS、北斗衛星導航系統等)產生的記錄等作為“經驗”被常規地記錄成為大規模數據。不同于以往為驗證科學理論和猜想而記錄和收集的科學大數據,記錄這些大規模數據起初并沒有明確的科學目標。但是,它們卻制造了另外的機會。人們可以通過這些數據發現和總結出規律,并依據這些規律提升系統的效率,也可預測、判斷未來的趨勢,甚至輔助做出更加科學理性的決策。這個過程所依賴的就是大數據分析處理技術。因此,大數據分析處理技術旨在利用數據科學的方法和廣泛記錄下來的數據,以實現從數據到信息、信息到知識、知識到決策的價值轉換。
當前,數字經濟成為社會經濟的一個重要內涵,數據成為關鍵生產要素,大數據處理技術越來越深刻地影響著世界的運行狀態。隨著越來越多的數據被記錄、收集和存儲,如何深刻洞察數據分布規律、高效挖掘數據價值,成為智能化時代需要解決的關鍵問題。據美國國際數據公司(IDC)的報告,2020?年全球數據量為?44?ZB?左右,2025?年全球數據量將達到?175?ZB。而這些數據只有?2%?得到了留存,且留存的僅?50%?被使用過。由此可見,線性提升的數據處理能力并無法匹配指數級增長的數據規模,使得兩者之間的“剪刀差”越來越大。與此同時,在龐大的數據空間中,對特定任務真正有價值的核心數據卻往往是極度稀疏或不完整的。以上現象即數據泛濫與高價值數據缺失并存的表現。
以互聯網平臺企業服務為代表的智能化應用大都采用“大數據+大模型+大算力”支撐的大數據分析處理技術,主要通過系統的優化來增加數據處理規模并提升計算性能,從而有效解決了一些相對低階復雜度的預測判定問題,如圖像分類、語音識別、結構預測,以及規則明確的人機對弈游戲等。而在開放復雜的系統環境下,數據動態生成演化,影響系統運行狀態的不確定因素和變量巨大,從而導致一些高階復雜的問題難以直接模型化,或近似求解的結果不可信,如金融風險預測、個性智能診療、開放環境下的自動駕駛等。在這些高階復雜的真實系統中,數據采集分布往往是不穩定和不完備的,這對要求精準判別的大數據分析處理模式提出了新的挑戰。
同時,解決數據與算法的安全可信問題也已迫在眉睫。數據流通共享的過程中面臨著數據濫用、隱私泄露的情況。數據本身可能也會引入真實世界存在的偏差,或者在對抗攻擊下數據被污染,使得大數據分析模型做出有偏的、錯誤的決策。在大數據分析處理技術逐漸應用于關鍵領域的當下,如何讓大數據技術以一種安全可信的方式服務于各個領域,是未來大數據發展必須面對的又一個難題。
本文首先回顧了近?10?年來大數據技術的發展現狀,并針對數據泛濫與數據缺失并存、大數據分析研判的復雜不確定性和數據安全缺失等挑戰,提出大數據分析的新范式和安全可信的大數據處理新架構,探索大數據支撐智能應用的新模式。在此基礎上,提出構建新一代大數據分析處理軟件棧,并展望新技術體系下的牽引性需求與重大應用。
大數據分析處理現狀
近?10?年來,在產學研各界及政府主導的大力推動下,大數據技術架構、生態環境及各行各業的大數據應用發展迅速。
大數據技術架構
海量數據促進了大數據技術架構的發展。大數據管理技術方面。傳統關系數據庫(SQL)主要處理較少數據和較小并發訪問規模,而且存在大量讀寫硬盤和日志記錄操作,難以橫向擴展,無法滿足互聯網應用的數據管理需求。為了實現更多的數據管理、更大規模的并發訪問及更多樣的數據模式,面向特定需求的各類非關系型數據庫(NoSQL)和從底層重構的分布式關系數據庫(NewSQL)正在快速發展。其中,NewSQL?保持了傳統數據庫支持事務處理正確執行四要素(ACID)和?SQL?標準查詢等特性,并具備與?NoSQL?同樣優秀的可擴展性。大數據處理技術方面。根據處理需求的不同,存在多種不同的并行計算模型,包括以?Hadoop、Spark?為代表的批處理,以?Spark Streaming、Flink、STORM?為代表的高實時性的流處理,以?Apache Beam、Lambda?為代表的流批一體混合處理,以及以?GraphX、Apache Giraph?為代表的圖處理。同時,圖數據和實時數據處理的爆發性需求也推動了圖流處理模式的融合。除此之外,計算硬件逐漸發展為多種計算單元(如?CPU、GPU、NPU?等)組成的異構計算系統,新型硬件和軟件的多層次融合進一步提升了大數據處理效率。大數據分析技術方面。分析需求逐漸從小規模、單源、單一模態數據的統計挖掘分析轉變為海量、多源、多模態數據的復雜異質關聯。深度學習技術的快速發展,推動了大數據分析模型能力的提升。神經網絡模型在?2012?年的計算機視覺的目標識別項目?ImageNet?比賽奪冠后重回人們的視野,隨后誕生了一系列突破性的工作,包括知識圖譜提供知識服務、生成對抗網絡合成真實數據、AlphaGo?圍棋戰勝人類、GPT-3?預訓練語言模型等。此外,日益成熟的深度學習框架(如?TensorFlow、PyTorch、飛槳等)也降低了使用深度學習分析大數據的門檻。
大數據應用
近年來大數據分析處理技術飛速發展,催生了眾多大數據應用,賦能了大量行業的智能化發展,一些標志性的應用從模式和能力上顛覆了傳統的信息技術能力。科學發現方面。DeepMind?公司的?Alpha-fold?可基于蛋白質的基因序列數據預測蛋白質的三維結構,進而分析蛋白質的屬性,幫助生物學取得了重大進展。數字經濟方面。電商平臺的興起,連接遍布全球各個角落的消費者和供貨方,通過交易大數據的精準分析,提高了交易效率,推動了在線支付與數字貨幣的使用,顛覆了社會征信的模式;基于大數據進行的金融風險研判、小微金融和普惠式金融等也促進了數字經濟的繁榮。社會安全方面。我國使用大數據方法輔助公共衛生、金融等領域的社會治理與決策;美國嘗試研究大數據技術在解決社會不平等、城市政策制定方面的作用。生命健康方面。英國基于海量學術論文和臨床試驗結果研發了治愈運動神經衰退等多種藥物,以及近兩年各國大量使用的數字接觸追蹤技術,輔助預測了疫情傳播速度和趨勢,分別被列入《麻省理工科技評論》2020?年和?2021?年的“全球十大突破性技術”。國內外大數據技術的應用改變了諸多傳統行業中耗時耗力的工作方式,取得了智能高效的豐碩成果。
大數據生態建設
大數據分析處理的繁榮離不開大規模數據資源共享、技術架構開放和算法模型開源所形成的技術生態發展。開源數據方面。開源數據支撐各類大數據技術的構建。例如,2009?年美國斯坦福大學發布的視覺數據集?ImageNet、2015?年美國麻省理工學院發布的大規模醫療信息數據庫?MIMIC-Ⅲ、2020?年斯坦福大學發布的圖數據集?Open Graph Benchmark,都極大地影響了大數據技術的發展。開源軟件方面。Apache?軟件基金會基于?Hadoop?生態先后發布了一整套完善的分布式存儲與處理框架?Map-Reduce、線性代數計算框架?Mahout、機器學習庫?MLlib?等,旨在讓開發者快速實現和應用大數據分析處理算法。2014?年以來,深度神經網絡的開源框架,如?Caffe、Tensorflow、PyTorch?等,更是為從大數據中學習面向不同任務的智能模型提供了重要支持。開源模型方面?;诖笠幠祿W習的?BERT、GPT3?等預訓練語言模型,大幅降低了相關技術的應用成本,拓寬了下游應用場景。此外,如何保障數據安全和個人隱私,最近也得到了各國政府和組織的高度重視。因此,兼顧技術發展和數據安全,平衡效率和風險,建立良好的大數據生態環境,仍需要進一步探索。
新一代大數據分析處理需求
當前針對大規模異質化數據集合,主流的大數據分析處理方法是在通用模型框架下不斷嘗試超大規模的模型參數,實現“端到端”的分析推斷。在這種模式下,大數據分析處理能力很大程度依賴于算力平臺和數據資源的支持。在實際應用中,這些大數據分析處理技術面臨著真實場景和關鍵領域中數據泛濫與缺失并存、大數據分析研判的復雜不確定性、數據安全監管缺失等挑戰,最終使得分析處理存在過程可解釋性差、模型泛化能力弱、因果規律不清晰、研判結果不可信、數據價值利用率低等問題。為解決這些挑戰性問題,我們需要重新思考大數據處理架構與分析模式,新一代的大數據分析處理技術體系應該在各種實時場景下實現高價值知識生成、持續在線的瞬時決策、安全可信的推理研判,以及適用于未來各種有人-無人結合的在線系統行動優化。本文認為,新一代大數據分析處理至少需要滿足如下?4?個方面的需求。
人在回路的計算范式。為解決現有大數據分析處理方法難以攻克的高階復雜問題,需要在其中引入人的智能與決策,強調人、機器及數據之間的有機交互。不同于原來的人機交互,即機器按照人的指令,或人聽機器的輸出結果,而是更關注人腦和機器思維的深度融合計算。
廣譜關聯的分析模式。為解決大數據價值密度低、極稀疏、不均勻、關鍵信息缺失的問題,一方面,融合各個對象在“人機物”融合的多域多維數據空間中留下的多元異構信號,利用關聯增強信號;另一方面,融合數據與知識,構建終生學習、可遷移擴展的知識體系,形成數據驅動與知識制導深度融合的新分析模式。
在線增強的處理架構。隨著萬物互聯和智能泛在發展,大數據云邊端協同計算技術和解耦化的云邊端處理框架成為熱點?;谠朴嬎悱h境下的流批混合處理將進一步向邊緣端發展,訓練學習與推理預測將在前端設備上融合一體。利用云邊端資源彈性調度能力,實現感知與認知能力前置,支持在線環境下基于動態活性數據的瞬時決策,從而形成去中心化、異構分布、持續在線的新型計算框架。
安全可信的大數據分析。安全可信是滿足關鍵領域和場景下認知和決策安全的基本需求。一方面,著重關注大數據分析處理結果的可解釋、可信和公平性;另一方面,實現數據在收集、存儲、使用、流通中的安全保護和異常檢測,保證在強對抗攻擊下分析處理模型與方法的魯棒性和免疫性。
新一代大數據分析處理軟件棧
在高效的大數據價值提取、安全可信的分析處理目標下,針對以上?4?個大數據分析處理的重要需求,未來急需建立自立自強的大數據分析處理技術新體系,發展新一代大數據分析處理軟件棧(圖?1),從底層數據操作系統、通用分析處理中間件、業務驅動的計算環境及框架?3?個方面進行研究。
全棧式的大數據系統軟件
發展并涵蓋數據接入、流式處理、圖計算、訓推一體等多個方面的大數據系統軟件。
數據接入方面。針對當前數據采集流程中數據來源繁多、數據類型混合及異質數據存儲效率低下的難題,研究“人機物”融合的數據匯聚與融合方法,支持對多種數據源的結構化、半結構化數據的采集與融合,探索高效的存儲算法,提高底層存儲空間利用效率,支持對數據的高效壓縮與還原,實現對“人機物”三元數據空間中的多源異構數據進行高效感知、采集、融合與存儲,為系統提供高質量的數據流接入。
流式處理方面?,F有大數據處理框架中存在計算模式單一的問題,即單獨追求大批量或強時效。針對這一問題,將研究多計算模式融合的流式處理框架,支持批處理、流處理、圖處理等多種計算模式,實現低延時、大流量、強時效的數據處理,以應對不斷接入的高速數據流。
關聯數據的計算方面?,F有計算框架難以適應圖結構數據的強數據依賴性、高隨機訪存與非均勻冪律分布特性。針對這一問題,研究針對圖結構和網絡大數據的計算引擎,提出大規模圖數據的新型分布式計算框架和并行計算機制,定制大規模圖數據的查詢語言標準與規范,實現圖查詢與圖分析語言的標準化。
訓練推理方面?,F有云端大數據處理架構難以滿足大規模服務的實時性與計算資源需求。針對這一問題,研究云邊端協同的訓推一體框架,將大數據分析處理中的訓練與推斷流程從云端推向邊緣,支持訓推一體,在數據生成的邊端提供服務和執行計算,實現“認知前置”和終生學習,以提供分布式、低延遲、持續在線的智能服務和瞬時決策。
重構大數據分析處理流程
從預處理、數據表征、語義分析與知識推理、決策研判到可視化的全技術鏈上升級創新。
數據質量處理與簡約計算方面。針對數據質量處理,可發展利用群智技術挖掘高質量數據,以低成本、高效率的方式實現大規模數據的采集處理;針對簡約計算方面,可研究基于數據復雜度的近似計算理論和優化算法框架,以此指導人們尋找面向計算的數據內核或者數據邊界的基本方法,構建具有高效計算能力的模型。
大數據高階表征與建模方面。探索基于無監督預訓練的數據表征學習的理論與方法,從大規模未標注的語料數據中抽取高層次語義抽象的數據表征,提高語義表征的泛化能力;研究基于小樣本數據的預訓練—微調模型,在大規模無監督語料訓練得到的數據表征基礎上,構建輔助上層任務的通用高質量數據表征;探索基于領域知識的預訓練數據建模理論與方法,將人類知識融合到預訓練模型中,提升預訓練模型的學習效率等。同時,為應對數據多源異構造成的知識隔閡,有必要進一步發展跨模態數據表征和建模、多源知識融合技術,以實現全域知識聯合和利用。
大數據驅動的語義分析與知識推理方面。研究面向細粒度語義單元的大數據語義融合方法,顯著提高多源異構數據關聯融合的效果;研究樣本稀疏環境下的領域知識獲取、大規模常識獲取與理解、知識獲取中的人機協作機制與方法,提升知識獲取的能力,大幅提高知識庫的規模;研究基于知識圖譜的可解釋分析方法、數據驅動與知識引導深度融合的新型語義分析方法,顯著提升知識驅動下各類模型的效果和可解釋性。
人機結合的增量決策研判方面。未來大量物理設備、無人設備、人腦,通過泛在網絡實現“上線”和“互聯”,為人的參與提供了基本的物質條件。人作為具備智能的自然系統,如何參與到機器智能的系統回路中是一個關鍵問題。未來應重點解決思維融合或決策融合的問題,探索人腦數據及機器智能系統信息可相互轉換的新型數據科學理論,并設計高效能的計算方法。當下的算法模型不會隨著數據的生成而持續學習,即無法應對連續和意外變化的環境,特別是在任務關鍵型應用程序中更需謹慎。因此,研究持續學習、在線學習等技術,實現算法模型持續在線瞬時決策十分必要。
探索式可視化分析方面。研究新型的跨主體(人、機、物)可視交互理論,構建多人協同的混合主動式可視分析范式,支持多人同時對相同或不同的可視化視圖進行多角度的探索,設計相應的可視表達與交互形式;研究圍繞大數據可視化的認知計算與聚合理解模型、方法與核心技術,構建人機協同智能及其驅動的大數據可視內容與屬性的自動理解關鍵技術;提升圍繞大數據可視化的計算機自動理解、表示與生成能力等,構建大數據可視計算與交互技術體系。
建立任務驅動的大數據計算環境
從可組合的模塊化編程框架、可伸縮的大數據分析處理框架、任務感知的知識重構模型裁剪這?3?個方面發力,為各行各業提供場景感知、共識感知的更優質和更靈活的分析處理環境。
可組合的模塊化編程框架方面。未來可發展面向多業務可擴展、可重構的敏捷開發框架,構建多形態分析模式庫和智能業務編程框架,突破多源異構數據的關聯分析和全息展示,實現對數據、算法、模型的高層次抽象,形成支撐面向任務場景的智能組合分析算子庫,實現智能算法的內生性支持,賦能人機混合的交互式協同分析。
可伸縮的大數據分析處理框架方面。未來可發展支持彈性計算、可伸縮模型、可彈性配置的處理框架,即根據實際應用的任務場景與計算資源的需求等方面劃分各種任務,滿足特定需求、精度需求、延時需求、實時性需求等;同時,構建可伸縮的大數據分析處理框架,能夠靈活配置計算資源和數據規模,以實現彈性適配。
任務感知的知識重構和模型裁剪方面。未來可發展面向任務的高級知識計算語言和模型裁剪技術,基于通用知識圖譜實現面向特定領域任務的知識重構,建立起常識與領域知識融合的知識計算引擎,顯著提升知識管理和利用的能力與效率。
推動新一代大數據分析處理技術發展建議
建立理論基礎。大數據分析處理技術新體系的建立,離不開基礎理論的突破。建立數據復雜性和大數據可計算性理論。回歸數據本原,探索數據在分布規律、結構規則和時空尺度方面的規律性,以此設計高效能的計算方法。探索異質廣譜關聯的大數據分析理論。將各類目標在“人機物”融合的多維數據空間留下的微弱信號進行關聯放大,研究廣域開環、非統一量綱環境下瞬時決策推斷方法的收斂性理論。研究大數據分析處理的安全可信理論。一方面,研究數據的安全共享和隱私計算理論,保障數據流通共享過程中的安全性;另一方面,研究數據的固有偏差性和數據遭受攻擊時的分析處理的魯棒性極限和可驗證理論,建立可防范、可審計、可追責的機制,保證強對抗環境下分析處理結果的可信。
加大應用牽引。新大數據分析處理技術體系應能全面高效賦能行業、產業、安全領域。同時,還需要利用科學發現、生命健康、社會治理等牽引性應用場景來推動大數據分析處理新體系的健康、良性發展??茖W發現方面。研究借助大數據分析技術從大量實驗數據中發現科學規律,形成基于大數據分析的新型科學研究方法論。生命健康方面。研究大數據方法用于輔助復雜化合物分子的發現,降低新型藥物的研發成本,加快提升綜合醫療水平,利用大數據手段應對重大疫情和事件的高效用、持續在線決策。 社會治理方面。充分發揮大數據技術在多方復雜關聯問題、社會群體認知建模分析中的優勢,構建人工輔助智能決策系統,實現政府決策科學化、社會治理精準化、公共服務高效化。
數據治理生態環境。大數據技術的應用與發展離不開良性的數據治理和技術生態建設。個人隱私保護。需要相應的法律法規加以規范。例如,歐盟2016年出臺了《通用數據保護條例》,幫助公民控制個人隱私數據;我國于?2021?年發布了《中華人民共和國數據安全法》和《中華人民共和國個人信息保護法》,對大數據的采集與使用給予合理的管控和監督。保證數據的安全流通共享。需要建立數據流通交易規則規范,優化數據共享、交易、流通相關的制度,明確數據權屬分配,探索數據交易市場,構建有序的數據流通環境。
綜上所述,未來應發展突破通用模型架構、分析模式和計算范式,建立新架構、新模式、新范式,以及安全可信的大數據分析處理技術新體系;構建新一代大數據分析處理軟件棧;研究和發展相應的理論,踐行牽引性應用;建立良性的數據治理生態,推動大數據分析處理技術的持續進步和跨越式發展。
(作者:程學旗、 劉盛華、張儒清,中國科學院計算技術研究所、中國科學院大學 計算機科學與技術學院;《中國科學院院刊》供稿)