大模型驅動、人機協同的機器化學家云設施
中國網/中國發展門戶網訊 當前,隨著大數據與人工智能(AI)技術的飛速發展,人類正迎來新一輪科技與產業革命。一些代表性智能工具,如AlphaFold2和ChatGPT展現出了超越人類解決復雜問題的能力。人工智能技術的引入不僅極大地提升了科研過程中通用工具的效率和準確性,更重要的是,它有助于構建一個由產業需求驅動科學研究的有效體系。本文旨在通過探討大模型驅動、人機協同的機器化學家云設施建設,進一步探討“AI for Science”科研新范式的變革。
化學研究范式變革:挑戰、機遇與趨勢
化學作為一門基礎科學,致力于研究物質的組成、結構、性質,及其在不同條件下的行為和與其他物質之間的相互作用等。實驗和理論兩種研究方法相互補充,共同推進化學科學研究的進步,在推動新材料研發、探索新能源、改進生物醫療技術等方面均有著重要意義和廣泛應用。
化學研究領域面臨的挑戰
當前,化學科學領域的研究對象日益復雜化和高維度化,這給科學研究帶來了巨大的挑戰。現行主流的研究方法依賴于窮舉試錯和降低變量復雜度等傳統手段,其低效和局限性問題日益凸顯。
從微觀的原子、分子尺度到宏觀的應用材料尺度,物質性質受不同反應條件及相互作用影響,難以進行準確預測和描述。人類對于解析從微觀到宏觀尺度復雜系統底層規律的渴望日益增長,這種解析將對合成自動優化、按需逆向設計材料,以及精準控制生物醫學過程具有重要指導意義。然而,從物理常數、薛定諤方程和元素周期表等基本規則到復雜應用層面的自下而上演化,其中存在極大的復雜度和多樣性,這就導致現實世界問題與結構-效能關系之間的脫節。化學合成仍然依賴于專家經驗,距離智能優化目標相去甚遠;數據的不完整和構效關系的不明確,依舊是材料逆向定制設計的“攔路虎”;生物學領域中心法則過程的演變信息缺乏,限制了人類對于疾病機理和生命本質的認知。
化學研究范式變革的機遇
為了積極應對化學科學領域面臨的挑戰,必須創新研究方法,革新研究范式。隨著大數據時代的來臨,數據驅動的科研范式開始嶄露頭角。人工智能擅長從高維度、高復雜度的數據中探索變量之間的關聯,這一趨勢為迎接挑戰提供了全新的機遇。
以深度學習和大模型為代表的人工智能技術,具備學習能力、自適應性、自主決策、模式識別與預測等特質,展現出超越人類、智能決策的優勢(圖1)。2016年,DeepMind公司開發的人工智能程序AlphaGo采用深度強化學習技術,結合深度神經網絡和強化學習算法,對棋局策略進行高效搜索并做出精準判斷,超越了人類傳統的啟發式圍棋搜索方法。這一圍棋界的人機較量成為人工智能發展史上的里程碑事件,首次展現出人工智能在復雜決策領域的應用潛力;2021年,蛋白質結構預測程序AlphaFold2基于深度神經網絡和自注意力機制,通過訓練大規模序列數據,實現對蛋白質三維結構的高精度預測。這一突破性成果,對藥物設計和疾病診斷具有潛在重要意義;2023年火爆全球的對話生成模型ChatGPT,運用Transformer架構中的自注意力機制和多層神經網絡生成語言,并通過無監督學習的方式不斷迭代語言生成能力,提升人機交互體驗。其代表了人工智能在自然語言處理領域的突破式進展,有望幫助人類獲取信息及智能決策,實現通用認知智能的涌現。
智能驅動的機器人化學研究近年來取得了一系列突破。2022年,英國格拉斯哥大學的Cronin團隊開發了自動化機器人系統Chemputer,其集成了文獻閱讀、實驗方案定制、化合物合成和表征功能,能夠將文獻中的合成步驟轉換成機器可讀的化學描述語言,并儲存于內部數據庫中,以便機器人自動執行。英國利物浦大學Cooper團隊開發了移動機器人化學家,其可以高效執行實驗,并使用貝葉斯算法優化驅動,根據已有實驗數據進一步分析優化實驗計劃;不過,Cooper認為目前的機器人缺乏計算大腦,沒有利用已有的化學知識,不能引入理論或物理模型,以致貝葉斯優化是盲目的。2022年,中國科學技術大學江俊團隊開發出數據智能驅動的全流程機器化學家,其由機器閱讀系統、機器計算系統和機器實驗系統三大模塊組成,能學習前人知識與智慧,思考產生物理模型及提供智能預測,并高效實驗產生全生命周期數據。該平臺充分發揮機器數據可重復、可信任、可溯源、可對齊的優點,用精準實驗數據校準理論的預訓練模型,實現了理實交融的智能預測。
化學科學研究的發展趨勢
國際情況。自從ChatGPT在2023年初證明了通用認知智能的可行性,不到半年時間,美國、英國、加拿大、荷蘭、瑞士等國紛紛加速投入發展裝備智能科學大模型的智慧大腦。2023年,美國更新發布《國家人工智能研發戰略計劃》,每年投入大量經費用于支持數據科學、人工智能、量子信息等研究;2023年起,英國也投入經費開始用于融合大模型、機器人和智能聯盟的智能創新工場建設;2023年4月,加拿大向加速聯盟追加15億元人民幣投資用于建設大規模智能實驗室基礎設施;2023年7月,荷蘭開始打造機器人化學實驗室;2022年12月,瑞士投入資金用于打造公共服務設施,借助大模型來驅動機器人。具有化學智慧的機器科學家支撐產業數字化,也已經成為現實。2022年,聯合利華60%的年度研發經費都用于購買英國利物浦大學機器化學家材料創新工廠提供的智能合成與測試服務。
我國情況。目前,我國在覆蓋智能文獻調研與研究規劃、計算、實驗、優化全流程的機器化學家系統方面局部領先,但在大規模智能實驗室與化學科學大模型方面亟須進行建制化的項目部署,避免“起個大早,趕個晚集”。
機器化學家云設施:未來化學研究新工具
人工智能技術的飛速發展正在為化學科學研究帶來前所未有的機遇和挑戰。在當前科技革命和產業變革的浪潮中,研發匯聚科學數據、人工智能算法、智能機器人和云平臺的化學研究新工具成為迫切而必要的任務。這一工具的研發有望解決長期困擾化學科學革新的維度災難和復雜巨系統黑盒問題,從而推動我國在高值化學品、功能材料、生物化學醫藥等領域取得顛覆性突破。
機器化學家云設施的內涵
人類化學家傳統的研究工作路線通常由提出需求、查閱文獻、設計方案、理論模擬和實驗驗證、提煉理論及解決實際問題等流程組成。相較于人類的研究方法論,涵蓋數據庫、人機交互、機器實驗員、化學工作站和化學大腦的機器化學家云設施不僅能夠完全覆蓋以上流程,還可以通過人機交互系統進行人機協同定制化解決特定難題(圖2)。
數據是現代科學研究的重要組成部分,對于機器化學家云設施而言更是至關重要。通過數據庫中海量化學數據驅動,機器化學家可以學習前人知識與智慧,人機交互提出科學問題,再經過融合科學大模型的化學大腦進行思考,建立物理模型并提供智能預測。隨后給出研究方案,驅動高效的機器實驗員、化學工作站及智算服務器產生高質量的實驗數據和理論模擬數據。再通過數據反饋優化科學大模型,形成垂直領域的應用模型,從而解決具體科學難題。其獨特之處在于,能夠高效地整合數據知識、不斷調整理論和實驗設計,實現全流程的智能化推演。目前,中國科學技術大學研制成功了全球首個數據智能驅動的全流程機器化學家,中國科學院自動化研究所與武漢人工智能研究院推出了“紫東太初”全模態大模型,科大訊飛研制了“訊飛星火”認知大模型,中國科學院在全國部署了20余個科學數據中心、智算中心,具備建設機器化學家云設施的良好基礎。
機器化學家云設施將帶來全新的科研組織形式,即機器實驗員實現科研人員體力的解放,數據庫和化學大腦實現科研人員腦力的解放,云平臺智能管理決策系統實現個體間的鏈接,并通過新生成數據與科學大模型間的相互對抗校準,逐步進行全局優化,通力合作幫助科研用戶取得科學突破。整套設施將大力推動我國科研組織形式的變革,實現大數據、認知智能、機器學習、智能硬件等多領域的高度融合,推動科學研究向更深、更廣領域拓展。
建設機器化學家云設施的意義
機器化學家云設施在實驗機器人硬件中融合了深度學習和科學大模型等人工智能技術,為聚合多學科方法論、融合多領域知識邏輯、耦合化學科學家群體智慧、減輕實驗人員工作強度提供了技術底座,將加速實驗設計和數據分析過程,提升化學科學研究的效率和準確性。當前,美英等多國紛紛加速投入發展裝備有科學大模型的機器科研工具。而智能領域是典型的“贏家通吃”,幾乎沒有后發優勢,只有搶占先機,率先掌握先進科研工具才能使我國在新一輪科技革命中不受制于人。因此,把握我國自主研發機器化學家的領先優勢,研制機器化學家云設施,能夠防范我國在智能化學研究新范式的基礎研究工具方面被“卡脖子”,爭搶智能化學領域優勢地位。機器化學家云設施的建設也將對整個社會產生積極的溢出效應,推動產業數字化,提升生產效率,還有望催生新一輪的產業革命。
總體而言,機器化學家云設施對增強我國在科技創新領域的競爭力、確保在新興科技領域中的領先地位具有巨大而深遠的意義,將助力我國在全球新一輪科技革命中取得更大的發展和突破。
機器化學家云設施:分層架構
通過科學大模型預測和智能機器人實證相互對抗、協同進化,打造具備化學科學智能的機器化學家云設施,將驅動研究范式變革,產生重大科學突破。
化學科學數據庫
數據驅動的研究范式中,科學數據的有效整合和利用是創新的核心驅動力。然而,當前科學數據普遍存在標準不統一、質量良莠不齊、多來源數據相對獨立等問題,限制了基于數據的化學科學研究。因此,迫切需要打破數據孤島現象,融合不同來源的理論和實驗數據構建多學科知識和多模態數據的人工智能化學科學數據庫。這將為化學科學領域的智能發展提供堅實的數據基礎。
化學科學數據庫將嵌入人工智能模型,并匯聚文獻數據、整合理論與實驗數據,包括以下4個方面。
化學科學領域數據匯聚。整合各單位數據資源,利用科學文獻中的文本、表格、圖像等多模態數據,以及第一性原理模擬所產生的大量化學分子和材料的基礎物理化學數據。同時,建立實驗數據采集渠道和國家標準,實現標準化數據的自動采集和快速分析。
科技文獻機器閱讀工具建設。通過對來源于科技期刊、教科書、題庫等語料數據的清理、篩選和標注,獲取高價值通用領域預訓練語料和化學科學領域預訓練語料。利用深度挖掘技術對科技文獻內容進行深入挖掘,從文本、圖像、表格中提取計算和實驗數據。
數據精編與高質量數據庫建設。標注預訓練語料,對文獻中的計算和實驗數據進行整編,并進行數據分類和質量評估。開發基于可解釋模型的數據鑒別和質量評分技術,以智能方式清洗數據。
知識嵌入與知識圖譜構建。運用映射關系分析構建關聯模型,建立化學科學知識圖譜,包括結構、性質、演化關聯性。通過知識圖譜引導多模態數據融合,構建統一、高效、可擴展、結構清晰的數據存儲格式。利用預訓練模型等工具將知識圖譜嵌入到化學科學大模型中,提升知識的利用效率。
科學大模型
當前,基于神經網絡的大模型在預測方面存在可靠性不高、邏輯推理和語義理解深度不足、可解釋性和可調試性不強等核心問題,因此在對準確度要求較高的化學科學的應用中表現不佳。針對這些問題,需要發展基于數理邏輯的科學大模型,將數據驅動的神經網絡模型與知識驅動的符號邏輯推理引擎深度融合,并應用于數學、化學、物理等智能科學領域。
本研究提出的科學大模型框架在現有數據庫、潛在數據庫和終端應用基礎上,專注于研究知識驅動的推理引擎。該引擎構建在領域本體和知識庫之上,并與數據庫和潛在數據庫連接,以模擬人類思考的認知推理和決策能力,從而彌補大型模型在可靠性、可解釋性和可調試性等方面的缺陷。
科學大模型通過綜合知識圖譜和基于化學認知的知識增強算法,融入專家的化學知識和理解,利用特色化學描述符,創建基于化學原理的清晰人工智能算法,以解決大規模篩選和策略優化等復雜挑戰,構建出具備“化學智慧”的機器科學家大腦。根據用戶需求,設計實驗方案和運行流程,實時分析實驗數據,調整智能模型,并持續反饋優化實驗方案,實現實驗方案和流程的自動決策與優化。
機器人平臺
機器人平臺將提供高效、精準的實驗和數據處理解決方案,具體包括以下4個方面。
基于微通道連續流的全自動高通量研究系統。系統旨在精確、自動、高通量地進行重要有機化學反應和關鍵功能材料合成,需要解決多領域技術問題,并集成多個關鍵功能子系統,包括多通道反應物自動切換、微通道連續流反應、產物收集和后處理、在線檢測和自動采樣、色譜接口、反應溫度控制、總控和人機交互系統。
全自動高通量研究系統的功能擴展。為確保高通量實驗結果可靠性,各子系統配備冗余傳感器,并結合視覺識別技術進行實時反饋和異常數據自動篩選。研究人員只需準備反應物庫和輸入反應矩陣,系統即可完成實驗、后處理和檢測,并批量輸出數據。未來可通過增加子系統和功能模塊,拓展研究范圍,完成更復雜的后處理和檢測分析工作。
全自主實驗的移動操作機器人。設計六自由度機械臂與全向移動底盤的軟硬件集成;設計實驗室環境的視覺感知算法,以及高精度視覺引導、實時力反饋的靈巧控制方法;研究多模態數據的高精度定位和建圖方法,開發動態避障算法和任務管理系統,實現移動操作機器人的全自主實驗。
全流程智能化學實驗室。研制自主知識產權的自動封裝機、液體自動分配工作站和電化學自動化測試工作站,同時設計全自主移動操作機器人、高通量實驗平臺、實驗儀器設備的協同控制系統和全流程任務調度系統,以搭建集成化學合成、譜學表征和性能測試等功能的全流程智能化學實驗室(圖3),實現化學研究的全場景覆蓋。
智能管理決策系統
智能管理決策系統即智能化學云平臺,包括機器化學家指令集、操作系統、聯邦學習算法系統等,促使機器化學家能夠在不同實驗任務和實驗室之間進行遷移學習,最終構建標準化的云平臺層面智能化學實驗室(圖4)。
指令集包括開發接口函數、通信協議、設備規范和數據標準4個部分的標準化,以支持不同來源的數據對齊,實現數據互聯互通。具有友好人機交互界面、明確業務流、直觀數據可視功能的操作系統幫助科研人員擺脫物理空間限制,遠程即可開展實驗、模擬和數據分析,同時也便于系統整體進行實驗任務調配、合理安排資源。聯邦學習算法系統的核心是數據不動、模型動,即可以在保障數據隱私安全的前提下,支持不同用戶不同實驗室之間的數據共享。
通過發布智能化學實驗室的標準規范,實現在云端共享使用數據庫和人工智能模型。這一系統旨在實現智能管理決策,促進不同實驗室間操作的高效性和一致性。
結語:依托機器化學家云設施變革化學研究范式
以蒸汽機和電機為代表的前兩次“碳基”工業革命幫助人類突破了“體力”的限制,以計算機為代表的第三次“硅基”信息技術革命幫助人類突破了“算力”的限制。智能時代已經到來,突破人類“腦力”限制的第四次通用智能工業革命已呼之欲出。呼應時代浪潮,機器化學家云設施的化學科學數據庫、科學大模型、機器人平臺、智能管理決策系統,將集成解放人類科研人員的“記憶力、體力、算力、腦力”限制,打破科研過程中的知識壁壘、空間限制、學科界限,智能連接科研個體并大幅度拔高其科研能力,全面變革我國化學科學乃至整個物質科學研究范式。
(作者:崇媛媛、馮碩、王嵩、江俊,中國科學技術大學精準智能化學重點實驗室;編審:劉一霖;《中國科學院院刊》供稿)