國際科技評價改革十年評述
中國網/中國發展門戶網訊 2013年5月,《科研評價的舊金山宣言》(以下簡稱DORA或《舊金山宣言》)正式發布,旨在解決逐漸興起的“以刊評文,以文評人”問題。《舊金山宣言》得到國際科學共同體廣泛認同與反響;以此為旗幟,許多國際學術組織、學術年會、高校與研究機構開始討論科技評價改革。同時,成立了DORA科技評價聯盟、科技管理國際聯盟(INORMS)科技評價工作組等新的國際組織致力于推動科技評價改革。10年來,國際科技評價改革不斷深入,逐步從理念層面的提倡和討論落實到眾多科研機構的實踐探索之中,效果初顯。
筆者曾于2022年發表過《科技評價改革十年評述》一文,對我國科技評價10年改革進行過總結。認為,以“三評”改革和破“四唯”為代表的我國科技評價改革正處在關鍵時刻。雖然目前在清理“四唯”上已取得初步效果,以論文等指標進行簡單量化評價的現象明顯好轉。但是,“立新標”還在半路上,特別是科技評價改革所要引導的對卓越的價值追求還遠未形成。對此,如何謀劃下一步科技評價改革的目標和舉措是迫切需要回答的重要課題。筆者作為國際科技評價組織的任職者和經歷者,通過對國際科技評價改革10年進行系統的梳理、分析和比較,得出相應結論和啟示,以期起到他山之石的效果。
為避免引起歧義,對文中2個概念進行說明:本文中提及的國內、國際的科技評價均指針對高等學校、科研機構(含科研資助機構)開展的以基礎研究為主的科研評價,包括論文、人才、項目、機構等的評審評價,盡管英文一般被稱為“research assessment”或“research evaluation”,但是,為了與國內語境保持一致,本文沿用“科技評價”而不是“科研評價”。國際科技評價改革主要是指歐洲和北美等地區的傳統科技強國主導、目前在國際上形成較大影響的科技評價改革,包括改革目標、改革的組織推動過程、改革的基本理念及開展的改革實踐等。
國際科技評價改革要解決什么問題?
一般而言,歐洲和北美等傳統科技強國因為其深厚的科學文化底蘊,科學價值標準與追求傳統上是不錯的。但是,隨著科技自身的發展及其地位的提升,其科技評價也面臨新的問題與挑戰,必須與時俱進。歸納起來,國際科技評價改革要應對的問題或者說要達成的目標大致有3個方面。
避免文獻計量學方法在科技評價中的不當使用。在美國學者Garfield提出利用參考文獻追蹤科學進展的引文分析方法后,美國科學信息研究所(ISI)于1963年開始通過引文分析篩選期刊,形成科學引文索引(SCI)數據庫,從而為在科研評價中應用文獻計量學方法提供了基礎。文獻計量學方法的引入,一方面為科技評價提供了證據支撐;另一方面助推了“以刊評文”的逐步興起——“發表在哪兒比發表什么更重要”,這無疑對科研產出的質量、完整性和多樣性產生不利影響。如何避免文獻計量學方法的不當使用,成為國際科學共同體面臨的重要挑戰。
重視科學對經濟社會的影響力(impact)評價。隨著科技在國家經濟社會發展、國家安全等方面地位的提升,科技競爭愈演愈烈,世界各國一方面加大科技投入,另一方面也更加關注科技投入對本國創新發展的效率和效果。原來科學投入“只問耕耘,不問收獲”的線型模型被質疑,科學對經濟社會的影響力評價逐漸成為科技評價的核心內容。影響力評價的引入帶來2個方面的挑戰:科學共同體難以形成共識,很多科研人員不認可影響力評價,認為這種邊界模糊、容易自我吹噓的評價會助長學術不端、損害學術質量。準確評價影響力難度太大,難以找到科學的指標、數據來源與評價方法。這2個問題也是國際科技評價界討論的熱點問題。
適應開放科學、基于人工智能的科學研究等新范式發展。以數據共享為基礎的開放科學(open science)近年來在歐美盛行并逐漸影響全球。開放科學運動興起的同時要求改革科技評價系統,以提高公開性和透明度。但是,如何將傳統上以個人創造活動為主的科學研究,轉變為數據共享的、體現大規模協作的集體性科研活動并非易事,需要各方面共同努力。例如,聯合國教育、科學及文化組織(UNESCO)提出了關于開放科學的建議,其中包括為其成員開發的“開放科學工具包”,幫助他們審查和改革科研職業生涯的評估標準。人工智能的迅猛發展也將對科技評價產生深遠影響,“人工智能驅動的科學研究”(AI for Science,簡稱AI4S)成為新的科學范式。各國都致力于搶占這一范式制高點,也需要通過科技評價予以激勵和引導。同時,AI4S在促進科技發展、減輕科學家負擔的同時,可能強化數據預測技術而帶來風險與偏見,也對改革科技評價提出了新挑戰。不過,在這方面目前雖然有較多提及,但目前還沒有成為10年來國際科技評價改革的重點。
就以上3個方面而言,這次國際科技評價改革要解決的緊迫問題或者說核心目標是前2個方面,即文獻計量學方法不當使用,以及影響力評價。這與我國是相似的,第1個問題即文獻計量學方法不當使用方面的挑戰在我國尤其嚴峻。這是因為,相比于傳統科技強國,由于科學文化薄弱、人情因素過多等原因,我國的同行評議系統還不夠健全,這導致科技評價中對論文發表的刊物的影響因子、論文自身的引用量及論文數量等量化指標更加倚重。第2個問題即如何推動影響力評價跟我國正在推動的科技成果“五元價值”評價是相似的。但是,我國破“四唯”中的獎項、學歷、職稱、人才“帽子”等,更多是我國特色,對于一些傳統科學強國而言這些基礎性問題并不顯著。
國際科技評價改革采取了什么舉措?
國際科技評價改革的若干重要舉措
從路徑來看,國際科技評價改革由科學共同體主導,主要采用自下而上方式開展。國際科技評價改革啟動的標志性事件是2013年5月《舊金山宣言》的發布。該宣言的初稿是相關學者和編輯在2012年末舊金山召開的美國細胞生物學學會(ASCB)年會期間,針對期刊影響因子在科技評價中不當使用的弊端所提出的。《舊金山宣言》發布后,許多國際學術組織、學術年會、高校與研究機構紛紛跟進,并成立了DORA科技評價聯盟等新的國際組織共同致力于推動科技評價改革。2023年5月,包括中國在內的全球許多國家分別舉行了《舊金山宣言》發布10周年紀念活動。
10年來,國際科學共同體在推動科技評價改革上做了大量形式多樣的工作,包括發布宣言、倡議、聲明;組織學術年會交流、專題研討、項目研究;形成研究專報、科技評價方法框架、好的評價案例、科技評價試點協定等。本文梳理了其中14項比較重大的舉措(表1)。
國際科技評價改革的主要效果
在全球范圍內形成科技評價改革共識。截至2024年1月4日,已有3078個組織和21339名個人簽署了《舊金山宣言》,其中包括來自中國的15家機構。2022年,“推進科研評價聯盟”(CoARA)正式成立,并發布了《改革科研評價的協定》,來自40多個國家的350多個組織簽署了協定。科技評價改革日益在全球范圍內形成共識。
經過科學共同體各方力量共同努力,科技評價改革的“圖譜”逐漸清晰化。比如,《舊金山宣言》提出破除“以刊評文”;《萊頓宣言》進一步提出要糾偏“量化評價”;《量化指標潮流》報告進一步明確量化評價的作用及規范;SCOPE框架定義負責任評價的過程等。不同的學術組織針對不同問題提出科技評革的不同方面,拼湊成一個比較完整的“圖譜”。最后,這張改革“圖譜”被冠以“負責任科研的評價”(responsible research assessment)的標識,逐步成為科技界的共同用語。
科技評價改革正在從理念層面走向實踐。目前,簽署《舊金山宣言》的3000個多組織正在或者已經落實避免“以刊評文”要求。簽署《改革科研評價的協定》的300多個組織(包括資助機構、高校和科研機構)正在進行科技評價改革試點,并且經常組織各種形式的試點經驗交流。
形成了關于科技評價的一些基本判斷。包括對科技評價正、反兩方面作用,定量評價與定性評價之間的關系,啟動評價的前提條件,以及提升評價數據質量的技術等。這些理性認識對我國有重要啟示意義。
國際上的“三評”改革實踐案例
如前文所述,國際科技評價改革正在從理念層面走向實踐,以下進行實踐案例分析。鑒于我國當前科技評價源于國家“三評”改革文件,在此也分別選擇人才評價、項目評審和機構評估3個方面的案例進行分析。
比利時根特大學人才評價改革
比利時根特大學(Ghent University)較早注意到基于文獻計量學方法的定量評價對研究文化帶來的系統性損害,認為定量評價助長了“發表在哪兒比發表什么更重要”的文化。2013年發布后,根特大學簽署了《舊金山宣言》。之后,又簽署了《改革科研評價的協定》。隨之著手對科教人員晉升評價等人才評價進行改革,以維護根特大學一貫倡導的多元化文化,同時消除教師對量化評價越來越大的不滿,力圖創建一個強調追求卓越研究的共同價值觀、富有挑戰性、高質量且具激勵性的職業框架。
在學校管理層和科教人員的共同努力下,2016年11月,根特大學發布了《根特大學評價研究愿景聲明》,提出科研評價必須遵守8項原則。2017年進一步公布了科研評價中定量指標的使用指南。根據這2項政策,2018年根特大學建立了一種全新的教師評價和晉升模式,重新將“責任”和學術自由還給教授級教職員。根據新的評價體系,根特大學對教師的評價不再只看科研產出,而會從更加定性、綜合且以人為本的視角進行評價。評價以5年為周期,包括初期的證據性評價、中期反饋訪談和末期的訪談式評價。評價內容包括在研究、教學、社會參與度、管理和領導力方面最重要成就的敘述性展示(而非使用可衡量的定量標準),以及未來5年的意向規劃。
美國國立衛生研究院(NIH)項目評審改革
美國國立衛生研究院(NIH)是美國最主要的醫學研究和資助機構,每年都會資助大量新項目以推動相關領域的發展。NIH在簽署了《舊金山宣言》后,著手進行項目評審改革,以消除已有評審中存在的量化問題與偏見,同時適應開放科學的發展。改革主要包括3個方面。
修改評審規則。新規則要求對于研究者和研究環境的評估必須放在研究項目的背景下來考慮而不是像之前被單獨評分。無論是人員還是機構,評審標準不再是“越強越好”而是“能勝任即可”;如果評審專家認為人員或機構能力不足,則需要給出具體說明。新標準的“夠用”原則試圖盡量解決聲望偏見,將關注點更多地放在研究課題本身上面而非機構聲譽。
修改項目申請所用的簡歷格式或“專家介紹”。在專家介紹中添加小段篇幅,由申請人簡要描述其最重要的科學成就,以轉移項目評審專家對以往研究論文發表期刊的關注度。
出臺數據管理和共享新政策。自2023年1月起,要求每年受NIH資助的30萬名研究人員和2500個機構中的大多數在其撥款申請中闡明數據管理和共享(DMS)計劃。DMS計劃中應包括分析數據所需的軟件或工具的細節、何時何地公布原始數據,以及訪問或分發該數據的任何特殊考慮,并對數據共享的任何限制或例外情況說明理由,以促進開放科學發展。
英國大學評價改革
2014年,英國對原有大學科研評估考核(RAE)體系進行較大幅度改革,形成新的科研卓越框架(REF)。相較于以往的評估體系RAE,REF最大的改革亮點在于:引入了文獻計量學評價指標,為同行評議提供參考;探索了影響力評價方法,以展示英國大學研究對社會的真正影響,強調科學研究給現實世界帶來的利益。由于影響力評價難度較大,英國為此進行專門研究,開發了針對不同類型學科科研成果的影響力指標。
2014實施的REF(REF 2014),在實現以評估結果對大學進行資源配置的同時,也不可避免地將競爭壓力通過大學傳導至基層學術組織,特別是定量指標的引入加劇了對教師個人科研行為的影響。2015年,受英國高等教育基金委員會委托,以James Wilsdon教授為首的研究組對定量指標在REF中的作用進行了獨立評估。為此,研究組啟動了負責任評價指標專題論壇,重點關注與討論在科技評價中如何用好定量指標的問題。最后,研究組發布了題為《量化指標潮流》的研究報告,對使用定量指標給出了肯定判斷并提出改進建議。
2022年,英國REF的領導機構——英格蘭研究院(Research England)簽署了《改革科研評價的協定》,要對REF繼續進行改革,旨在整個高校科研生態系統重新建立起一種負責任、包容、多樣的科研文化。由此,英國啟動了“未來科研評價計劃”,旨在對剛實施完畢不久的REF 2021未來變革方案進行更深入研究。根據2023年6月發布的新一輪頂層設計方案,REF 2028的政策重心將從“科研績效激勵”調整為“科研文化建設”,并且全面重塑科研環境、科研成果和科研影響3個評價維度,以提升高校對建設健康科研文化的重視程度。
國際上“三評”改革實踐的主要經驗
理論與實踐結合。試點機構充分利用科技評價10年改革期間國際科學共同體構建的一系列理論和方法體系指導實踐,理論與實踐緊密結合。
保持與其他試點機構的交流共享。試點機構一般會簽署《舊金山宣言》和《改革科研評價的協定》,置身于試點集體之中,與科技評價研究的學者以及其他試點機構保持互動交流。
在評價方法上保持不斷創新和完善,而不奢望一蹴而就。例如,REF自2008年提出引入科研影響力評價,期間花費了大量的人力和時間研究開發影響力的內涵、評價標準、評價方法、專家手冊等,直至2014年才應用于實際評價之中,而且現在依然在研究和完善之中。
試點機構體現了充分的改革自主性。各機構響應國際科學共同體的倡議啟動改革,是出于自身在理念上的認同和實際需求,完全是自主的,而不是源自政府行政要求。
結論與啟示
結論
國際科技評價10年改革值得總結的內容很多,本文主要從與我國科技評價改革比較角度,得出3個方面結論。
國際科技評價改革目標與我國相似。本次國際科技評價改革的核心目標有2個:破“以刊評文”,這與我國破“四唯”之中破“唯論文”的導向是一致的;立對經濟和社會貢獻的“影響力”評價,這與我國強調科技成果的五元價值是一致的。但是,我國破“四唯”中破獎項、學歷、職稱、人才“帽子”等,主要是我國特色。對于國際上的傳統科學強國而言,科技獎項、人才“帽子”等基礎性評價問題并不明顯。
國際科技評價改革路徑與我國差異較大。國際科技評價改革主要由科學共同體主導,采用自下而上的方法,通過科學共同體發布宣言、倡議、評價方法體系、簽署承諾協議、實踐案例總結與分享等方式推動,政府很少直接介入。相反,我國更多采用自上而下方法,政府在科技評價改革中發揮主導作用,通過發布改革的政策文件和要求推動改革,科學共同體的作用發揮有限。
國際科技評價10年改革經驗值得借鑒。與自上而下的我國科技評價改革執行力強的特點不同,國際科技評價改革更加關注對科技評價規律的認識。由此,國際科技評價改革達成了比較系統的共識,值得借鑒。當然,國際科技評價改革所形成的許多共識跟我國在實踐中秉持的理念是相似的,有些甚至有異曲同工之妙。國際科技評價改革的共識包括:《舊金山宣言》提出的關注論文本身而不是期刊的倡議及對不同主體做法上的建議、《萊頓宣言》提出的關于合理使用定量評價的倡議、INORMS科技評價工作組提出的SCOPE方法,以及英國REF評估形成的影響力評價方法等。其中部分核心觀點值得特別提及:科技評價是管理的需要,也是一把“雙刃劍”,沒有充足理由和充分準備不要輕易啟動科技評價。科技評價離不開同行評議,難以通過簡單量化方法評價。但是,量化方法如果使用得當,能夠有效提升同行評議質量。量化方法有好壞之分,在實際評價中需要辨別與選擇好的量化方法,如學科規范化引文影響力(CNCI)指標;避免使用不好的量化方法,如期刊影響因子。需要關注支撐定量評價的數據質量及其來源的可靠性,沒有數據質量及其來源可靠性保障,光是指標好看沒有用。通過使用唯一標識符(如ORCID),將科研產出、參與的科研活動等與科研人員綁定,在保證定量評價數據質量的基礎上方便查尋獲取,已經成為國際科學共同體越來越普遍的做法。
啟示
以上通過中外比較得出的結論,對我國科技評價改革有許多啟示,本文重點論述4個方面的啟示。
分類分步破“唯”。評價改革要明確責任主體和先后次序。目前我國的“四唯”中,“唯”要分類分步而破。① 嚴重性不同。“唯論文”“唯獎項”“唯帽子”比較嚴重需要重點關注,“唯學歷”和“唯職稱”也是問題但影響面較小。② 責任主體不同。“唯論文”的責任主體主要在科學共同體,這和國際科技評價改革一致;“唯獎項”“唯帽子”責任主體主要在政府,國際科技評價改革沒有這方面的問題。這2個責任主體的問題是交互作用的,但是,有先后次序。“唯獎項”“唯帽子”本質是獎項和“帽子”過多,需要政府做減法,為科學共同體破“唯論文”、安心產出原創成果提供基礎性管理制度保障。“唯論文”則需要借鑒國際科技評價改革經驗,更好地發揮科學共同體自下而上改革的主動性,形成先行先試、敢為天下先的局面。
慎重啟動評價。評價是一把“雙刃劍”,國際科技評價改革提倡不要輕易啟動科技評價,這與我國科技評價改革節奏有相通之處。事實上,在破“唯”之前,我國首先開展的是“減量”改革,要求各單位清理過多過頻、重復交叉的評價。但是,近年來減量風頭過去后,評價沖動又有釋放苗頭;加上國家新出臺的“全面實施預算績效管理”的要求在落實中還沒有和原有科技評價協調好,評價頻次又多起來了。對此,需要通過建立對評價進行評價的機制約束評價沖動、規范評價制度和方法,而不僅僅停留于開展減量改革的階段性運動。
用好量化評價。作為同行評議的輔助方法,量化評價在本次國際科技評價改革中得到了重點關注,形成了較多共識。鑒于我國過去量化評價過于極端,在這次破“四唯”改革中,有一派觀點主張完全放棄定量評價,回歸同行評議。結合我國國情,這是不可取的。筆者曾經提出定量、定性相結合的BRIDGE理論,主張通過表單化方法將數據材料和證據的隱性知識顯性化,從而對同行評議起到支撐和約束作用。這一方面是將我國已有量化評價探索做到物盡其用,另一方面可能在定量定性結合的評價方法上形成改革突破,并為國際科技評價改革作出中國貢獻。
積極融入國際科技評價改革。目前,我國簽署《舊金山宣言》的科研機構、高校和科學家個人還比較少,與我國龐大的科學共體還不相稱。同時,我國還沒有科研機構和高校加入國際《改革科研評價的協定》之中。這種情況與我國作為后發國家還存在一個逐步融入國際科學共同體的過程有關,也與我國科技評價改革由政府主導的特點有關,甚至近幾年的疫情也有較大影響。作為國際科學共同體的一部分,我國應該更加積極地融入國際科技評價改革。通過與國際科學共同體相互借鑒和促進,一方面可以更好地激發我國科學共同體在科技評價改革上的主動性,另一方面可以增加科學共同體之間的理解與信任,從而有利于加強全方位國際科技合作的紐帶。
(作者:徐芳、李曉軒,中國科學院科技戰略咨詢研究院中國科學院大學公共政策與管理學院 中國科學學與科技政策研究會科技管理與評價專委會。《中國科學院院刊》供稿)