今年2月,加拿大蒙特利爾大學生態(tài)學家蒂莫西·波伊索在審閱自己論文的評審意見時,意外發(fā)現(xiàn)其中一份評審報告可能由AI代筆。他對此感到憤怒并在博客中痛斥:我遞交論文參與評審,期待的是同行的思想碰撞。若這一前提不再,那么同行評審制度將淪為數(shù)字廢墟。
英國《自然》雜志網(wǎng)站在3月27日的報道中指出,AI系統(tǒng)正以驚人速度滲透同行評審體系。多家出版商紛紛測試各種AI審稿系統(tǒng),用于標記稿件中的文本謬誤、數(shù)據(jù)漏洞,以及對文字進行潤色等。一些平臺甚至能一鍵生成完整AI評審報告。一些擁躉認為同行評審自動化不可避免,另外一些科學家則憂心AI未來可能最終主導同行評審過程,弱化甚至完全取代人類審稿人的角色。
人工智能滲入評審生態(tài)
在ChatGPT等基于大語言模型(LLMs)的生成式AI工具掀起浪潮前,學術出版界已將AI技術引入同行評審環(huán)節(jié),用于數(shù)據(jù)校驗、研究結論提煉等輔助工作。但隨著具備類人寫作能力的生成式AI工具橫空出世,這場技術革命也在學術界掀起一場風浪。
美國威利出版集團針對近5000名研究者的調研顯示,約19%的受訪者承認嘗試過使用AI工具提高評審效率。更令人關注的是,對2023年—2024年AI領域會議論文的評審報告分析發(fā)現(xiàn),7%—17%的評審報告存在由AI工具“深度潤色”的跡象,這意味著修改幅度遠超基礎語法校正范疇。
當前,很多資助機構和出版商明令禁止評審人員在論文或基金評審中使用AI工具,主要擔憂敏感信息經(jīng)聊天機器人外泄。不過,美國哥本哈根大學科學家塞巴斯蒂安·波斯達姆·曼認為,若使用本地部署的離線AI工具,數(shù)據(jù)無需上傳云端即可處理完成,大大降低了泄密風險。葡萄牙里斯本天主教大學組織行為學研究員德里瓊·格魯達補充道,離線LLMs猶如智能文字助手,能加速并優(yōu)化評審意見的撰寫過程,前提是AI工具僅作幫手而非代寫全文。
盡管使用生成式AI工具日益普遍,但知名期刊仍對其持謹慎觀望態(tài)度。2024年底針對78種頂級醫(yī)學期刊AI評審指南的調查顯示,59%的期刊完全禁止評審環(huán)節(jié)使用AI技術。其余期刊允許使用,但提出了不同要求。三大出版集團對AI評審的態(tài)度也大不相同。愛思唯爾集團目前禁止審稿人使用生成式AI工具輔助審稿;威利和施普林格·自然集團則允許“有限使用”,但須披露使用細節(jié),并嚴禁將論文上傳至在線平臺。
智能助手紛紛上線
鑒于主流學術期刊對AI自主評審持審慎態(tài)度,科研團隊紛紛開發(fā)輔助人類評審的生成式AI工具。
比如,斯坦福大學計算生物學家詹姆斯·周團隊打造的“反饋代理”審稿系統(tǒng),如同文字雕琢大師,能自動識別評審報告中出現(xiàn)的語義模糊等問題,并給審稿人提供相關建議。
荷蘭阿姆斯特丹WBS公司開發(fā)的Eliza工具則展現(xiàn)出跨語言處理智能:不僅能向人類評審推薦參考文獻,還能將其他語言的評審內容實時翻譯成英文。創(chuàng)始人澤杰·卡爾森表示,這就像為審稿人配備了一款多語種秘書,但最終決策權仍在人類手中。據(jù)悉,該技術已經(jīng)幫助《歐洲物理評論》雜志處理了23%的非英語評審內容。
由英論閣出版集團和查爾斯沃思屬公司攜手開發(fā)的“審議助手”則能快速識別違反匿名規(guī)則的論文。不過,該工具也可能產(chǎn)生帶有偏見的評審意見,如誤認為英語為母語作者的論文更具創(chuàng)新性。
英國初創(chuàng)公司Grounded AI打造的Veracity系統(tǒng)堪稱“打假利器”,可以驗證引用文獻的真實性,以及文獻與文章觀點是否相符。此外,它還能標記高重復率段落,防范抄襲風險。該公司聯(lián)合創(chuàng)始人尼克·莫利描述稱,這位不知疲倦的學術偵探,專治文獻注水。
Alchemist review則能快速提煉論文核心發(fā)現(xiàn),評估研究方法的創(chuàng)新性,并驗證數(shù)據(jù)的可重復性。美國物理聯(lián)合會出版社目前正在旗下兩家期刊上試運行該軟件。據(jù)悉,該系統(tǒng)已經(jīng)攔截了7篇涉嫌數(shù)據(jù)造假的投稿。
由澳大利亞認知神經(jīng)科學家尚恩·伊爾哈特等人開發(fā)的Paper Wizard,能生成多頁評審報告,并對論文的方法論進行系統(tǒng)性審查,開發(fā)者將其定位為這是一種“預審階段的智能助手”。
包括威利出版集團在內的一些出版商也在嘗試開發(fā)內部AI工具助力同行評審。
學術批判力不可或缺
關于AI評審,人們最大的擔憂是,其未來會取代人類評審員。
加拿大非營利學術服務公司OurResearch聯(lián)合創(chuàng)始人賈森·普瑞姆是AI評審的狂熱擁躉,他表示,未來所有論文或都將由AI評審。
學術傳播顧問克里斯·萊昂納德也預測,盡管目前的AI系統(tǒng)無法完成人類評審員的全部工作,比如精準判斷論文的原創(chuàng)性等。但是,隨著技術不斷精進,AI生成的評審報告的質量將顯著優(yōu)于大多數(shù)人類評審。而且至關重要的是,AI的工作效率很高。
不過,他也強調,就像自動駕駛需要人類監(jiān)督一樣,AI評審必須配備“思想制動系統(tǒng)”。在必要的情況下,啟動二次評審。
包括波伊索在內的一些科學家則認為,AI不具備評審所需的批判性思維,提出的內容大多是“泛泛而談”。華盛頓大學進化生物學家卡爾·伯格斯特龍也表示,LLMs遠不足以寫出合格的同行評審報告。寫作即思考,如果審稿人將評審工作外包給AI,會導致評審內容流于膚淺。
波斯達姆·曼則聲稱,盡管AI確實能對某些評審人的報告進行潤色。但LLMs基于訓練數(shù)據(jù)和輸入內容生成統(tǒng)計概率上看似合理的文本,其輸出幾乎總會包含錯誤。
英國牛津大學學術倫理研究中心主任艾瑪·威爾遜更是警告稱:當算法開始評判人類智慧,人們失去的不僅是審稿人的專業(yè)判斷,更是學術共同體最珍貴的批判性思維。
如果科學界開始接受AI審查,那么就需要制定強有力的透明度標準,AI審查的每個細節(jié)、使用的每個提示詞等,都必須予以公開。
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2024 中國高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號-5
電信與信息服務業(yè)務經(jīng)營許可證060344號主辦單位:《中國高新技術產(chǎn)業(yè)導報》社有限責任公司