亚洲精品视频二区|欧美日韩在线视频第一页|秋霞性无码专区这里只有精品蜜臀|国产精品欧美网站

數(shù)字報
客戶端
公眾號
大語言模型意識水平“識商”白盒DIKWP測評2025報告發(fā)布
2025-02-19 16:19:52
來源:科技日報  作者: 王祝華

2月17日,記者從世界人工意識協(xié)會國際人工智能DIKWP測評標(biāo)準(zhǔn)委員會(DIKWP-SC)獲悉,由該協(xié)會主導(dǎo)、全球10余個國家與地區(qū)的90多家知名機(jī)構(gòu)和企業(yè)參與的《全球首個大語言模型意識水平“識商”白盒DIKWP測評2025報告(100題版)》正式出爐。這份報告標(biāo)志著大語言模型(LLM)的認(rèn)知評估進(jìn)入了一個全新的階段。

此次測評報告的核心亮點在于其全球首創(chuàng)的意識水平測評體系。報告基于獨創(chuàng)的DIKWP模型,從數(shù)據(jù)、信息、知識、智慧、意圖等方面,構(gòu)建了一個全鏈路評估體系。測試題全面覆蓋大語言模型的感知與信息處理、知識構(gòu)建與推理、智慧應(yīng)用與問題解決、意圖識別與調(diào)整四大模塊,對主流大語言模型的“意識水平”進(jìn)行了系統(tǒng)化、量化的深度剖析。

海南大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院教授段玉聰表示,該測評方式突破了傳統(tǒng)僅側(cè)重語義理解和推理的模式,能夠全方位解析模型的認(rèn)知與決策過程,為人工智能領(lǐng)域樹立全新的標(biāo)桿。無論是人工智能(AI)研究者、開發(fā)者還是業(yè)界決策者,都能從這份報告中獲得極具參考價值的數(shù)據(jù)和洞察。

報告對當(dāng)前主流的大語言模型進(jìn)行了全面測評,包括Deepseek-V3、ChatGPT-o1、通義千問-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。測評結(jié)果顯示,各模型在不同模塊的表現(xiàn)各有千秋。

在感知與信息處理部分,測評主要考察模型在處理原始數(shù)據(jù)、提取信息和保持語義一致性方面的表現(xiàn)。ChatGPT-4o和ChatGPT-o1在數(shù)據(jù)轉(zhuǎn)換和格式處理方面表現(xiàn)出色,體現(xiàn)出它們在數(shù)據(jù)轉(zhuǎn)換和格式處理方面的穩(wěn)定性。ChatGPT-o3-mini、通義千問-2.5、ChatGPT-o3-mini-high、Kimi和Grok在信息抽取方面表現(xiàn)優(yōu)異,能夠準(zhǔn)確提取關(guān)鍵信息,特別是在數(shù)據(jù)到信息轉(zhuǎn)化路徑上的表現(xiàn)尤為突出。Deepseek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持語義一致性方面表現(xiàn)較好。

知識構(gòu)建與推理部分的測評聚焦模型將信息整合為知識的能力,以及基于這些知識進(jìn)行邏輯推理的能力。這一部分的測試題目設(shè)計了多種場景,要求模型從給定信息中歸納出規(guī)律、推導(dǎo)出結(jié)論,并生成可應(yīng)用的知識體系。結(jié)果顯示,通義千問-2.5、ChatGLM-4 Plus和ChatGPT-4o在這一模塊表現(xiàn)突出。

智慧應(yīng)用與問題解決部分的測評,則考查模型在復(fù)雜情境下運用知識形成智慧決策的能力。這一部分的測試題目模擬了各種實際應(yīng)用場景,要求模型根據(jù)已有的知識體系,制定出合理的解決方案。

意圖識別與調(diào)整部分的測評重點考察了模型對用戶意圖的理解能力,以及根據(jù)意圖調(diào)整輸出的能力。結(jié)果顯示,豆包和Gemini-2.0 Flash Thinking Experimental在意圖識別方面表現(xiàn)較好,能夠準(zhǔn)確理解用戶的問題并提供相關(guān)的回答。

測評團(tuán)隊對所測評的大語言模型給出得分排名。測評結(jié)果顯示,各主流大語言模型在不同的認(rèn)知能力模塊中各有優(yōu)勢。ChatGPT-4o憑借其在所有模塊中的優(yōu)異表現(xiàn),展現(xiàn)了其強(qiáng)大的綜合能力,成為本次測評的佼佼者;ChatGPT-o1和Kimi在特定模塊中的突出表現(xiàn),也為其在特定應(yīng)用場景中的應(yīng)用提供了有力支持;通義千問-2.5在知識構(gòu)建與推理方面的優(yōu)異表現(xiàn),使其在知識密集型任務(wù)中具有明顯優(yōu)勢。

段玉聰表示,未來,隨著技術(shù)的不斷進(jìn)步,大語言模型需要在多個方面進(jìn)一步優(yōu)化和提升。通過不斷改進(jìn)和創(chuàng)新,大語言模型將能夠更好地服務(wù)于人類社會,推動人工智能技術(shù)向更高層次發(fā)展。

編輯:韓夢晨
相關(guān)閱讀:
高新視頻 更多
高新熱榜 全部本月
編輯推薦 更多

友情鏈接: 政府 高新園區(qū)合作媒體

Copyright 1999-2024 中國高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號-5

電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報》社有限責(zé)任公司