記者6月9日從中國科學院自動化研究所獲悉,該所與中國科學院腦科學與智能技術卓越創(chuàng)新中心的聯合團隊在《自然·機器智能》發(fā)表相關研究,首次證實多模態(tài)大語言模型能夠自發(fā)形成與人類高度相似的物體概念表征系統,為人工智能認知科學提供了新路徑,也為構建類人認知結構的人工智能系統提供了理論框架。
“人類能夠對自然界中的物體進行概念化,這一認知能力長期以來被視為人類智能的核心。”論文通訊作者、中國科學院自動化研究所研究員何暉光說,當人們看到“狗”“汽車”或“蘋果”時,不僅能識別它們的物理特征,如尺寸、顏色、形狀等,還能理解其功能、情感價值和文化意義,這種多維度的概念表征構成了人類認知的基石。
而隨著ChatGPT等大語言模型的爆發(fā)式發(fā)展,一個問題引起科學家們的注意——這些大模型能否從語言和多模態(tài)數據中發(fā)展出類似人類的物體概念表征?
傳統人工智能研究聚焦于物體識別準確率,卻鮮少探討模型是否真正“理解”物體含義。何暉光說:“當前人工智能可以區(qū)分貓狗圖片,但這種‘識別’與人類‘理解’貓狗的本質區(qū)別仍有待揭示。”
研究團隊從認知神經科學經典理論出發(fā),設計了一套融合計算建模、行為實驗與腦科學的創(chuàng)新范式,并構建了人工智能大模型的“概念地圖”。
何暉光介紹,研究團隊從海量大模型行為數據中提取出66個“心智維度”,并為這些維度賦予了語義標簽。通過研究發(fā)現這些維度是高度可解釋的,且與大腦類別選擇區(qū)域的神經活動模式顯著相關。研究還對比了多個模型在行為選擇模式上與人類的一致性,結果顯示多模態(tài)大模型在一致性方面表現更優(yōu)。
此外,研究還揭示了人類在做決策時更傾向于結合視覺特征和語義信息進行判斷,而大模型則傾向于依賴語義標簽和抽象概念。本研究表明大語言模型內部存在著類似人類對現實世界概念的理解。