聊天機(jī)器人已通過(guò)類(lèi)人智能的關(guān)鍵測(cè)試?,F(xiàn)在怎么辦?
已經(jīng)有幾個(gè)標(biāo)題過(guò)去一周關(guān)于 AI 聊天機(jī)器人正式通過(guò)圖靈測(cè)試。
這些新聞報(bào)道基于最近的預(yù)印本研究由加州大學(xué)圣地亞哥分校的兩名研究人員進(jìn)行,其中四個(gè)大型語(yǔ)言模型 (LLM) 通過(guò)了圖靈測(cè)試。一個(gè)模型——OpenAI 的 GPT-4.5——被認(rèn)為在超過(guò) 70% 的時(shí)間里與人類(lèi)沒(méi)有區(qū)別。
圖靈測(cè)試已經(jīng)普及作為機(jī)器智能的最終指標(biāo)。然而,關(guān)于該測(cè)試的有效性存在分歧。事實(shí)上,它有一段有爭(zhēng)議的歷史,這讓人質(zhì)疑它在衡量機(jī)器智能方面的真正效果。
那么,這對(duì)這項(xiàng)新研究的意義意味著什么呢?
研究發(fā)現(xiàn)了什么?
認(rèn)知科學(xué)家卡梅隆·瓊斯 (Cameron Jones) 和本杰明·伯根 (Benjamin Bergen) 的預(yù)印本研究于 3 月發(fā)表,但尚未經(jīng)過(guò)同行評(píng)審。它測(cè)試了 4 個(gè) LLM:伊麗莎,GPT-4o,LLaMa-3.1-405B和GPT-4.5 的.
測(cè)試包括參與者完成八輪對(duì)話,在對(duì)話中,他們充當(dāng)審訊者,同時(shí)與兩名證人交換短信。一名證人是人類(lèi),另一名是法學(xué)碩士。大約 284 名參與者被隨機(jī)分配為審訊者或證人。
參與者需要通過(guò)分屏同時(shí)與兩名證人互動(dòng) 5 分鐘,測(cè)試界面模仿傳統(tǒng)消息傳遞界面。在這次互動(dòng)之后,他們確定了哪個(gè)證人是人類(lèi),哪個(gè)是 AI 聊天機(jī)器人。
參與者判斷 GPT-4.5 在 73% 的情況下是人類(lèi),在 56% 的情況下判斷 LLaMa-3.1-405B 是人類(lèi)。其他兩個(gè)模型(ELIZA 和 GPT-4o)分別只騙了 23% 和 21% 的參與者。
圖靈測(cè)試到底是什么?
圖靈測(cè)試的第一次迭代是由英國(guó)數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家艾倫·圖靈在 1948 年的一篇題為”智能機(jī)械".它最初被提議為一項(xiàng)實(shí)驗(yàn),涉及三個(gè)人使用稱為造紙機(jī)的理論機(jī)器下棋,其中兩人是玩家,一名作員。
在 1950 年的出版物”計(jì)算機(jī)與智能“,圖靈將實(shí)驗(yàn)重新引入”模仿游戲“,并聲稱這是一種確定機(jī)器表現(xiàn)出相當(dāng)于人類(lèi)的智能行為能力的方法。它涉及三名參與者:參與者 A 是女性,參與者 B 是男性,參與者 C 是任一性別。
通過(guò)一系列的問(wèn)題,參與者 C 需要確定“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”,X 和 Y 代表兩種性別。
然后提出了一個(gè)命題:“當(dāng)機(jī)器在這個(gè)游戲中占據(jù) A 的一部分時(shí)會(huì)發(fā)生什么?當(dāng)游戲以這種方式進(jìn)行時(shí),審訊者會(huì)像在一男一女之間進(jìn)行游戲時(shí)一樣經(jīng)常做出錯(cuò)誤的決定嗎?
這些問(wèn)題旨在取代模棱兩可的問(wèn)題,“機(jī)器能思考嗎?圖靈機(jī)聲稱這個(gè)問(wèn)題是模棱兩可的因?yàn)樗枰斫狻皺C(jī)器”和“思考”這兩個(gè)術(shù)語(yǔ),而這兩個(gè)詞的“正?!笔褂脮?huì)導(dǎo)致對(duì)問(wèn)題的回答不充分。
多年來(lái),這個(gè)實(shí)驗(yàn)被推廣為圖靈測(cè)試。雖然主題各不相同,但測(cè)試仍然是對(duì)“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”的審議。
為什么會(huì)有爭(zhēng)議?
雖然圖靈測(cè)試作為一種測(cè)試機(jī)器智能的手段而廣受歡迎,但并未被一致接受為一種準(zhǔn)確的方法。事實(shí)上,該測(cè)試經(jīng)常受到挑戰(zhàn)。
有對(duì)圖靈測(cè)試的四個(gè)主要反對(duì)意見(jiàn):
- 行為與思考。一些研究人員認(rèn)為,“通過(guò)”測(cè)試的能力是行為問(wèn)題,而不是智力問(wèn)題。因此,說(shuō)機(jī)器可以通過(guò)模仿游戲,但不能思考,這并不矛盾。
- 大腦不是機(jī)器。圖靈斷言大腦是一臺(tái)機(jī)器,聲稱它可以用純粹機(jī)械的術(shù)語(yǔ)來(lái)解釋。許多學(xué)者反駁了這一說(shuō)法,并以此為基礎(chǔ)質(zhì)疑該測(cè)試的有效性。
- 內(nèi)部作。由于計(jì)算機(jī)不是人類(lèi),它們得出結(jié)論的過(guò)程可能無(wú)法與人相提并論,這使得測(cè)試不充分,因?yàn)橹苯颖容^不起作用。
- 測(cè)試范圍。一些研究人員認(rèn)為,僅測(cè)試一種行為不足以確定智力。
那么 LLM 和人類(lèi)一樣聰明嗎?
雖然預(yù)印本文章聲稱 GPT-4.5 通過(guò)了圖靈測(cè)試,但它也指出:
圖靈測(cè)試是可替代性的衡量標(biāo)準(zhǔn):一個(gè)系統(tǒng)是否可以代替一個(gè)真實(shí)的人,而 [...]沒(méi)有注意到差異。
這意味著研究人員不支持圖靈測(cè)試是人類(lèi)智能的合法指標(biāo)的觀點(diǎn)。相反,它是對(duì)人類(lèi)智能的模仿——對(duì)測(cè)試起源的頌歌。
還值得注意的是,該研究的條件并非沒(méi)有問(wèn)題。例如,五分鐘的測(cè)試窗口相對(duì)較短。
此外,每個(gè) LLM 都被提示采用特定的角色,但目前尚不清楚“角色”的細(xì)節(jié)和對(duì)測(cè)試的影響。
目前,可以肯定地說(shuō) GPT-4.5 不如人類(lèi)聰明——盡管它可能會(huì)合理地說(shuō)服一些人。
澤娜·阿薩德, 高級(jí)講師, 工程學(xué)院,澳大利亞國(guó)立大學(xué)
本文轉(zhuǎn)載自對(duì)話根據(jù) Creative Commons 許可。閱讀原創(chuàng)文章.
湖北農(nóng)機(jī)化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級(jí)期刊
智能建筑與智慧城市
合作期刊 - 國(guó)家級(jí)期刊
風(fēng)景名勝
合作期刊 - 省級(jí)期刊
電工技術(shù)
合作期刊 - 省級(jí)期刊
陜西教育
合作期刊 - 省級(jí)期刊
通信技術(shù)
合作期刊 - 國(guó)家級(jí)期刊
供熱制冷
合作期刊 - 國(guó)家級(jí)期刊
當(dāng)代教研論叢
合作期刊 - 省級(jí)期刊
中國(guó)集體經(jīng)濟(jì)
合作期刊 - 國(guó)家級(jí)期刊
中學(xué)生英語(yǔ)
中等教育 - 國(guó)家級(jí)期刊
新課程導(dǎo)學(xué)
合作期刊 - 省級(jí)期刊