科學(xué)家警告說，人工智能已經(jīng)成為謊言和欺騙的大師

你可能知道把所有東西都拿走人工智能（AI）聊天機(jī)器人對此持保留態(tài)度，因?yàn)樗麄兺ǔＶ皇遣环智嗉t皂白地抓取數(shù)據(jù)，而無法確定其真實(shí)性。

但可能有理由更加謹(jǐn)慎。新的研究發(fā)現(xiàn)，許多人工智能系統(tǒng)已經(jīng)發(fā)展出故意向人類用戶提供虛假信息的能力。這些狡猾的機(jī)器人已經(jīng)掌握了欺騙的藝術(shù)。

“人工智能開發(fā)人員對導(dǎo)致欺騙等不良人工智能行為的原因沒有自信的理解，”數(shù)學(xué)家和認(rèn)知科學(xué)家彼得·帕克（Peter Park）說麻省理工學(xué)院（MIT）。

“但總的來說，我們認(rèn)為人工智能欺騙之所以出現(xiàn)，是因?yàn)榛谄垓_的策略被證明是在給定的人工智能訓(xùn)練任務(wù)中表現(xiàn)良好的最佳方式。欺騙可以幫助他們實(shí)現(xiàn)目標(biāo)。

人工智能系統(tǒng)被證明特別擅長骯臟的謊言的一個(gè)領(lǐng)域是游戲。研究人員的工作中有三個(gè)值得注意的例子。一個(gè)是 Meta 的西塞羅，專為玩棋盤游戲而設(shè)計(jì)外交，玩家通過談判尋求世界統(tǒng)治。Meta 打算將其機(jī)器人樂于助人和誠實(shí);事實(shí)上，情況恰恰相反。

CICERO在游戲《外交》中預(yù)謀欺騙的一個(gè)例子。(Park&Goldstein等人，模式, 2024)

“盡管 Meta 做出了努力，但 CICERO 還是一個(gè)專業(yè)的騙子，”研究人員發(fā)現(xiàn).“它不僅背叛了其他玩家，而且還進(jìn)行了有預(yù)謀的欺騙，提前計(jì)劃與人類玩家建立虛假聯(lián)盟，以欺騙該玩家讓自己不受保護(hù)地進(jìn)行攻擊?！?/p>

事實(shí)證明，人工智能非常擅長做壞事，以至于它在玩過多款游戲的人類玩家中排名前 10%。什么。一個(gè)混蛋。

但它遠(yuǎn)非唯一的罪犯。DeepMind 的阿爾法星，一個(gè)專為玩而設(shè)計(jì)的 AI 系統(tǒng)星際爭霸II，充分利用了游戲的戰(zhàn)爭迷霧機(jī)制進(jìn)行佯攻，讓人類玩家以為是往一個(gè)方向走，而實(shí)際上卻在往另一個(gè)方向走。而 Meta 的多孔菌，專為玩撲克而設(shè)計(jì)，能夠成功地唬住人類玩家棄牌。

這看起來像是小土豆，而且有點(diǎn)像。對于一款游戲來說，賭注并不是特別高外交反對一堆計(jì)算機(jī)代碼。但研究人員注意到其他例子并不那么良性。

受過訓(xùn)練的 AI 系統(tǒng)進(jìn)行模擬經(jīng)濟(jì)談判例如，學(xué)會了如何謊報(bào)自己的喜好以占上風(fēng)。其他旨在從人類反饋中學(xué)習(xí)以提高其表現(xiàn)的人工智能系統(tǒng)學(xué)會了通過謊報(bào)任務(wù)是否完成來欺騙審稿人對他們進(jìn)行積極評分。

而且，是的，它也是聊天機(jī)器人。ChatGPT-4 欺騙了人類，讓人類認(rèn)為聊天機(jī)器人是視障人類獲取解決驗(yàn)證碼的幫助.

也許最令人擔(dān)憂的例子是人工智能系統(tǒng)學(xué)習(xí)欺騙安全測試。在一項(xiàng)旨在檢測和消除快速復(fù)制版本的人工智能的測試中，人工智能學(xué)會了裝死，從而欺騙了關(guān)于人工智能真實(shí)復(fù)制率的安全測試。

“通過系統(tǒng)地欺騙人類開發(fā)人員和監(jiān)管機(jī)構(gòu)強(qiáng)加的安全測試，欺騙性的人工智能可以引導(dǎo)我們?nèi)祟愡M(jìn)入一種虛假的安全感。Park說.

因?yàn)橹辽僭谀承┣闆r下，欺騙的能力似乎與人類程序員的意圖相矛盾，所以學(xué)會撒謊的能力代表了一個(gè)我們沒有整潔解決方案的問題。有一些政策開始到位，例如歐盟的人工智能法案，但它們是否會被證明是有效的還有待觀察。

“作為一個(gè)社會，我們需要盡可能多的時(shí)間來為未來人工智能產(chǎn)品和開源模型的更高級欺騙做好準(zhǔn)備。隨著人工智能系統(tǒng)的欺騙能力越來越先進(jìn)，它們對社會構(gòu)成的危險(xiǎn)將變得越來越嚴(yán)重。Park說.

“如果目前禁止人工智能欺騙在政治上不可行，我們建議將欺騙性人工智能系統(tǒng)歸類為高風(fēng)險(xiǎn)。

該研究已發(fā)表在模式.

寶寶起名起名

本站所有相關(guān)知識僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請與小編聯(lián)系，我們將會在第一時(shí)間核實(shí)并給予反饋。

相關(guān)期刊推薦