人工智能現(xiàn)在可以參加會(huì)議并編寫(xiě)代碼：但存在隱藏的風(fēng)險(xiǎn)

Microsoft 最近推出其所有軟件的新版本，并添加了人工智能（AI）助手，可以為您完成各種任務(wù)。

副駕駛員可以總結(jié)口頭對(duì)話團(tuán)隊(duì)在線會(huì)議，根據(jù)口頭討論提出支持或反對(duì)特定觀點(diǎn)的論點(diǎn)，并回復(fù)您的部分電子郵件。它甚至可以編寫(xiě)計(jì)算機(jī)代碼。

這種快速發(fā)展的技術(shù)似乎使我們更接近未來(lái)，人工智能使我們的生活更輕松，并消除了我們作為人類必須做的所有無(wú)聊和重復(fù)的事情。

但是，盡管這些進(jìn)步都非常令人印象深刻和有用，但我們必須謹(jǐn)慎使用它們大型語(yǔ)言模型（法學(xué)碩士）。盡管它們具有直觀性，但它們?nèi)匀恍枰记刹拍苡行?、可靠和安全地使用它們?/p>

大型語(yǔ)言模型

LLM 是一種“深度學(xué)習(xí)”神經(jīng)網(wǎng)絡(luò)，旨在通過(guò)根據(jù)提供的提示分析不同響應(yīng)的概率來(lái)理解用戶的意圖。因此，當(dāng)一個(gè)人輸入提示時(shí)，LLM 會(huì)檢查文本并確定最有可能的響應(yīng)。

ChatGPT的，法學(xué)碩士的一個(gè)突出例子，可以為各種主題的提示提供答案。然而，盡管 ChatGPT 的回應(yīng)看似知識(shí)淵博，但不擁有實(shí)際知識(shí)。它的響應(yīng)只是基于給定提示的最可能的結(jié)果。

當(dāng)人們向 ChatGPT、Copilot 和其他 LLM 提供他們想要完成的任務(wù)的詳細(xì)描述時(shí)，這些模型可以出色地提供高質(zhì)量的響應(yīng)。這可能包括生成文本、圖像或計(jì)算機(jī)代碼。

但是，作為人類，我們經(jīng)常突破技術(shù)可以做什么以及它最初設(shè)計(jì)的界限。因此，我們開(kāi)始使用這些系統(tǒng)來(lái)做我們應(yīng)該自己完成的跑腿工作。

為什么過(guò)度依賴人工智能可能是一個(gè)問(wèn)題

盡管他們看似聰明的反應(yīng)，但我們不能盲目信任LLM 準(zhǔn)確或可靠。我們必須仔細(xì)評(píng)估和驗(yàn)證他們的輸出，確保我們的初始提示反映在提供的答案中。

為了有效地驗(yàn)證和驗(yàn)證 LLM 輸出，我們需要對(duì)主題有深刻的理解。沒(méi)有專業(yè)知識(shí)，我們就無(wú)法提供必要的質(zhì)量保證。

在我們使用 LLM 來(lái)彌合我們自己知識(shí)差距的情況下，這一點(diǎn)變得尤為重要。在這里，我們?nèi)狈χR(shí)可能會(huì)導(dǎo)致我們陷入一種情況，即我們根本無(wú)法確定輸出是否正確。這種情況可能會(huì)在文本生成和編碼中出現(xiàn)。

使用 AI 參加會(huì)議并總結(jié)討論會(huì)帶來(lái)明顯的可靠性風(fēng)險(xiǎn)。

雖然會(huì)議記錄基于成績(jī)單，但會(huì)議記錄的生成方式仍與 LLM 中的其他文本相同。它們?nèi)匀换谡Z(yǔ)言模式和所說(shuō)的概率，因此在采取行動(dòng)之前需要驗(yàn)證。

由于以下原因，他們還遭受解釋問(wèn)題同音字，發(fā)音相同但含義不同的單詞。由于對(duì)話的上下文，人們善于理解在這種情況下的含義。

但人工智能不擅長(zhǎng)推斷上下文，也不理解細(xì)微差別。因此，期望它根據(jù)可能錯(cuò)誤的成績(jī)單提出論點(diǎn)會(huì)帶來(lái)進(jìn)一步的問(wèn)題。

如果我們使用人工智能來(lái)生成計(jì)算機(jī)代碼，驗(yàn)證就更難了。使用測(cè)試數(shù)據(jù)測(cè)試計(jì)算機(jī)代碼是驗(yàn)證其功能的唯一可靠方法。雖然這表明代碼按預(yù)期運(yùn)行，但它并不能保證其行為符合現(xiàn)實(shí)世界的期望。

假設(shè)我們使用生成式 AI 為情感分析工具創(chuàng)建代碼。目標(biāo)是分析產(chǎn)品評(píng)論并將情緒分類為積極、中性或消極。我們可以測(cè)試系統(tǒng)的功能并正確驗(yàn)證代碼功能——從技術(shù)編程的角度來(lái)看，它是合理的。

然而，想象一下，我們?cè)诂F(xiàn)實(shí)世界中部署了這樣的軟件，它開(kāi)始將諷刺性的產(chǎn)品評(píng)論歸類為正面的。情感分析系統(tǒng)缺乏必要的上下文知識(shí)，無(wú)法理解諷刺不被用作正反饋，恰恰相反。

在諸如此類的細(xì)微情況下，驗(yàn)證代碼的輸出是否與預(yù)期結(jié)果匹配需要專業(yè)知識(shí)。

非程序員將不了解用于確保代碼正確的軟件工程原則，例如規(guī)劃、方法、測(cè)試和文檔。編程是一門(mén)復(fù)雜的學(xué)科，軟件工程作為管理軟件質(zhì)量的領(lǐng)域而出現(xiàn)。

作為我自己的風(fēng)險(xiǎn)，存在重大風(fēng)險(xiǎn)研究研究表明，非專家會(huì)忽略或跳過(guò)軟件設(shè)計(jì)過(guò)程中的關(guān)鍵步驟，從而導(dǎo)致代碼質(zhì)量未知。

驗(yàn)證和驗(yàn)證

ChatGPT 和 Copilot 等 LLM 是強(qiáng)大的工具，我們都可以從中受益。但我們必須小心，不要盲目相信提供給我們的產(chǎn)出。

我們正處于基于這項(xiàng)技術(shù)的偉大革命的開(kāi)端。人工智能有無(wú)限的可能性，但它需要被塑造、檢查和驗(yàn)證。而目前，只有人類才能做到這一點(diǎn)。

西蒙·索恩，計(jì)算機(jī)與信息系統(tǒng)高級(jí)講師，Cardiff Metropolitan University

本文轉(zhuǎn)載自對(duì)話根據(jù)知識(shí)共享許可。閱讀原文.

寶寶起名起名

本站所有相關(guān)知識(shí)僅供大家參考、學(xué)習(xí)之用，部分來(lái)源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無(wú)意侵犯您的權(quán)利，請(qǐng)與小編聯(lián)系，我們將會(huì)在第一時(shí)間核實(shí)并給予反饋。

相關(guān)期刊推薦