數(shù)字等同于近親繁殖可能導(dǎo)致人工智能自行崩潰
人工智能(人工智能)先知和新聞販子預(yù)測生成式人工智能炒作將結(jié)束,并談?wù)摷磳l(fā)生的災(zāi)難性“模型崩潰”。
但這些預(yù)測有多現(xiàn)實呢?到底什么是模型崩潰?
討論于2023,但普及了最近,“模型崩潰”是指一種假設(shè)的場景,即由于互聯(lián)網(wǎng)上人工智能生成的數(shù)據(jù)的增加,未來的人工智能系統(tǒng)會逐漸變得愚蠢。
對數(shù)據(jù)的需求
現(xiàn)代 AI 系統(tǒng)是使用機器學習.程序員設(shè)置了底層的數(shù)學結(jié)構(gòu),但實際的“智能”來自訓(xùn)練系統(tǒng)模仿數(shù)據(jù)中的模式。
但不僅僅是任何數(shù)據(jù)。當前的生成式人工智能系統(tǒng)需要高質(zhì)量的數(shù)據(jù),而且需要大量的數(shù)據(jù)。
為了獲取這些數(shù)據(jù),OpenAI、谷歌、Meta 和 Nvidia 等大型科技公司不斷在互聯(lián)網(wǎng)上搜尋,以收集信息數(shù) TB 的內(nèi)容為機器供料。但自從廣泛可用和有用生成式 AI 系統(tǒng) 2022 年,人們越來越多地上傳和分享部分或全部由 AI 制作的內(nèi)容。
2023 年,研究人員開始思考他們是否能夠擺脫僅依賴 AI 創(chuàng)建的訓(xùn)練數(shù)據(jù),而不是人類生成的數(shù)據(jù)。
有巨大的激勵措施來完成這項工作。除了在互聯(lián)網(wǎng)上激增之外,人工智能制作的內(nèi)容也是便宜得多比人類數(shù)據(jù)的來源。它也不是道德和合法可疑集體收集。
然而,研究人員發(fā)現(xiàn),如果沒有高質(zhì)量的人類數(shù)據(jù),人工智能系統(tǒng)就會在人工智能制造的數(shù)據(jù)上進行訓(xùn)練變得越來越笨因為每個模型都從前一個模型中學習。這就像近親繁殖問題的數(shù)字版本。
這 ”反芻訓(xùn)練“似乎導(dǎo)致了模型行為的質(zhì)量和多樣性的降低。這里的質(zhì)量大致意味著樂于助人、無害和誠實的某種組合。多樣性是指反應(yīng)的變化,以及人們的文化和社會觀點在人工智能輸出中得到體現(xiàn)。
簡而言之:通過如此頻繁地使用人工智能系統(tǒng),我們可能會污染我們首先需要使它們有用的數(shù)據(jù)源。
避免坍塌
大型科技公司不能過濾掉人工智能生成的內(nèi)容嗎?沒有??萍脊疽呀?jīng)花費了大量的時間和金錢來清理和過濾他們抓取的數(shù)據(jù),一位業(yè)內(nèi)人士最近分享說,他們有時會丟棄高達 90%他們最初為訓(xùn)練模型收集的數(shù)據(jù)。
隨著專門刪除 AI 生成內(nèi)容的需求增加,這些工作可能會變得更加艱巨。但更重要的是,從長遠來看,區(qū)分人工智能內(nèi)容實際上會越來越難。這將使合成數(shù)據(jù)的過濾和刪除成為(財務(wù))收益遞減的游戲。
歸根結(jié)底,迄今為止的研究表明,我們無法完全消除人類數(shù)據(jù)。畢竟,這是人工智能中的“我”的來源。
我們是否正在走向一場災(zāi)難?
有跡象表明,開發(fā)人員已經(jīng)不得不更加努力地獲取高質(zhì)量的數(shù)據(jù)。例如文檔隨著 GPT-4 的發(fā)布,參與該項目數(shù)據(jù)相關(guān)部分的工作人員數(shù)量空前。
我們也可能正在耗盡新的人類數(shù)據(jù)。一些估計說,人類生成的文本數(shù)據(jù)池最早可能在2026年被挖掘出來。
這可能就是 OpenAI 和其他公司的原因競相鞏固獨家合作伙伴關(guān)系與行業(yè)巨頭合作,例如Shutterstock,美聯(lián)社和新聞集團.他們擁有大量專有的人類數(shù)據(jù),這些數(shù)據(jù)在公共互聯(lián)網(wǎng)上并不容易獲得。
然而,災(zāi)難性模型崩潰的可能性可能被夸大了。到目前為止,大多數(shù)研究都著眼于合成數(shù)據(jù)取代人類數(shù)據(jù)的情況。在實踐中,人類和人工智能數(shù)據(jù)可能會并行積累,這降低塌陷的可能性.
最有可能的未來情況還將看到一個由某種程度上多樣化的生成式人工智能平臺組成的生態(tài)系統(tǒng)被用于創(chuàng)建和發(fā)布內(nèi)容,而不是一個單一的模型。這也增加了抗崩潰的魯棒性。
對于監(jiān)管機構(gòu)來說,這是一個很好的理由,可以通過以下方式促進良性競爭限制壟斷在人工智能領(lǐng)域,并為公益技術(shù)開發(fā).
真正令人擔憂的問題
過多的人工智能內(nèi)容也會帶來更微妙的風險。
大量的合成內(nèi)容可能不會對人工智能的發(fā)展構(gòu)成生存威脅,但它確實威脅到(人類)互聯(lián)網(wǎng)的數(shù)字公共利益。
例如,研究人員發(fā)現(xiàn)下降了 16%ChatGPT 發(fā)布一年后,編碼網(wǎng)站 StackOverflow 上的活動。這表明,在一些在線社區(qū)中,人工智能輔助可能已經(jīng)減少了人與人之間的互動。
超生產(chǎn)來自 AI 驅(qū)動的內(nèi)容農(nóng)場也使得找到不是的內(nèi)容變得更加困難塞滿廣告的點擊誘餌.
可靠地區(qū)分人工生成的內(nèi)容和人工智能生成的內(nèi)容變得越來越不可能。解決這個問題的一種方法是對人工智能生成的內(nèi)容進行水印或標記,就像我和許多其他人一樣最近突出顯示,正如最近的澳大利亞政府所反映的那樣暫行立法.
此外,還存在另一個風險。隨著人工智能生成的內(nèi)容變得系統(tǒng)性地同質(zhì)化,我們面臨著失敗的風險社會文化多樣性一些人群甚至可以體驗到文化擦除.我們迫切需要跨學科研究在社會和文化挑戰(zhàn)由人工智能系統(tǒng)提出。
人與人之間的互動和人的數(shù)據(jù)很重要,我們應(yīng)該保護它們。為了我們自己,也許也是為了未來模型崩潰的可能風險。
亞倫·斯諾斯韋爾(Aaron J.Snoswell),人工智能問責制研究員,昆士蘭科技大學 (Queensland University of Technology)
湖北農(nóng)機化
農(nóng)業(yè)基礎(chǔ)科學 - 省級期刊
建筑與預(yù)算
合作期刊 - 省級期刊
今日畜牧獸醫(yī)
合作期刊 - 省級期刊
今日自動化
動力工程 - 省級期刊
新絲路
史學理論 - 省級期刊
新智慧
合作期刊 - 國家級期刊
城市建設(shè)理論研究
合作期刊 - 國家級期刊
數(shù)字通信世界
合作期刊 - 國家級期刊
農(nóng)家科技
農(nóng)業(yè)綜合 - 省級期刊
中華建設(shè)
合作期刊 - 國家級期刊
經(jīng)濟視野
企業(yè)經(jīng)濟 - 國家級期刊