機(jī)器學(xué)習(xí)中的每篇論文都引入了一種新算法嗎?
遺憾的是,是的,這是當(dāng)前該領(lǐng)域最深層的問題之一。根據(jù)我的保守估計,每年ML上發(fā)表超過10,000篇論文(大約每天30篇),幾乎每篇論文都毫無例外地引入了一種新算法。哎呀,我對下一次ML研究人員的這種罪行感到內(nèi),,自從2020年以來,我在ML上發(fā)表論文的第35年就可能比大多數(shù)人感到罪惡。
讓我們嘗試了解為什么這是一個問題。警告:以下討論可能會引起您作為ML研究人員或從業(yè)人員的嚴(yán)重焦慮!如果您可以忍受我的推理,那么您可能會以我沒有的巨大方式受益。我花了40年的時間思考ML,最近又遇到了“我是否浪費(fèi)了生命?”有點(diǎn)危機(jī)。我應(yīng)該為自己的生活做些更有用的事情嗎?
首先,讓我們看看大量的算法能為我們帶來什么。幾年前,我聽過哈佛大學(xué)政治學(xué)教授加里·金(Gary King)的精彩演講,他對文件聚類感興趣,因?yàn)樗媱澲槐就诵輹?,以紀(jì)念一位受人尊敬的同事的生活,學(xué)術(shù)界對此的專業(yè)術(shù)語是節(jié)日。

因此,金教授是他的徹底學(xué)者,要求他的研究生實(shí)施文獻(xiàn)中的所有聚類算法。現(xiàn)在,聚類是統(tǒng)計和機(jī)器學(xué)習(xí)中最古老的問題之一。有很多公開的方法。因此,金教授決定將搜索限制在那些方法的原始創(chuàng)建者以外的研究人員使用的方法上。
不過,他們在文獻(xiàn)中發(fā)現(xiàn)了250多種聚類方法,這一點(diǎn)都不令我感到驚訝。因此,他們編寫了一個R包來比較所有它們。他們發(fā)現(xiàn)了什么?有沒有“最佳”算法?當(dāng)然不是!每種算法的行為方式都不同。最終,他們決定專注于顯示來自不同聚類方法的結(jié)果,并讓用戶選擇他或她最吸引人的分組。
我在這里以集群為例,但是對于任何ML框架,無論是監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),無監(jiān)督學(xué)習(xí)等等,我都可以輕松地提出相同的觀點(diǎn)。哎呀,在這一點(diǎn)上,我敢打賭,至少有一百種不同的隨機(jī)梯度下降方法,這是深度學(xué)習(xí)的基礎(chǔ)。
很明顯,這種大量的算法帶來了一些巨大的問題。首先,如果您是一位有抱負(fù)的ML研究人員,并且希望自己成名,那么您是否應(yīng)該花一些時間來發(fā)明第251個聚類算法。經(jīng)過長時間研究的人的一些提示。最大的回報來自開拓者。先前方法的每個變體獲得的功勞甚至更少。研究影響是一個次模塊函數(shù),這意味著收益遞減定律適用。
伊恩·古德費(fèi)洛(Ian Goodfellow)在蒙特利爾大學(xué)(University of Montreal)的博士學(xué)位論文中正確地發(fā)明了對抗性生成對抗網(wǎng)絡(luò)。GAN容易有一百種或更多種。人們像飛蛾被光吸引一樣被GAN吸引??杀氖牵@些變體中很少有人能獲得長期認(rèn)可。伊恩將繼續(xù)是圍繞GAN太陽系旋轉(zhuǎn)的太陽。
第二,以我的加里·金(Gary King)為例,為什么要發(fā)明第251個聚類方法,第300個用于深度強(qiáng)化學(xué)習(xí)的策略梯度方法,第400個回歸方法,第151個隨機(jī)梯度下降方法?這一切在哪里結(jié)束?
我警告過您,這場ML悲劇沒有圓滿的結(jié)局。就像普契尼歌劇一樣我為什么這樣想?你想知道:他衰老了嗎?當(dāng)然,我已經(jīng)第六年了。這是合法的批評。但是,請聽我說。
在優(yōu)化和機(jī)器學(xué)習(xí)中,有一套很漂亮的定理,叫做“無免費(fèi)午餐定理”(真的,我不告訴你)。從Wikipedia引述以下內(nèi)容,從本質(zhì)上講,該定理說永遠(yuǎn)不會有“最佳”的機(jī)器學(xué)習(xí)算法。
在計算復(fù)雜度并優(yōu)化沒有免費(fèi)的午餐定理結(jié)果表明,對于某些類型的數(shù)學(xué)問題,計算成本對于所有解決方案方法,對類中所有問題平均求出解決方案的過程是相同的。因此,沒有解決方案提供“捷徑”。這是在假設(shè)搜索空間是概率密度函數(shù)的前提下進(jìn)行的。它不適用于搜索空間具有可以更有效地利用的基礎(chǔ)結(jié)構(gòu)(例如是微分函數(shù))的情況。牛頓優(yōu)化方法),甚至可以找到完全無需搜索即可確定的封閉式解(例如二次多項(xiàng)式的極值)。對于這種概率假設(shè),解決特定類型問題的所有過程的輸出在統(tǒng)計上都是相同的。引入了一種描述這種情況的多彩方式,由戴維·沃爾珀特和William G. Macready有關(guān)搜索的問題和優(yōu)化,就是說天下沒有免費(fèi)的午餐。Wolpert以前沒有得出免費(fèi)的午餐定理機(jī)器學(xué)習(xí)(統(tǒng)計推斷)。在Wolpert的文章發(fā)表之前,Cullen Schaffer獨(dú)立證明了Wolpert定理之一的受限版本,并用它來批評關(guān)于歸納問題的機(jī)器學(xué)習(xí)研究的當(dāng)前狀態(tài)。
好的,您可以閱讀Wolpert的原始論文,了解優(yōu)化中沒有免費(fèi)的午餐定理。本質(zhì)上,在所有輸入分布上取平均值,沒有算法可以控制其他所有算法。因此,沒有最佳的聚類方法,最佳的強(qiáng)化學(xué)習(xí)方法,最佳的分類器等。全都是煙霧和鏡子。
因此,我意識到在將40年的生命奉獻(xiàn)給機(jī)器學(xué)習(xí)時,我是否浪費(fèi)了生命?ML彩虹的盡頭沒有金子。根據(jù)無免費(fèi)午餐定理,只是幻滅。
那么,這將使有抱負(fù)的ML研究人員離開哪里?我的建議是專注于ML問題,而不是算法。問題的解決是關(guān)鍵。愛因斯坦曾經(jīng)有句著名的話,當(dāng)被問及如果他的生活要依靠解決某個問題而要做什么時,他還有一個小時的時間。他說,他將花55分鐘思考正確的配方,花5分鐘解決它。我擔(dān)心,機(jī)器學(xué)習(xí)研究人員的發(fā)展方向相反。
我讓您最好地決定如何度過自己的時間。我希望您比我更明智地使用它!
湖北農(nóng)機(jī)化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊
辦公室業(yè)務(wù)
合作期刊 - 國家級期刊
內(nèi)燃機(jī)與配件
動力工程 - 省級期刊
產(chǎn)業(yè)科技創(chuàng)新
信息科技 - 省級期刊
中國農(nóng)業(yè)文摘-農(nóng)業(yè)工程
農(nóng)業(yè)綜合 - 國家級期刊
管理學(xué)家
合作期刊 - 國家級期刊
知識窗
合作期刊 - 省級期刊
教學(xué)管理與教育研究
合作期刊 - 國家級期刊
畜牧業(yè)環(huán)境
合作期刊 - 國家級期刊
作家天地
中國文學(xué) - 省級期刊
吉林畜牧獸醫(yī)
合作期刊 - 省級期刊








管理與教育研究.jpg)










