
文中起緣于麥專(zhuān)家教授和研究精英團(tuán)隊(duì)的王博士研究生和燕博士的一次會(huì)話(huà)。那一天燕博士研究生選了一家評(píng)價(jià)上得分為5分的飯店。麥專(zhuān)家教授第一反應(yīng)便是:too good to be true。
大家上實(shí)盤(pán)買(mǎi)賣(mài)前實(shí)際上對(duì)那類(lèi)回測(cè)主要表現(xiàn)為100分的戰(zhàn)略全是很心里不安的(大家寧愿發(fā)布主要表現(xiàn)85分的對(duì)策,也不敢隨便用總分的對(duì)策)。
到了之后發(fā)覺(jué)果真出意外事故了,三個(gè)喜愛(ài)吃葷的人進(jìn)了一個(gè)四處釋放國(guó)學(xué)經(jīng)典氣場(chǎng)的素食餐廳。三人都肚子餓了,就咬著牙說(shuō)試試吧,來(lái)都來(lái)了。
結(jié)論……那邊的素餐居然十分美味,三人都被驚嘆到了。
王博士研究生提及機(jī)器視覺(jué)(computer vision)領(lǐng)域的研究很繁華,好多個(gè)精英團(tuán)隊(duì)陸續(xù)發(fā)布了論文,在CV圈引起了強(qiáng)烈的探討。
這種幾乎隔一天就發(fā)布一篇的論文分別是:
5月4日,Google發(fā)表的《MLP-Mixer: An all-MLP Architecture for Vision》;
5月5日,北京清華大學(xué)圖形學(xué)試驗(yàn)室Jittor精英團(tuán)隊(duì)發(fā)布的《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》;
5月5日,北京清華大學(xué)軟件學(xué)院丁貴廣精英團(tuán)隊(duì)發(fā)布的《RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition》;
5月6日,劍橋大學(xué)專(zhuān)家學(xué)者Luke發(fā)布的《Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet》。
圖靈獎(jiǎng)獲得者Yann LeCun也在微博上就Google那篇論文發(fā)布了自個(gè)的觀點(diǎn)。
這兒不探討這種論文明確提出的模型或優(yōu)化算法實(shí)際的研究全過(guò)程,反而是根據(jù)八卦一下該領(lǐng)域有關(guān)技術(shù)性研究演變的主脈來(lái)聊一個(gè)趣味的社會(huì)問(wèn)題。
這要從2017年Google發(fā)布的一篇名叫《Attention Is All You Need》的論文談起。
自2012年至今,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)成為了機(jī)器視覺(jué)領(lǐng)域的核心模型。近些年,機(jī)器視覺(jué)和自然語(yǔ)言理解(NLP)的結(jié)合愈來(lái)愈多,構(gòu)架的工作效率也愈來(lái)愈高。在其中,《Attention Is All You Need》一文中明確提出的Transformer構(gòu)架在很多NLP每日任務(wù)里都獲得了最現(xiàn)代化的成效。"Attention Is All You Need "事實(shí)上就是指"Transformer Is All You Need",由于Transformer僅僅為了更好地完成可并行處理、合理和高效率的專(zhuān)注力。
為了更好地減少模型構(gòu)架的復(fù)雜性,探尋擴(kuò)展性和提升練習(xí)高效率,研究工作人員都是在研究如何把這一關(guān)鍵技術(shù)到視覺(jué)效果解決每日任務(wù)上,Transformer也在視覺(jué)效果領(lǐng)域變成了一個(gè)新的研究網(wǎng)絡(luò)熱點(diǎn),根據(jù)專(zhuān)注力(attention)的網(wǎng)絡(luò)結(jié)構(gòu)(Vision Transformer)也漸漸越來(lái)越時(shí)興,而且獲得了比較良好的特性。
Transformer是一種用以 seq2seq 每日任務(wù)的模型,它并沒(méi)有 RNN 的循環(huán)構(gòu)造或 CNN 的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造,只是選用attention體制來(lái)開(kāi)展翻澤每日任務(wù),翻澤實(shí)際效果也取得了一定的提高。而attention體制最開(kāi)始是在視覺(jué)效果領(lǐng)域明確提出的,Google Mind于2014年發(fā)布的《Recurrent Models of Visual Attention》一文讓attention體制時(shí)興了下去。Transformer與attention、CV領(lǐng)域與NLP領(lǐng)域展現(xiàn)出了我中有你你中有我的關(guān)聯(lián),圖象和語(yǔ)言表達(dá)中間的邊界也逐漸被擺脫。
2018年Google發(fā)布的論文《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》再度點(diǎn)爆了NLP學(xué)術(shù)界,論文中明確提出了BERT模型,該模型在NLP領(lǐng)域的11個(gè)每日任務(wù)上面更新了以往的紀(jì)錄,獲得了顛覆性的進(jìn)度,BERT模型的取得成功較大水平上也需要得益于Transformer。Transformer模型的關(guān)鍵提升之一可能是2020年年里公布的功能齊全的GPT-3,它在NeurIPS 2020上評(píng)為為了更好地最好論文。BERT模型和GPT-3的面世有很大的要替代RNN、LSTM等模型的發(fā)展趨勢(shì),而Transformer在CV領(lǐng)域的良好主要表現(xiàn)對(duì)CNN也是一記重拳出擊。
2020年,人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究又擁有“新”的進(jìn)度,LSTM 明確提出者 Sepp Hochreiter等人發(fā)布了一篇論文,表明NLP領(lǐng)域熱門(mén)的Transformer中的注意力機(jī)制實(shí)際上等額的于一種Hopfield網(wǎng)絡(luò)中的升級(jí)標(biāo)準(zhǔn),其文章標(biāo)題也是很顯著立即對(duì)比Google明確提出Transformer的那篇《Attention Is All You Need》——《Hopfield Networks is All You Need》。
該篇論文那時(shí)候在Twitter和Reddit等網(wǎng)絡(luò)平臺(tái)上也引起了熱情洋溢的探討,許多評(píng)價(jià)都十分有趣。
由Google《Attention Is All You Need》帶上的一陣論文取文章標(biāo)題懶惰的作風(fēng)也逐漸風(fēng)靡,很多人是在玩梗和吐槽,但人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究或是在再次,因此大家就看到了一系列“xxx is all you need”或者“xxx is not all you need”文章標(biāo)題好像普通話(huà)繞口令一樣的論文……
2022年3月份,一樣源于Google的論文《Attention is not all you need: Pure attention loses rank doubly exponentially with depth》更好像立即發(fā)話(huà)斗嘴Transformer。但文章內(nèi)容實(shí)際上是對(duì)“attention is all you need”的填補(bǔ),詳細(xì)的應(yīng)該是“attention 繞過(guò)聯(lián)接 多層感知器(MLP)”。自然,這篇文章也引起了強(qiáng)烈反響,有探討模型和優(yōu)化算法的,也是有嗑瓜子吐槽看熱鬧的,而緊緊圍繞attention和Transformer研究的論文也愈來(lái)愈多(在其中包含但是不限于開(kāi)始提及的那2~3篇論文)。
上邊提及CNN是CV領(lǐng)域的核心模型,該領(lǐng)域流行構(gòu)架演變的過(guò)程是MLP—>CNN—>Transformer。但是,5月份連續(xù)發(fā)布的4篇論文將研究角度又轉(zhuǎn)到了MLP,面前文提及的《Hopfield Networks is All You Need》有一種一見(jiàn)如故的覺(jué)得,人工神經(jīng)網(wǎng)絡(luò)的研究仿佛都逐漸“返樸歸真”了。
「網(wǎng)民調(diào)侃:希望下一個(gè)提升會(huì)是發(fā)覺(jué)1956年Kleene的文章內(nèi)容」
以Google的論文《MLP-Mixer: An all-MLP Architecture for Vision》 為例子,論文明確提出了一種僅需多層感知機(jī)的架構(gòu)MLP-Mixer,稱(chēng)其不用卷積神經(jīng)網(wǎng)絡(luò)控制模塊和注意力機(jī)制就可實(shí)現(xiàn)與CNN、Transformer非常的特性。
沒(méi)多久Google又發(fā)過(guò)一篇論文,名叫《Are Pre-trained Convolutions Better than Pre-trained Transformers?》,論文文章標(biāo)題立即就亮一目了然見(jiàn)解,講的是預(yù)練習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型難道說(shuō)就不可以比Transformer更強(qiáng)嗎?該論文又造成了CNN元老級(jí)LeCun的
「網(wǎng)民刻意了解巨頭“Hmmm”是什么意思,巨頭表明“困惑,尚需研究”」
總算,有人說(shuō)大實(shí)話(huà)了:Money is all you need! 用性能卓越的硬件配置取代低功能的,結(jié)論比費(fèi)力調(diào)模型有效。但是從這個(gè)人的企業(yè)“Tokyo Institute of Bamboo Steamer” (日本東京籠屜學(xué)校)看來(lái),這篇文章應(yīng)當(dāng)并不是那麼正兒八經(jīng)的。
根據(jù)Transformer的模型在一些每日任務(wù)上常常獲得最現(xiàn)代化的結(jié)論,但練習(xí)這種模型的成本費(fèi)過(guò)高,尤其是長(zhǎng)編碼序列上。因而大家引進(jìn)了一種技術(shù)性來(lái)提升Transformer的特性。大家用TPU替代NVIDIA P100,將其運(yùn)行內(nèi)存從hoge GB改成piyo GB。從而造成的模型的性能指標(biāo)與根據(jù)Transformer的模型非常,與此同時(shí)更為""TSUYO TSUYO""(表明強(qiáng)悍,很厲害)。
AI研究的循環(huán)怪圈:MLP—>CNN—>Transformer—>MLP—>CNN
真正的AI研究:Ideas—>Money—>More Money—>Lots of money
無(wú)論如何,Money is all you need是真知。
▼以往優(yōu)選▼
一篇文章講搞清楚:SPAC發(fā)售風(fēng)潮
有骨氣的私募基金經(jīng)理都跳樓自殺了
一篇文章講搞清楚:150億暴倉(cāng)事件
一篇文章講搞清楚:NFT是啥?數(shù)據(jù)拼貼畫(huà)為什么賣(mài)好幾千萬(wàn)美元?
一篇文章講搞清楚:女版股神巴菲特和她的ARK股票基金