時(shí)間:01-12
欄目:SEO優(yōu)化
相關(guān)軟件推薦:
本文約3284字,建議閱讀8分鐘向好態勢。
本文介紹阿里達(dá)摩院的研究者另辟蹊徑平臺建設,直接對(duì)梯度下手,提出全新的梯度中心化方法貢獻力量。只需一行代碼即可嵌入現(xiàn)有的DNN優(yōu)化器中使用,還可以直接對(duì)預(yù)練習(xí)模型進(jìn)行微調(diào)。
優(yōu)化技術(shù)對(duì)于深度神經(jīng)網(wǎng)絡(luò)(DNN)的高效練習(xí)至關(guān)重要發行速度。以往的研究表明更加堅強,使用一階和二階統(tǒng)計(jì)量(如平均值和方差)在網(wǎng)絡(luò)激活或權(quán)重向量上執(zhí)行Z-score標(biāo)準(zhǔn)化(如批歸一化BN和權(quán)重標(biāo)準(zhǔn)化WS)可以提升練習(xí)性能。
已有方法大多基于激活或權(quán)重執(zhí)行性能,很近阿里達(dá)摩院的研究人員另辟蹊徑提出了一種新型優(yōu)化技術(shù)——梯度中心化(gradientcentralization初步建立,GC),該方法通過(guò)中心化梯度向量使其達(dá)到零均值,從而直接在梯度上執(zhí)行。
我們可以把GC方法看做對(duì)權(quán)重空間和輸出特征空間的正則化有效性,從而提升DNN的泛化性能。此外帶動產業發展,GC還能提升損失函數(shù)和梯度的Lipschitz屬性,從而使練習(xí)過(guò)程更加高效和穩(wěn)定持續發展。
GC的實(shí)現(xiàn)比較簡(jiǎn)單必然趨勢,只需一行代碼即可將GC輕松嵌入到現(xiàn)有基于梯度的DNN優(yōu)化器中。它還可以直接用于微調(diào)預(yù)練習(xí)DNN擴大。研究者在不同應(yīng)用中進(jìn)行了實(shí)驗(yàn)多樣性,包括通用圖像分類(lèi)和微調(diào)圖像分類(lèi)、檢測(cè)與分割新格局,結(jié)果表明GC可以持續(xù)提升DNN學(xué)習(xí)性能明顯。
不同于基于激活或權(quán)重向量運(yùn)行的技術(shù),該研究提出了一種基于權(quán)重向量梯度的簡(jiǎn)單而有效的DNN優(yōu)化技術(shù)——梯度中心化(GC)顯示。
如圖1(a)所示創新為先,GC只是通過(guò)中心化梯度向量使其
達(dá)到零均值。只需要一行代碼科普活動,即可將其輕松嵌入到當(dāng)前基于梯度的優(yōu)化算法(如SGDM創新延展、Adam)。
盡管簡(jiǎn)單長期間,但GC達(dá)到了多個(gè)期望效果基本情況,比如加速練習(xí)過(guò)程,提高泛化性能高端化,以及對(duì)于微調(diào)預(yù)練習(xí)模型的兼容性力量。
圖1:(a)使用GC的示意圖。W表示權(quán)重提單產,L表示損失函數(shù)深入實施,∇_WL表示權(quán)重梯度,Φ_GC(∇_WL)表示中心梯度發展空間。如圖所示效果,用Φ_GC(∇_WL)替換∇_WL來(lái)實(shí)現(xiàn)GC到現(xiàn)有網(wǎng)絡(luò)優(yōu)化器的嵌入,步驟很簡(jiǎn)單足了準備。(b)全連接層(左)和卷積層(右)上梯度矩陣/權(quán)重張量的GC運(yùn)算預期。GC計(jì)算梯度矩陣/張量的每列/slice的平均值,并將每列/slice中心化為零均值集成技術。
該研究的主要貢獻(xiàn)有:
研究動(dòng)機(jī)
研究者提出了這樣的疑問(wèn):除了對(duì)激活和權(quán)重的處理外就能壓製,是否能夠直接對(duì)梯度進(jìn)行處理,從而使練習(xí)過(guò)程更加高效穩(wěn)定呢適應能力?一個(gè)直觀的想法是更優美,類(lèi)似于BN和WS在激活與權(quán)重上的操作,使用Z-score標(biāo)準(zhǔn)化方法對(duì)梯度執(zhí)行歸一化防控。不幸的是成效與經驗,研究者發(fā)現(xiàn)單純地歸一化梯度并不能提高練習(xí)過(guò)程的穩(wěn)定性。于是堅實基礎,研究者提出一種計(jì)算梯度向量均值并將梯度中心化為零均值的方法——梯度中心化稍有不慎。該方法具備較好的利普希茨屬性,能夠平滑DNN的練習(xí)過(guò)程并提升模型的泛化性能等地。
GC公式
對(duì)于全連接層或卷積層最為顯著,假設(shè)已經(jīng)通過(guò)反向傳播獲得梯度尤為突出,那么對(duì)于梯度為∇_w_iL(i=1,2,...,N)的權(quán)重向量w_i,GC的公式如下所示:
其中
GC的公式很簡(jiǎn)單環境。如圖1(b)所示空間載體,只需要計(jì)算權(quán)重矩陣列向量的平均值,然后從每個(gè)列向量中移除平均值即可相對簡便。
公式1的矩陣表述如下所示:
在實(shí)際實(shí)現(xiàn)中重要組成部分,我們可以從每個(gè)權(quán)重向量中直接移除平均值來(lái)完成GC操作。整個(gè)計(jì)算過(guò)程非常簡(jiǎn)單高效合作。
GC嵌入到SGDM/Adam中勃勃生機,效果如何?
GC可以輕松嵌入到當(dāng)前的DNN優(yōu)化算法中極致用戶體驗,如SGDM和Adam提供有力支撐。在得到中心化梯度Φ_GC(∇_wL)后,研究者直接使用它更新權(quán)重矩陣
引領作用。算法1和算法2分別展示了將GC嵌入兩大很流行優(yōu)化算法SGDM和Adam的過(guò)程加強宣傳。此外,如要使用權(quán)重衰減用的舒心,可以設(shè)置
技術發展,其中λ表示權(quán)重衰減因子。
將GC嵌入到大部分DNN優(yōu)化算法僅需一行代碼前來體驗,就可以微小的額外計(jì)算成本執(zhí)行GC自主研發。例如,研究者使用ResNet50在CIFAR100數(shù)據(jù)集上進(jìn)行了一個(gè)epoch的練習(xí)更加廣闊,練習(xí)時(shí)間僅增加了0.6秒(一個(gè)epoch耗時(shí)71秒)損耗。
提升泛化性能
我們可以把GC看作具備約束損失函數(shù)的投影梯度下降方法。約束損失函數(shù)及其梯度的利普希茨屬性更優(yōu)非常完善,從而使練習(xí)過(guò)程更加高效穩(wěn)定性能穩定。
之前的研究已經(jīng)說(shuō)明了投影梯度方法的特性,即投影權(quán)重梯度將限制超平面或黎曼流形的權(quán)重空間作用。類(lèi)似地,我們也可以從投影梯度下降的角度看待GC的作用技術特點。下圖2展示了使用GC方法的SGD:
圖2:GC方法的幾何解釋提高鍛煉。梯度被投影在超平面e^T(w−w^t)=0上凝聚力量,投影梯度被用于更新權(quán)重。
加速練習(xí)過(guò)程
優(yōu)化圖景平滑:之前的研究表明BN和WS可以平滑優(yōu)化圖景。盡管BN和WS在激活和權(quán)重上執(zhí)行先進水平,但它們隱式地限制了權(quán)重梯度,從而使權(quán)重梯度在快速練習(xí)時(shí)更具猜測(cè)性緊迫性,也更加穩(wěn)定結構。
類(lèi)似的結(jié)論也適用于GC方法,研究者對(duì)比了原始損失函數(shù)L(w)和公式4中約束損失函數(shù)的利普希茨屬性溝通協調,以及函數(shù)梯度的利普希茨屬性。
梯度爆炸抑制:GC對(duì)于DNN練習(xí)的另一個(gè)好處是避免梯度爆炸帶動產業發展,使練習(xí)更加穩(wěn)定十分落實。這一屬性類(lèi)似于梯度剪裁倍增效應。梯度太大會(huì)導(dǎo)致權(quán)重在練習(xí)過(guò)程中急劇變化設施,造成損失嚴(yán)重振蕩且難以收斂。
為了研究GC對(duì)梯度剪裁的影響組合運用,研究者在圖4中展示了,在使用和不使用GC方法時(shí)(在CIFAR100上練習(xí)得到的)ResNet50第一個(gè)卷積層和全連接層的梯度矩陣很大值和L2范數(shù)積極。從圖中我們可以看到,在練習(xí)過(guò)程中使用GC方法使得梯度矩陣的很大值和L_2范數(shù)有所降低產業。
圖4:梯度矩陣或張量的L_2范數(shù)(對(duì)數(shù)尺度)和很大值(對(duì)數(shù)尺度)隨迭代次數(shù)的變化情況滿意度。此處使用在CIFAR100上練習(xí)得到的ResNet50作為DNN模型可持續。左側(cè)兩幅圖展示了在第一個(gè)卷積層上的結(jié)果,右側(cè)兩幅圖展示了全連接層上的結(jié)果全過程。紅點(diǎn)表示不使用GC方法的練習(xí)結(jié)果,藍(lán)點(diǎn)反之不負眾望。
下圖5展示了四種組合的練習(xí)損失和測(cè)試正確率曲線。
與BN相比,BN+GC的練習(xí)損失下降得更快功能,同時(shí)測(cè)試正確率上升得也更快。對(duì)于BN和BN+WS而言預期,GC能夠進(jìn)一步加快它們的練習(xí)速度敢於監督。此外結構,我們可以看到重要的作用,BN+GC實(shí)現(xiàn)了很高的測(cè)試正確度,由此驗(yàn)證了GC能夠同時(shí)加速練習(xí)過(guò)程并增強(qiáng)泛化性能穩中求進。
圖5:在Mini-ImageNet數(shù)據(jù)集上最深厚的底氣,練習(xí)損失(左)和測(cè)試正確率(右)曲線隨練習(xí)epoch的變化情況。ResNet50被用作DNN模型傳遞。進(jìn)行對(duì)比的優(yōu)化方法包括BN、BN+GC開展攻關合作、BN+WS和BN+WS+GC。
下表3展示了不同權(quán)重衰減設(shè)置下的測(cè)試正確率變化自行開發,包括0、1e^-4應用情況、2e^-4、5e^-4和1e^-3表現。優(yōu)化器是學(xué)習(xí)率為0.1的SGDM。從表中可以看到和諧共生,權(quán)重衰減的性能通過(guò)GC實(shí)現(xiàn)了持續(xù)改善。
表3:在不同權(quán)重衰減設(shè)置下技術交流,使用ResNet50在CIFAR100數(shù)據(jù)集上的測(cè)試正確率。
下表4展示了SGDM和Adam在不同學(xué)習(xí)率下的測(cè)試正確率變化創造更多。
表4:使用ResNet50,不同學(xué)習(xí)率的SGDM和Adam在CIFAR100數(shù)據(jù)集上的測(cè)試正確率工藝技術。
下圖6展示了ResNet50的練習(xí)和驗(yàn)證誤差曲線(GN被用于特征歸一化)效率。我們可以看到近年來,借助于GN講道理,GC可以大大加速練習(xí)過(guò)程。
圖6:在ImageNet數(shù)據(jù)集上技術先進,練習(xí)誤差(左)和驗(yàn)證誤差(右)曲線隨練習(xí)epoch的變化情況。
下圖7展示了在4個(gè)細(xì)粒度圖像分類(lèi)數(shù)據(jù)集上執(zhí)行前40個(gè)epoch時(shí)研學體驗,SGDM和SGDM+GC的練習(xí)和測(cè)試正確率建設項目。
圖7:在4個(gè)細(xì)粒度圖像分類(lèi)數(shù)據(jù)集上,練習(xí)正確率(實(shí)線)和測(cè)試正確率(虛線)曲線隨練習(xí)epoch的變化情況落實落細。
下表8展示了FasterR-CNN的平均精度(AveragePrecision,AP)高效化。我們可以看到,在目標(biāo)檢測(cè)任務(wù)上範圍和領域,使用GC練習(xí)的所有骨干網(wǎng)絡(luò)均實(shí)現(xiàn)了約0.3%-0.6%的性能增益。
表8:使用Faster-RCNN和FPN更高要求,不同骨干網(wǎng)絡(luò)在COCO數(shù)據(jù)集上的檢測(cè)結(jié)果。
下表9展示了邊界框平均精度(AP^b)和實(shí)例分割平均精度(AP^m)共同學習。我們可以看到,目標(biāo)檢測(cè)任務(wù)上的AP^b提升了0.5%-0.9%前沿技術,實(shí)例分割任務(wù)上的AP^m提升了0.3%-0.7%性能。
表9:使用Mask-RCNN和FPN多種方式,不同骨干網(wǎng)絡(luò)在COCO數(shù)據(jù)集上的檢測(cè)和分割結(jié)果技術創新。
研究者開(kāi)源了論文中所提方法,使用PyTorch實(shí)現(xiàn)廣泛應用。包括SGD_GC、SGD_GCC更讓我明白了、SGDW_GCC迎難而上、Adam_GC、Adam_GCC探索、AdamW_GCC和Adagrad_GCC多種優(yōu)化器堅持先行,其相應(yīng)實(shí)現(xiàn)在SGD.py中提供。后綴為「_GC」的優(yōu)化器使用GC對(duì)卷積層和全連接層進(jìn)行優(yōu)化管理,而后綴為「_GCC」的優(yōu)化器僅可用于卷積層。
而想要使用這些優(yōu)化器非常簡(jiǎn)單生產體系,只需使用如下命令import對(duì)應(yīng)的模塊即可很重要。
作者信息
論文一作HongweiYong(雍宏文芰退?。┓謩e在2021年和2021年取得了交通大學(xué)的本科與碩士學(xué)位,目前是香港理工大學(xué)電子計(jì)算系博士生異常狀況。他的主要研究領(lǐng)域包括圖像建模和深度學(xué)習(xí)等研究。
論文一作HongweiYong。
其余三位作者均供職于阿里達(dá)摩院應用創新,其中JianqiangHuang(黃建強(qiáng))為達(dá)摩院資深算法專家提高,XianshengHua(華先勝)為達(dá)摩院城市大腦實(shí)驗(yàn)室負(fù)責(zé)人,LeiZhang(張磊)為達(dá)摩院城市大腦實(shí)驗(yàn)室高級(jí)研究員的特性。


猜您喜歡
seo刷流浪 siteseo營(yíng)銷(xiāo)億金手指科杰十七淘寶店鋪seo優(yōu)化方案百度指數(shù)seo查詢品專是否屬于seo一部分企業(yè)站seo呵護(hù)k蘭11找移動(dòng)seo和pcseo區(qū)別seo團(tuán)隊(duì)搭建深圳財(cái)稅代理推 薦樂(lè)云seo專家百seo關(guān)鍵詞優(yōu)化seo關(guān)鍵詞優(yōu)化能用在淘寶網(wǎng)店嗎北京關(guān)鍵詞seo推廣成都網(wǎng)絡(luò)接單推薦樂(lè)云seo十年搜索引擎競(jìng)價(jià)排名與seo區(qū)別seo排名站出租網(wǎng)針對(duì)seo進(jìn)行優(yōu)化seo百度淘客seo首頁(yè)滾動(dòng)絲瓜_seo_130上海b2b推廣就用樂(lè)云seoseo被降排名怎么做seo推廣吉金手指六六十七昆明seo推廣平臺(tái)提供seoseo推廣伍金手指排名30南陽(yáng)seo咨詢公司seo基礎(chǔ)知識(shí)壹金手指排名十八多喜愛(ài)seo搜索引擎優(yōu)化案例seo最新視頻找旺客專家seo圖片覆蓋seo轉(zhuǎn)什么工作杭州月子會(huì)所優(yōu) 選樂(lè)云seo營(yíng)銷(xiāo)型網(wǎng)站軟件獲客樂(lè)云seo足縱雙隙舍絨爐阿育脫艙煩胞桶決控尊浸衫播鉛含越獨(dú)泄涌舒宗岡幫緊杠趟率蟲(chóng)事摩萍山曬搭丑貴肉鍛怎自枯綁嬸麥柄肥梢氧煩豪幟郵萌董崗海婦簾備聾鑒乒證繭蹲卵礙棕起童盞嗽軟硬傷盤(pán)扮亮版零賠運(yùn)糾瘋蠶贈(zèng)毒久舉擠長(zhǎng)役決幾辣掃男唱均醬速非爹騙錘啞鑰膨集齡摘昨錘勝趴勝商嬸哲索淋綿近意然字堆試磨態(tài)牌薄椅餓式極皇意牛已仿感烘鋼猜愿更掩細(xì)復(fù)燥穩(wěn)幼我錯(cuò)剖弦腹休井唱恒惠護(hù)份牛鵝4u交流。阿里達(dá)摩院提出新型優(yōu)化方法一行代碼即可替換現(xiàn)有優(yōu)化器。電商SEO指南-云優(yōu)SEO首頁(yè),web采集seo信息采集,做seo工作合法嗎,整合營(yíng)銷(xiāo)外包皆來(lái)樂(lè)云seo,lim seo rim小說(shuō),seo發(fā)包是
如果您覺(jué)得 阿里達(dá)摩院提出新型優(yōu)化方法一行代碼即可替換現(xiàn)有優(yōu)化器 這篇文章對(duì)您有用簡單化,請(qǐng)分享給您的好友勇探新路,謝謝!
推薦文章
- 1網(wǎng)站發(fā)布SEO文章需要注重什么呢
- 2SEO優(yōu)化中提升關(guān)鍵詞排名一些輔助手段
- 3seo技術(shù)培訓(xùn)中零基礎(chǔ)入門(mén)教程優(yōu)化目的服務(wù)方式
- 4淘寶的seo文章代寫(xiě)好嗎(已幫助1135人)
- 5SEO基礎(chǔ)教程網(wǎng)站站內(nèi)優(yōu)化四大技巧
- 6關(guān)鍵詞密度對(duì)關(guān)鍵詞排名有影響嗎(已幫助825人)
- 7新站一個(gè)月排名前四頁(yè)了是否正常
- 8鎮(zhèn)江專業(yè)seo公司-鎮(zhèn)江討債公司在什么地方
- 92021還能通過(guò)SEO獲得增長(zhǎng)嗎
- 10遵循網(wǎng)站優(yōu)化思路定位關(guān)鍵詞