發(fā)布時間:2022-01-19
欄目:電商資訊
計算機(jī)視覺領(lǐng)域的AI頂會CVPR2020剛剛落下帷幕成效與經驗,與往年更專注圖片識別不同,學(xué)術(shù)界和工業(yè)界的研究方向逐漸轉(zhuǎn)向了更難的視頻分割和三維視覺等領(lǐng)域堅實基礎。本次稍有不慎,阿里巴巴拿下了四項比賽的世界冠軍,其中就包括CVPR2020的DAVIS視頻目標(biāo)分割比賽等地,本文將具體解讀這項冠軍技術(shù)背后的原理最為顯著。
與圖像識別不同,AI分析理解視頻的技術(shù)門檻較高規定。長期以來環境,業(yè)界在視頻AI技術(shù)的研究上鮮有重大突破。以CVPR會議難度很高的比賽之一DAVIS(DenselyAnnotatedVideoSegmentation)為例高質量,該比賽需要參賽團(tuán)隊精準(zhǔn)處理復(fù)雜視頻中物體快速運(yùn)動相對簡便、外觀變化、遮擋等信息流程,過去幾年趨勢,全球高級科技在該比賽中的成績從未突破80分,而達(dá)摩院的模型很終在test-challenge上取得了84.1的成績上高質量。
DAVIS的數(shù)據(jù)集經(jīng)過精心挑選和標(biāo)注一站式服務,視頻分割中比較難的點都有體現(xiàn),比如:快速運(yùn)動著力增加、遮擋智能化、消失與重現(xiàn)、形變等處理。DAVIS的數(shù)據(jù)分為train(60個視頻序列)建設,val(30個視頻序列),test-dev(30個視頻序列)助力各行,test-challenge(30個視頻序列)前來體驗。其中train和val是可以下載的,且提供了每一幀的標(biāo)注信息確定性。對于半監(jiān)督任務(wù)更加廣闊,test-dev和test-challenge損耗,每一幀的RGB圖片可以下載,且第一幀的標(biāo)注信息也提供了非常完善。算法需要根據(jù)第一幀的標(biāo)注mask性能穩定,來對后續(xù)幀進(jìn)行分割。分割本身是instance級別的作用。
阿里達(dá)摩院提供了一種全新的空間約束方法情況正常,打破了傳統(tǒng)STM方法缺乏時序性的瓶頸,可以讓系統(tǒng)基于視頻前一幀的畫面猜測目標(biāo)物體下一幀的位置技術特點;此外提高鍛煉,阿里還引入了語義分割中的精細(xì)化分割微調(diào)模塊,大幅提高了分割的精細(xì)程度凝聚力量。很終也逐步提升,精準(zhǔn)識別動態(tài)目標(biāo)的輪廓邊界,并且與背景進(jìn)行分離註入了新的力量,實現(xiàn)像素級目標(biāo)分割重要的作用。
達(dá)摩院的算法基于去年CVPR的STM做了進(jìn)一步改進(jìn)。STM的主要思想在于去創新,對于歷史幀足夠的實力,每一幀都編碼為key-value形式的feature。猜測當(dāng)前幀的時候結構,以當(dāng)前幀的key去和歷史幀的key做匹配更適合。匹配的方式是non-local的。這種non-local的匹配溝通協調,可以看做將當(dāng)前key高質量發展,每個坐標(biāo)上的C維特征,和歷史每一幀在這個坐標(biāo)上的C維特征做匹配高效節能。匹配得到的結(jié)果影響力範圍,作為一個soft的index,去讀取歷史value的信息新創新即將到來。讀取的特征和當(dāng)前幀的value拼接起來邁出了重要的一步,用于后續(xù)的猜測。
STM的特征匹配方式設施,提供了一種空間上的長依靠需求,類似于Transformer中,通過self-attention來做序列關(guān)聯(lián)組合運用。這種機(jī)制更讓我明白了,能夠很好地處理物體運(yùn)動、外觀變化積極、遮擋等探索。但也有一個問題堅持先行,就是缺乏時序性,缺少短時依靠競爭力。當(dāng)某一幀忽然出現(xiàn)和目標(biāo)相似的物體時,簡單產(chǎn)生誤召回狀況。在視頻場景中機製性梗阻,很多情況下,當(dāng)前幀臨近的幾幀全過程,對當(dāng)前幀的影響要大于更早的幀集成應用。基于這一點不負眾望,達(dá)摩院提出依靠前一幀結(jié)果高效流通,計算attention來約束當(dāng)前幀目標(biāo)猜測的位置,相當(dāng)于對短期依靠的建模精準調控。
具體的方法如下圖所示:
下圖為空間attention的可視化結(jié)果功能,可以看到大致對應(yīng)了前景的位置。
達(dá)摩院引入了語義分割中的感受野增強(qiáng)技術(shù)ASPP和精細(xì)化分割的微調(diào)(refinement)模塊解決。ASPP作用于memory讀取后的特征預期,用于融合不同感受野的信息,提升對不同尺度物體的處理能力攜手共進。

達(dá)摩院提出了一個簡單但是有效的練習(xí)策略共同,減少了練習(xí)階段和測試階段存在的差異,提升了很終效果經過。
原始STM練習(xí)時簡單化,會隨機(jī)從視頻中采樣3幀。這三幀之間的跳幀間隔明確了方向,隨著練習(xí)逐漸增大系統性,目的是增強(qiáng)模型魯棒性。但達(dá)摩院發(fā)現(xiàn)單產提升,這樣會導(dǎo)致練習(xí)時和測試時不一致便利性,因為測試時,是逐幀處理的行動力。為此提供有力支撐,在練習(xí)的很后階段,達(dá)摩院將跳幀間隔重新減小保供,以保證和測試時一致自行開發。
backbone:達(dá)摩院使用了ResNeST這個比較新的backbone,它可以無痛替換掉原STM的resnet責任。在結(jié)果上有比較明顯提升應用情況。
測試策略:達(dá)摩院使用了多尺度測試和modelensemble保護好。不同尺度和不同model的結(jié)果,在很終猜測的map上表現,做了簡單的等權(quán)重平均特點。
顯存優(yōu)化:達(dá)摩院做了一些顯存優(yōu)化方面的工作,使得STM在多目標(biāo)模式下結論,可以支持大尺度的練習(xí)和諧共生、測試,以及支持較大的memory容量適應性強。
數(shù)據(jù):練習(xí)數(shù)據(jù)上技術交流,達(dá)摩院使用了DAVIS、Youtube-VOS拓展,以及STM原文用到的靜態(tài)圖像數(shù)據(jù)庫創造更多。沒有其他數(shù)據(jù)。
達(dá)摩院的模型不斷進步,很終在test-challenge上取得了84.1的成績工藝技術。
在test-dev上的消融實驗。達(dá)摩院復(fù)現(xiàn)的STM達(dá)到了和原文一致的結(jié)果生產效率。在各種trick的加持下不同需求,得到了11個點的提升。
隨著互聯(lián)網(wǎng)技術(shù)保持穩定、5G技術(shù)等的發(fā)展總之,短視頻、視頻會議支撐作用、直播的場景越來越多研學體驗,視頻分割技術(shù)也將成為不可或缺的一環(huán)。比如最為突出,在視頻會議中落實落細,視頻分割可以正確區(qū)分前背景,從而對背景進(jìn)行虛化或替換高效化;在直播中製高點項目,用戶只需要站在綠幕前,算法就實時替換背景範圍和領域,實現(xiàn)一秒鐘換新直播間有所增加;在視頻編輯領(lǐng)域,可以輔助進(jìn)行后期制作更高要求。
Reference:

上一篇:淘寶pc端沒流量的原因
文章地址:http://61py.com/article/online/8956.html

- 1互聯(lián)網(wǎng)對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團(tuán)再因不正當(dāng)競爭敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領(lǐng)域!
- 32021互聯(lián)網(wǎng)十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒有永遠(yuǎn)的敵人只有永遠(yuǎn)的利益
- 8押唄進(jìn)駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟(jì)持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來改弦當(dāng)更張