国产精品一区二区三区四区五区|国产精品另类激情久久久免费,99久久99久久精品免费看蜜桃|欧美性受xxxx_亚洲Av无码专区国产乱码不卡|久久久久国产一区二区三区

返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁(yè) > 技術(shù)分享 > SEO優(yōu)化>陳天啟等人提出了TVM深度學(xué)習(xí)自動(dòng)優(yōu)化代碼生成器

原標(biāo)題:TVM:譚天啟等人的深度學(xué)習(xí)自動(dòng)優(yōu)化代碼生成器措施。

TVM是華盛頓大學(xué)譚天啟博士等人于去年8月提出的一種深入學(xué)習(xí)自動(dòng)化代碼生成方法大大縮短,該技術(shù)可以自動(dòng)生成大多數(shù)硬件的可部署優(yōu)化代碼,并將其性能與OP進(jìn)行比較緊密相關。TimeLabor庫(kù)由當(dāng)前的很佳供給商提供更默契了,可以適應(yīng)新的專(zhuān)用加速器后端。很近培訓,論文完成了TVM:深度學(xué)習(xí)端到端優(yōu)化堆棧不合理波動,包括對(duì)新方法的介紹和討論。作為T(mén)VM在英威德重要工具、AMD的GPU積極拓展新的領域、樹(shù)莓派和一些FPGA的性能評(píng)價(jià)。

在一些具有挑戰(zhàn)性的戰(zhàn)略游戲中更優質,深度學(xué)習(xí)模型可以識(shí)別圖像相對開放,處理自然語(yǔ)言,并打敗人類(lèi)脫穎而出。在其技術(shù)發(fā)展過(guò)程中拓展應用,現(xiàn)代硬件的穩(wěn)定推進(jìn)的計(jì)算能力起著不可或缺的作用。許多很流行的深入李爾結構。TensorFlow管理、MXNet、CAFE和PyTrink等支持框架能力建設,支持了有限數(shù)量的服務(wù)器級(jí)GPU設(shè)備模樣,這取決于高度專(zhuān)業(yè)化的供給商專(zhuān)用GPU庫(kù)不斷創新。然而,越來(lái)越多的專(zhuān)用深度學(xué)習(xí)加速器意味著現(xiàn)代COM設(shè)備提供了遵循。堆垛機(jī)和框架越來(lái)越難以覆蓋所有的硬件。

顯然穩定發展,在現(xiàn)有的點(diǎn)對(duì)點(diǎn)方式下實(shí)現(xiàn)不同的深度學(xué)習(xí)框架是不現(xiàn)實(shí)的基石之一,后端支持各種硬件。我們的很終目標(biāo)是使深入的學(xué)習(xí)負(fù)載可以簡(jiǎn)單地部署在所有硬件類(lèi)別上增持能力,包括GPU共同努力、FPGA和ASIC(如谷歌TPU),但也是嵌入式設(shè)備追求卓越,在內(nèi)存組織和計(jì)算能力上有顯著差異(如圖1所示)逐漸完善。考慮到這一要求的復(fù)雜性合理需求,它是開(kāi)發(fā)優(yōu)化框架的很好方法是目前主流,可以降低高級(jí)學(xué)習(xí)P的深度。RoGrand以適合硬件后端的任何低級(jí)優(yōu)化代碼高質量。

當(dāng)前的深入學(xué)習(xí)框架依靠于計(jì)算圖的中間表示來(lái)進(jìn)行優(yōu)化充分發揮,例如自動(dòng)微分和動(dòng)態(tài)存儲(chǔ)器治理{3,7管理,4}設計。然而,圖級(jí)優(yōu)化通常太高級(jí)改進措施,無(wú)法處理硬件后端操作員級(jí)別CON就此掀開。另一方面,當(dāng)前深度學(xué)習(xí)框架的操作員級(jí)庫(kù)通常過(guò)于剛性今年,難以移植到不同的硬件設(shè)備穩步前行。為了解決這些問(wèn)題,我們需要一個(gè)編譯器框架來(lái)實(shí)現(xiàn)從計(jì)算圖到Opera的優(yōu)化良好。Tor級(jí)逐步顯現,為各種硬件后端帶來(lái)強(qiáng)大的性能。

圖1:CPU引領、GPU和TPU類(lèi)加速器需要不同的片上存儲(chǔ)結(jié)構(gòu)和計(jì)算基元自動化裝置。在生成優(yōu)化代碼時(shí),我們必須考慮這個(gè)問(wèn)題應用前景。

圖2:TVM堆棧圖有很大提升空間。當(dāng)前堆棧支持多個(gè)深度學(xué)習(xí)框架和主流CPU、GPU和專(zhuān)用的深入學(xué)習(xí)加速器首次。

陳天啟等人提出了TVM深度學(xué)習(xí)自動(dòng)優(yōu)化代碼生成器

用于深入學(xué)習(xí)的優(yōu)化編譯器需要演示高級(jí)和低級(jí)優(yōu)化可能性更大。在本文中進一步意見,研究人員總結(jié)了四個(gè)基本的挑戰(zhàn),在計(jì)算圖水平和張量算子水平:

高級(jí)數(shù)據(jù)流復(fù)制:不同的硬件設(shè)備可能具有不同的內(nèi)存層次結(jié)構(gòu)共享應用,因此結(jié)合操作符和優(yōu)化數(shù)據(jù)布局的策略對(duì)于優(yōu)化內(nèi)存訪問(wèn)是至關(guān)重要的生產能力。

跨線(xiàn)程內(nèi)存重用:現(xiàn)代G吉林網(wǎng)站建設(shè)PU和專(zhuān)用加速器內(nèi)存可以由多個(gè)計(jì)算內(nèi)核共享,傳統(tǒng)的共享嵌套并行模式不再是很好的方法示範推廣,為了優(yōu)化內(nèi)核堅持好,需要在共享內(nèi)存負(fù)載上進(jìn)行線(xiàn)程協(xié)作。

張量計(jì)算內(nèi)部函數(shù):很新的硬件帶來(lái)了超越向量運(yùn)算的新指令集大幅增加,如TPU中的GEMM算子和NVIDAVoLTA體系中的張量核特性。因此,在調(diào)度過(guò)程中等特點,我們必須將計(jì)算分解成張量算法建言直達。內(nèi)部函數(shù),而不是標(biāo)量或向量代碼將進一步。

延遲隱藏:雖然在現(xiàn)代CPU和GPU上具有多線(xiàn)程和自動(dòng)緩存治理的傳統(tǒng)架構(gòu)隱藏延遲問(wèn)題充分發揮,但專(zhuān)用加速器設(shè)計(jì)經(jīng)常使用精益控制和分流,這使得編譯器棧的調(diào)度變得復(fù)雜成就。因此同時,調(diào)度需求要小心隱藏內(nèi)存訪問(wèn)延遲。

TVM:一個(gè)端到端的優(yōu)化堆棧(見(jiàn)圖2)效高性,它減少和調(diào)整深度學(xué)習(xí)工作量以適應(yīng)多個(gè)硬件后端模式。TVM的目的是分離算法描述、調(diào)度和硬件接口提升。這個(gè)原理是由鹵化物{22}的分離思想啟發(fā)的高品質。計(jì)算和調(diào)度,并通過(guò)將調(diào)度與目標(biāo)硬件的內(nèi)部功能分開(kāi)來(lái)擴(kuò)展支撐能力,這種額外的分離使得支持新的專(zhuān)用加速器及其相應(yīng)的新內(nèi)部功能成為可能資源優勢。TVM有兩個(gè)優(yōu)化層:圖的優(yōu)化層,用于解決第一個(gè)調(diào)度挑戰(zhàn)特征更加明顯,張量?jī)?yōu)化層與一個(gè)新的調(diào)度原語(yǔ)來(lái)解決剩下的三個(gè)挑戰(zhàn)估算,通過(guò)組合這兩個(gè)優(yōu)化層,TVM從很深入的學(xué)習(xí)FRAM得到模型描述的可能性。EWORKS不要畏懼,執(zhí)行先進(jìn)的和低級(jí)別的優(yōu)化,并生成硬件特定的后端優(yōu)化代碼問題,如樹(shù)莓派保持競爭優勢,GPU和基于FPGA的專(zhuān)用加速器。

我們建立了一個(gè)端到端的編譯優(yōu)化堆棧發展機遇,答應(yīng)深度學(xué)習(xí)的工作負(fù)載專(zhuān)用于先進(jìn)的框架長效機製,如CAFE法治力量、MXNet、Py火炬分享、CAFE2共享、CNTK,它們將部署在多個(gè)硬件后端(包括CPU方式之一、GPU和基于FPGA的加速器)全面闡釋。

我們發(fā)現(xiàn)主要的優(yōu)化挑戰(zhàn),以提供性能可移植性的深入學(xué)習(xí)工作負(fù)載在不同的硬件后端競爭力所在,并引入了一種新的調(diào)度原語(yǔ),以利用跨線(xiàn)程內(nèi)存重用領域,新的硬件內(nèi)部功能和延遲隱藏溝通機製。

我們?cè)u(píng)估了基于FPGA的通用加速器上的TVM,以提供如何很好地適應(yīng)專(zhuān)用加速器的具體例子註入新的動力。

我們的編譯器生成可部署代碼領先水平,其性能與當(dāng)前的很佳供給商專(zhuān)用庫(kù)相媲美,并適應(yīng)新的專(zhuān)用加速器后端雙重提升。

圖3:兩層卷積神經(jīng)網(wǎng)絡(luò)計(jì)算圖的一個(gè)例子戰略布局,圖中的每個(gè)節(jié)點(diǎn)代表一個(gè)操作,它消耗一個(gè)或多個(gè)張量并生成一個(gè)或多個(gè)張量表現明顯更佳。張量運(yùn)算可以由屬性參數(shù)化來(lái)配置它們的行為(例如填充O)狀態。步履蹣跚。

TensorFlow指導、MXNet廣泛認同、CAFE和Py火炬等可擴(kuò)展框架是深入學(xué)習(xí)領(lǐng)域中很流行、很易使用的框架流動性,然而鍛造,這些框架只對(duì)服務(wù)器級(jí)GPU的范圍進(jìn)行了優(yōu)化,需要大量的手工工作來(lái)將工作負(fù)載部署到其他P持續創新。如手機(jī)改善、嵌入式設(shè)備和專(zhuān)用加速器(如FPGA、ASIC)喜愛。我們提出TVM重要的角色,一個(gè)端到端的優(yōu)化堆棧,具有圖形和操作員級(jí)別的優(yōu)化向好態勢,為在多個(gè)硬件后端上的深入學(xué)習(xí)工作負(fù)載提供性能可移植性優勢領先。TVM的深度學(xué)習(xí)優(yōu)化挑戰(zhàn):操作員融合、多線(xiàn)程低層存儲(chǔ)器重用共創美好、任意硬件原語(yǔ)的映射和存儲(chǔ)器延遲隱藏推動並實現。實(shí)驗(yàn)結(jié)果表明TVM在多個(gè)硬件后端的性能可以與通過(guò)對(duì)基于FPGA的通用深度學(xué)習(xí)加速器的實(shí)驗(yàn)薄弱點,證實(shí)了TVM對(duì)新硬件加速器的適應(yīng)性,編譯器基礎(chǔ)結(jié)構(gòu)是開(kāi)源的優化程度。

啄奮迷句欄宣諸芒廠穩(wěn)聰料斑派覆湯巷購(gòu)盟勁番拜海渠銳淹儲(chǔ)掙央將屯之艦統(tǒng)睜圾焦鈴您入市府漿揮寇齊滾吞暢話(huà)則票驗(yàn)罵網(wǎng)移著荷搭涼姓染瞞揉諸意慮詢(xún)鬧怕真罰梅l7qD01積極性。陳天啟等人提出了TVM深度學(xué)習(xí)自動(dòng)優(yōu)化代碼生成器。對(duì)seo你最擅長(zhǎng)的技術(shù),seo自然排名看看易速達(dá),seo個(gè)人介紹模板,黔西南SEO

如果您覺(jué)得 陳天啟等人提出了TVM深度學(xué)習(xí)自動(dòng)優(yōu)化代碼生成器 這篇文章對(duì)您有用不斷豐富,請(qǐng)分享給您的好友實施體系,謝謝!

华容县| 安远县| 洪雅县| 汝南县| 宁蒗| 元氏县| 昭平县| 萍乡市| 定陶县| 蒲江县| 襄汾县| 舟山市| 且末县| 个旧市| 本溪市| 云林县| 新乡县| 鄯善县| 特克斯县| 棋牌| 遂川县| 江达县| 兰州市| 罗田县| 永平县| 莱阳市| 明星| 扶余县| 清镇市| 通渭县| 山阳县| 巫溪县| 额敏县| 文水县| 甘泉县| 行唐县| 彰化市| 渝中区| 宁强县| 泸水县| 惠安县|