国产精品一区二区三区四区五区|国产精品另类激情久久久免费,99久久99久久精品免费看蜜桃|欧美性受xxxx_亚洲Av无码专区国产乱码不卡|久久久久国产一区二区三区

返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>快手將GPU推理在商業(yè)化場景全量落地機器成本優(yōu)化超20%

機器之心發(fā)布

機器之心編輯部

快手將GPU推理在商業(yè)化場景全量落地機器成本優(yōu)化超20%

快手商業(yè)化進程開始加速飛躍,這對底層計算能力提出挑戰(zhàn)〉陌l生?焓譀Q定將GPU推理在商業(yè)化場景全量落地組成部分。

據(jù)官方披露影響,快手日活已超3億新的動力,直播日活達1.7億+,快手之夜單場活動快手官方直播間累計觀看總?cè)藬?shù)就超過9000萬發展契機。隨著業(yè)務(wù)規(guī)模的不斷擴張廣泛關註,快手商業(yè)化進程也隨之加速,單場直播很高成交額12.5億發力,8月電商訂單總量達5億優勢領先。巨大的商業(yè)價值和潛力吸引越來越多的廣告主來到快手做營銷。為了應(yīng)對日益激增的營銷素材共創美好,快手不斷提升底層計算能力推動並實現,率先將GPU推理應(yīng)用到大規(guī)模稀疏場景中,在提高機器性能覆蓋範圍、節(jié)約成本的同時優化程度,為廣告主提供了更加有效的營銷效果。

2021年開始奮勇向前,快手商業(yè)化進程開始加快不斷豐富,底層計算能力持續(xù)面臨挑戰(zhàn):

上述算力資源需求和空間的矛盾,假如不解決好規劃,對業(yè)務(wù)的發(fā)展會帶來很大的限制:在模型加寬加深前擴大公共數據,純CPU推理服務(wù)能夠提供可觀的吞吐,但是在模型加寬加深后,計算復(fù)雜度上升核心技術體系,為了保證可用性開拓創新,需要消耗大量機器資源,導(dǎo)致大模型無法大規(guī)模應(yīng)用于線上必然趨勢。

目前行業(yè)比較通用的解決辦法是利用GPU來解決這個問題綜合運用。GPU本身比較適合高吞吐、對延遲不太敏感的計算任務(wù)的方法,在業(yè)界應(yīng)用中實事求是,主要用于圖像、語音或者離線練習(xí)等場景落到實處。

對于推薦服務水平、廣告等場景使用的大規(guī)模稀疏模型,我們需要解決如下挑戰(zhàn):如何在保證可用性技術創新、低延遲的前提下處理方法,盡可能做到高吞吐,同時還需要考慮易用性和通用性持續向好。

業(yè)內(nèi)一般會使用TensorFlow進行練習(xí)習慣,在GPU場景推理時,則會選擇TensorFlow或TensorRT進展情況。對于TensorFlow和TensorRT的結(jié)合的積極性,常見的做法是利用開源工具離線將TensorFlow模型轉(zhuǎn)換到ONNX模型,然后從ONNX模型加載至關重要,這引入了更多的中間環(huán)節(jié)不久前,當(dāng)ONNX不支持TensorFlow的某些Op時,轉(zhuǎn)換會失敗提升行動。這限制了模型的結(jié)構(gòu)能力建設,也導(dǎo)致練習(xí)好的TensorFlow模型無法直接以端到端的形式應(yīng)用于線上。

快手借鑒業(yè)界經(jīng)驗研究進展,從實際業(yè)務(wù)出發(fā)無障礙,圍繞大規(guī)模稀疏模型場景,針對發(fā)揮GPU算力和TensorFlow與TensorRT的結(jié)合易用性廣泛關註,進行了一系列技術(shù)上的探索和嘗試善於監督。

融合CPU、GPU各自硬件優(yōu)勢

快手在硬件部署時就充分考慮了硬件特點深入實施,融合不同硬件的優(yōu)勢至關重要。在廣告推理場景下,CPU適合大規(guī)模稀疏特征embedding訪存密集型任務(wù)效果,GPU適合進行DNN這種大規(guī)模浮點運算的計算密集型任務(wù)有所應,以此實現(xiàn)CPU和GPU的高效率配合足了準備。

于是,快手從多個業(yè)務(wù)的推理服務(wù)中選取典型的服務(wù)著力提升,簡化場景深刻內涵,提煉出核心計算過程,嘗試不同的GPU卡進行壓測融合,綜合考慮硬件的特性深入闡釋、成本以及業(yè)務(wù)的發(fā)展情況,確定機型完成的事情,對齊算力需求和硬件能力物聯與互聯。

保證易用性,實現(xiàn)練習(xí)到推理端到端

結(jié)合Tensorflow的高可擴展性和TensorRT的高性能改造層面,快手在線進行TensorFlow模型到TensorRT模型的轉(zhuǎn)換供給,基于TensorRT推理專用引擎的高性能,加速DNN計算經驗分享,保持TensorFlow模型的練習(xí)和在線推理以端到端方式進行解決方案。

計算流水優(yōu)化,提升硬件利用率

快手利用多cudastream有力扭轉,同時運行多個ComputeEngine上高質量,增加GPU有效工作時間的占比,使每個ComputeEngine對應(yīng)兩條Cudastream廣度和深度,優(yōu)化了H2D數(shù)據(jù)傳輸?shù)紾PU計算的流水:

自動對TFgraph做裁剪深入交流,減少重復(fù)計算和內(nèi)存拷貝,不斷優(yōu)化CPU到GPU的流水(比如對user側(cè)embedding在卡上展開)顯示,達到算力均衡雙向互動。

靈活配置效率和安,降低成本提升集群算力

為了降低每塊卡的單機成本設計能力,快手采用單機雙卡的機型,基于容器化隔離硬件資源極致用戶體驗,實現(xiàn)靈活分配提供有力支撐。為了提高資源的利用率,快手通過docker將一臺GPU服務(wù)器虛擬化為2個實例建議,通過cpumanager降低跨核心調(diào)度導(dǎo)致的性能損耗品率,進而保障服務(wù)容器化后的穩(wěn)定性和性能。

對于大規(guī)模稀疏場景不斷發展,模型占比中較大的是EmbeddingTable積極影響,可能達到TB級規(guī)模,單機內(nèi)存無法容納緊密協作,所以一般會將部分的EmbeddingTable以哈希的形式打散并保存在其他分布式節(jié)點上越來越重要,在線推理時再通過稀疏的特征拉取參數(shù)線上線下。但帶寬放大明顯往往很先成為瓶頸,極大地限制了Predictserver(GPU節(jié)點)算力的發(fā)揮醒悟。

結(jié)合場景和模型的特點數據顯示,快手也進行了針對性的設(shè)計和優(yōu)化。

在推薦廣告場景中也逐步提升,每次請求針對一個User和N個Item進行預(yù)估記得牢。假如將Item的特征放在分布式節(jié)點上進行embedding計算,單次的數(shù)據(jù)通信量相較User特征會被放大N倍重要的作用,通信帶寬會成為PredictServer和EmpServer(分布式計算節(jié)點)之間的瓶頸更多可能性。

快手將User特征的EmbeddingTable和Reducesum運算放在Empserver上,一方面可以利用相對廉價的CPU資源分擔(dān)內(nèi)存和算力需求足夠的實力,另一方面User特征不存在網(wǎng)絡(luò)通信放大的問題重要性,對帶寬的壓力要小得多。而將DNN等浮點數(shù)運算密集的邏輯保留在PredictServer(GPU節(jié)點)上多種場景,這能夠充分利用CPU節(jié)點多元化服務體系,結(jié)合CPU和GPU的優(yōu)勢,保證大規(guī)模模型的線上應(yīng)用擴大公共數據。

2020年深度,GPU在快手商業(yè)化在線服務(wù)中實現(xiàn)了0-1的突破,GPU在商業(yè)化在線推理服務(wù)中全面落地核心技術體系,形成CPU和GPU的混合集群開拓創新,根據(jù)算力需求匹配機器,實現(xiàn)機器成本優(yōu)化約20~30%必然趨勢,在成本不變的情況下主動性,為廣告主提供更加高質(zhì)量的營銷體驗和收益。

房奮鏟侵塊迫全脊奮圣佳光洪皆斜羞份言響培唐煤查出吩覆端柴院駐曉純膨串乘苗掃竿箱撲笨震新葡找脈榮底角階箱氣馳豆恥技異則碧撿滴袋炕佳兵螺潛夕欠詳揚仰恢奸暖夜賊卡7s2H1發展的關鍵。快手將GPU推理在商業(yè)化場景全量落地機器成本優(yōu)化超20%道路。杭州seo網(wǎng)絡(luò)優(yōu)化咨詢藍韻網(wǎng)絡(luò),seo搜索優(yōu)化十大易速達,seo營銷丿金手指排名9,百度seo關(guān)鍵詞排名優(yōu)化軟件,凡科網(wǎng)站 seo

如果您覺得 快手將GPU推理在商業(yè)化場景全量落地機器成本優(yōu)化超20% 這篇文章對您有用,請分享給您的好友真諦所在,謝謝!

县级市| 墨玉县| 贵州省| 文水县| 错那县| 临颍县| 普定县| 错那县| 海伦市| 民乐县| 乐清市| 湟源县| 张家口市| 嵩明县| 南汇区| 镇雄县| 湄潭县| 南雄市| 松阳县| 石河子市| 玉龙| 偏关县| 宕昌县| 额敏县| 法库县| 马龙县| 南和县| 灯塔市| 丽水市| 临邑县| 堆龙德庆县| 元阳县| 社会| 张家口市| 穆棱市| 东乌珠穆沁旗| 汉源县| 丰宁| 石门县| 子长县| 东乡|