一级a视频,夫妇交换3中文字幕

您的位置：首頁 > 周刊 > 產(chǎn)經(jīng) > IT互聯(lián)網(wǎng)

快手AI技術(shù)副總裁鄭文：短視頻每個環(huán)節(jié)都用到了深度學(xué)習(xí)

出處：作者：魏蔚網(wǎng)編：產(chǎn)經(jīng)中心 2019-04-28

大中小
收藏
分享
打印
手機(jī)網(wǎng)頁版

X 分享到微信朋友圈

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，

使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

微信截圖_20190428140926

4月27日，清華大學(xué)108周年校慶之際，清華大學(xué)大數(shù)據(jù)研究中心、清華-快手未來媒體數(shù)據(jù)聯(lián)合研究院共同主辦《清華大數(shù)據(jù)論壇——深度學(xué)習(xí)技術(shù)與應(yīng)用》，探討分享深度學(xué)習(xí)技術(shù)與應(yīng)用的最新進(jìn)展。

清華大學(xué)-快手未來媒體數(shù)據(jù)聯(lián)合研究院于2018年4月正式成立。作為清華大學(xué)校級科研機(jī)構(gòu)，研究院充分利用清華大學(xué)的領(lǐng)先技術(shù)和快手多年的行業(yè)積累，面向多個領(lǐng)域開展基礎(chǔ)和應(yīng)用研究、開發(fā)、集成和快速迭代，共同探討一系列未來媒體課題，讓技術(shù)更好賦能用戶，實(shí)現(xiàn)人與人之間更精準(zhǔn)的連接。

清華大學(xué)軟件學(xué)院2001級的校友、清華-快手未來媒體數(shù)據(jù)聯(lián)合研究院副院長、快手AI技術(shù)副總裁鄭文作了題為《深度學(xué)習(xí)在短視頻領(lǐng)域的應(yīng)用和展望》的分享。

以下為演講的核心內(nèi)容：

作為一個日活超過1.6億的短視頻APP，快手的使命是“用科技提升每一個人獨(dú)特的幸福感”。這里有兩個關(guān)鍵詞，一是“每一個人”，這說明快手的價值觀是非常普世的，但我們同時也強(qiáng)調(diào)每個人的幸福感是“獨(dú)特的”。光靠人工運(yùn)營很難達(dá)到針對每個人的服務(wù)，需要通過人工智能技術(shù)，特別是近幾年有所突破的深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)。

目前快手是通過記錄來提升幸福感的，這可以從兩個方面來體現(xiàn)。首先，用戶希望能看到更廣闊的世界。第二，用戶也有分享自己，被更廣闊的世界看到的需求。

但是這里面臨一個挑戰(zhàn)，現(xiàn)在快手累計(jì)擁有超過 80 億條視頻與數(shù)億用戶，在這兩個海量的數(shù)字面前，如何有效分配注意力？過去，注意力一般會集中在所謂的“爆款視頻”里，但在爆款視頻之下，還有大量可能包含了非常豐富的信息、類別多樣化的內(nèi)容，這種“長尾視頻”往往很難被別人注意到。如此，一些需求小眾，或者興趣比較細(xì)分的群體往往很難找到他們想要的內(nèi)容。

這個挑戰(zhàn)決定了我們必須要依賴于深度學(xué)習(xí)為主的AI技術(shù)解決該問題，代替人工實(shí)現(xiàn)內(nèi)容匹配的分發(fā)?？焓趾茉玳_始就在AI相關(guān)技術(shù)方面做了很多積累，從視頻生產(chǎn)到分發(fā)每一個環(huán)節(jié)都有大量深度學(xué)習(xí)的應(yīng)用。

微信截圖_20190428140856

內(nèi)容生產(chǎn)

快手希望通過 AI 技術(shù)使得記錄更加豐富有趣，基于這個目標(biāo)，我們開發(fā)了大量多媒體和 AI 技術(shù)，比如背景分割、天空分割、頭發(fā)分割，人體關(guān)鍵點(diǎn)、人臉關(guān)鍵點(diǎn)、手勢關(guān)鍵點(diǎn)檢測等等，并將它們應(yīng)用在魔法表情中。

快手用戶跟中國互聯(lián)網(wǎng)用戶分布非常一致，中國互聯(lián)網(wǎng)用戶里面有很大一部分使用的手機(jī)都是中低端手機(jī)，算力有限。而先進(jìn)的 AI 技術(shù)對設(shè)備的計(jì)算量的要求極高，為了讓先進(jìn)的技術(shù)被最多的用戶體驗(yàn)到，快手對底層平臺進(jìn)行定制化開發(fā)，基于快手自研的 YCNN 深度學(xué)習(xí)推理引擎及媒體引擎，讓上述技術(shù)在大多數(shù)機(jī)型上都能高效運(yùn)行，并針對不同機(jī)型、不同硬件進(jìn)行了適配和優(yōu)化。

快手也希望將內(nèi)容質(zhì)量變得更高，研發(fā)并應(yīng)用了很多圖像增強(qiáng)技術(shù)。例如，用戶在光線很暗的環(huán)境下拍攝，產(chǎn)出的視頻往往會丟失信息和細(xì)節(jié)，通過暗光增強(qiáng)技術(shù)，可以將這些細(xì)節(jié)恢復(fù)。

接下來是快手近期在內(nèi)容生產(chǎn)方面研發(fā)的一些具體的深度學(xué)習(xí)技術(shù)。三維人臉技術(shù)能夠針對單張人臉圖像恢復(fù)出人臉的三維信息，一方面可以實(shí)現(xiàn)對人臉的一些修改，比如打光、做一些表情、實(shí)現(xiàn)三維變臉特效；另一方面，通過三維人臉信息，我們可以提取出人的表情變化，然后把表情遷移到虛擬的卡通形象上，效果類似于 iPhoneX 推出的 Animoji 功能，但 iPhoneX 有結(jié)構(gòu)光攝像頭，且運(yùn)行 Animoji 需要很強(qiáng)大的算力，我們通過技術(shù)研發(fā)，在普通攝像頭、配置較低的手機(jī)上也能實(shí)現(xiàn)類似功能。

剛才也提到了語義分割技術(shù)，人像分割技術(shù)能把人像和背景區(qū)分開，分別對人像和背景做特效，或者進(jìn)行背景替換，還可以做人像虛化；頭發(fā)分割，可以把頭發(fā)區(qū)域分割出來，做染發(fā)效果。天空分割技術(shù)則可以讓天空區(qū)域變得更加超現(xiàn)實(shí)、更加夢幻。

人體姿態(tài)估計(jì)則是預(yù)測人的關(guān)節(jié)點(diǎn)位置，利用這一技術(shù)，我們可以給人體肢體上加特效，或者修改人的體型，做美體瘦身功能。此外，我們還能重構(gòu)出人體的三維信息，用于控制卡通形象。

手勢檢測是把各種特定的不同手形檢測出來，實(shí)現(xiàn)「控雨」等玩法。另外還有 AR 相機(jī)姿態(tài)估計(jì)，背后是快手自研的 3D 引擎，并在其基礎(chǔ)上添加編輯器模塊、渲染模塊、肢體模塊、聲音模塊等，來實(shí)現(xiàn)模型精致而自然的光感、材質(zhì)。

在音視頻方面，我們應(yīng)用了很多智能算法，比如需要視頻盡可能清晰，但同時也要求傳輸流暢，這就需要針對視頻復(fù)雜度做一些自適應(yīng)優(yōu)化。另外，我們也會對圖像進(jìn)行分析，比如視頻里面人臉的區(qū)域往往對大家的觀感影響最大，我們會把人臉的區(qū)域檢測出來，將碼率做得更高，使得整體觀感獲得很大的提升。

我們也會檢測圖像質(zhì)量，比如視頻生產(chǎn)過程中存在一些導(dǎo)致圖像質(zhì)量較低的因素，如拍攝沒有對好焦，鏡頭長期沒有擦拭，或者視頻經(jīng)過多次上傳和壓縮而產(chǎn)生塊狀瑕疵。我們會把這些問題通過 AI 算法檢測出來，一方面提醒用戶拍攝的時候注意這些問題，另一方面在做視頻推薦時也會對高質(zhì)量視頻進(jìn)行一些傾斜。

內(nèi)容理解

內(nèi)容生產(chǎn)環(huán)節(jié)完成后，視頻會被上傳到后端服務(wù)器，這里我們需要對視頻內(nèi)容進(jìn)行更深層次的理解。視頻的內(nèi)容理解會用在很多方面，比如內(nèi)容安全、原創(chuàng)保護(hù)、推薦、搜索、廣告等等，這里大概分為兩個階段。

首先是感知階段，機(jī)器會從人臉、圖像、音樂、語音四個維度對視頻信息進(jìn)行理解。

人臉是一個很重要的維度，因?yàn)槿四樛巳怂P(guān)心的最主要的部分，我們會對人臉區(qū)域進(jìn)行檢測，識別年齡、性別、表情等。

另外一個維度是圖像層面，我們會對圖像進(jìn)行分類，如圖像的場景是什么；此外也會檢測圖像中有哪些物體，還會進(jìn)行圖像質(zhì)量評估，以及利用 OCR 技術(shù)從圖像中提取文字。

音樂是影響視頻感染力很重要的一部分，我們可以從視頻里識別出音樂類型，甚至可以對音樂進(jìn)行結(jié)構(gòu)化分析，分離伴奏和歌唱部分。

語音也是視頻非常重要的維度，往往從圖像中可能并不能很好地得到視頻所傳達(dá)的信息，這時候語音就非常重要，我們會把語音識別出來轉(zhuǎn)化成文字，也會通過語音去識別人物的身份、年齡、性別等等。

第二個階段是推理階段，我們會把這些不同維度的信息進(jìn)行多模態(tài)融合，推理出更高層次的語音信息，或者對視頻進(jìn)行情感識別。我們也用到知識圖譜技術(shù)，把視頻里的知識存儲在知識圖譜里表達(dá)出來。通過知識圖譜的推理，能夠得到一些更高層、更深入的信息。

在內(nèi)容理解方面我們也做了一些比較具體的技術(shù)，如快手開發(fā)了一套視頻標(biāo)簽系統(tǒng)，可以對視頻里出現(xiàn)的大多數(shù)內(nèi)容和場景進(jìn)行分類。在快手語音識別功能模塊，我們采用深度學(xué)習(xí)算法，結(jié)合上下文語境模塊，使得識別精度得到很大提升。

一方面，我們需要理解視頻內(nèi)容，另一方面，我們也需要對用戶進(jìn)行理解，包含用戶公開的年齡、性別等信息以及用戶在實(shí)時使用快手時產(chǎn)生一些行為數(shù)據(jù)。這些數(shù)據(jù)都會傳送到后端的深度學(xué)習(xí)模型里，訓(xùn)練出對用戶理解的向量。通過這些向量，我們可以預(yù)測用戶的興趣以及他與其他用戶之間的關(guān)系。

最后我們得到對用戶的描述以及對視頻的理解，用戶和視頻之間的匹配就會產(chǎn)生萬億級別特征的大數(shù)據(jù)，這個大數(shù)據(jù)會被用在實(shí)時在線的推薦系統(tǒng)里，預(yù)測用戶會對什么樣的視頻感興趣。另外我們也會對社區(qū)里的內(nèi)容進(jìn)行排序，比如前面提到如何分配注意力，我們希望注意力分配的差距不要太大，所以會根據(jù)基尼系數(shù)調(diào)整視頻內(nèi)容的分配情況。此外，還會考慮到內(nèi)容的安全性、多樣性以及原創(chuàng)保護(hù)等因素。

快手希望跟高校、學(xué)界的老師同學(xué)進(jìn)一步加強(qiáng)深度合作，充分利用快手的海量數(shù)據(jù)和強(qiáng)大算力，共同推進(jìn)深度學(xué)習(xí)技術(shù)，挖掘未來更多的可能性，提升大眾幸福感，這也是成立清華大學(xué)-快手未來媒體數(shù)據(jù)聯(lián)合研究院的愿景。

深藍(lán)智庫企業(yè)社會責(zé)任峰會智慧康養(yǎng)論壇十大商業(yè)品牌商業(yè)高峰論壇金融業(yè)十大品牌酒業(yè)價值榜餐飲十大品牌

@北京商報

新聞排行