福利第一页,高清无码视频免费观看的,看片软件APP

您的位置：首頁 > 數(shù)據(jù)雜志

信息流的未來與人工智能的機(jī)會(huì)

出處：作者：網(wǎng)編：胡立群 2019-07-26

大中小
收藏
分享
打印
手機(jī)網(wǎng)頁版

X 分享到微信朋友圈

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，

使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

在當(dāng)今社會(huì)，尤其是融合了社交內(nèi)容的移動(dòng)互聯(lián)網(wǎng)時(shí)代，如何更好地連接人與信息，已成為人類社會(huì)的一個(gè)重要基礎(chǔ)命題。個(gè)性化的信息流已經(jīng)成為一種新的連接方式，人與信息、萬物互聯(lián)。

那么，在信息流產(chǎn)品平臺(tái)與服務(wù)這個(gè)領(lǐng)域里，如何高效地處理、分析、挖掘、理解和組織海量文字、圖片（視頻），更好地連接人與信息呢？并根據(jù)對(duì)用戶的深度理解，來進(jìn)行信息的智能推送呢？無疑，人工智能具有巨大的潛力。從內(nèi)容創(chuàng)作、過濾、分發(fā)、消費(fèi)以及互動(dòng)的每個(gè)環(huán)節(jié)，我們都可以使用大規(guī)模機(jī)器學(xué)習(xí)，包括文本分析、自然語言理解、計(jì)算機(jī)視覺和數(shù)據(jù)挖掘等技術(shù)，向用戶進(jìn)行智能推送。同時(shí)，我們還可以基于信息流豐富多樣的應(yīng)用場(chǎng)景和用戶，持續(xù)累積大量的訓(xùn)練樣本和數(shù)據(jù)，讓機(jī)器學(xué)習(xí)系統(tǒng)形成閉環(huán)，不斷地改善和進(jìn)化，在機(jī)器人輔助內(nèi)容創(chuàng)作、自動(dòng)視頻分析與理解，個(gè)性化推薦和問答等方面發(fā)展人工智能核心技術(shù)。本文將分享筆者對(duì)人工智能發(fā)展前景的一些看法，包括人工智能的本質(zhì)、近幾年重要的技術(shù)發(fā)展，以及企業(yè)應(yīng)該如何建立人工智能的核心戰(zhàn)略競(jìng)爭(zhēng)力。

連接人與信息：從結(jié)繩記事到超級(jí)智能

自古以來，人類社會(huì)一個(gè)最重要的基礎(chǔ)需求，就是人與信息的連接。最早的信息傳遞用的是“結(jié)繩記事”技術(shù)。那時(shí)候還沒有語言，有大的事情就結(jié)一個(gè)大的結(jié)，小的事情就結(jié)一個(gè)小的結(jié)。公元100年左右，蔡倫發(fā)明了紙，后來有了書。11世紀(jì)40年代，畢昇發(fā)明了活字印刷術(shù)，為印書提供了便利，讓書實(shí)現(xiàn)了比較廣泛的傳播。在很長(zhǎng)一段時(shí)間內(nèi)，書和紙是人類社會(huì)傳播信息的主要工具。20世紀(jì)90年代，數(shù)字圖書館出現(xiàn)，美國(guó)開始把全國(guó)的圖書數(shù)字化，開始出現(xiàn)搜索、管理、影像分析等。在互聯(lián)網(wǎng)時(shí)代，網(wǎng)站成為紙張之外的另一個(gè)主要信息來源。但人只能定點(diǎn)于個(gè)人電腦(PC)上。雖然有了搜索引擎和相對(duì)應(yīng)的廣告引擎，但大部分搜索還受限于它的不能移動(dòng)性。當(dāng)我們走路或者外出時(shí)，往往還會(huì)隨身攜帶雜志或報(bào)紙。

最近十年，移動(dòng)互聯(lián)網(wǎng)與智能手機(jī)不再受限于固定的地理位置，這讓紙制印刷品進(jìn)一步減少。尤其在近幾年，這一趨勢(shì)明顯，很多傳統(tǒng)媒體、傳統(tǒng)出版社都轉(zhuǎn)型為網(wǎng)絡(luò)媒體。

在PC互聯(lián)網(wǎng)時(shí)代，搜索引擎可以借著爬蟲軟件在網(wǎng)頁上抓取信息，但到了移動(dòng)互聯(lián)網(wǎng)時(shí)代，很多信息都藏在應(yīng)用里面，雖然不能利用搜索引擎將每個(gè)App里的信息輕松“爬出”，但是在這股潮流中涌現(xiàn)出一些新的應(yīng)用，讓我們能夠重新定義信息的源頭。例如今日頭條有“頭條號(hào)”。我們可以與很多信息供應(yīng)商、內(nèi)容提供商、媒體創(chuàng)作者一起來構(gòu)建新的內(nèi)容平臺(tái)和生態(tài)系統(tǒng)。以前我們需要做很多信息抽取的工作，現(xiàn)在可以直接拿到結(jié)構(gòu)化的數(shù)據(jù)。

到了今天，更多的公司開始大規(guī)模使用人工智能做個(gè)性化推薦。因?yàn)槿藗兪褂弥悄苁謾C(jī)有了很多碎片化時(shí)間，產(chǎn)生了學(xué)習(xí)、娛樂等需求。這些需求也產(chǎn)生了各式各樣的應(yīng)用場(chǎng)景。我們發(fā)現(xiàn)，在推薦引擎領(lǐng)域有了一個(gè)將人與信息相連接的新機(jī)會(huì)。搜索引擎里所有的排序算法、內(nèi)容分析等技術(shù)，都可用于進(jìn)一步的個(gè)性化精準(zhǔn)推薦，從而變成信息流。“信息流”是一種新的、更智能的方式，讓人能夠隨時(shí)隨地在需要時(shí)得到所需要的信息。人工智能不但能夠做個(gè)性化推薦，還能夠不受地域限制享受服務(wù)。我們的目標(biāo)就是——用無所不在的超級(jí)機(jī)器智能幫助人類創(chuàng)作、發(fā)現(xiàn)、使用、分發(fā)信息，并進(jìn)行社交場(chǎng)景的互動(dòng)。

隨著技術(shù)的進(jìn)一步發(fā)展，會(huì)出現(xiàn)超級(jí)智能，人工智能與人可以互相幫助，從而讓彼此變得更聰明。人工智能需要很多標(biāo)注數(shù)據(jù)和訓(xùn)練樣本，在信息流的場(chǎng)景，人們有更多機(jī)會(huì)拿到更多標(biāo)注數(shù)據(jù)以及更細(xì)顆粒度的標(biāo)注，來幫助人們做自然語言理解、自然語言生成、圖像視頻理解和圖像視頻生成。人將與人工智能進(jìn)一步共同進(jìn)化。這是一個(gè)非常值得期待的未來。

人工智能的本質(zhì)是軟件產(chǎn)業(yè)革命

在過去五年，人工智能快速發(fā)展。之前，人工智能雖然有機(jī)器學(xué)習(xí)，但往往受限于傳統(tǒng)思維。現(xiàn)在，研究人員不再受限過去20年的經(jīng)驗(yàn)和成就，而是更大膽地開始創(chuàng)新。

今天人工智能的本質(zhì)其實(shí)是軟件產(chǎn)業(yè)的革命。軟件正在改變?nèi)澜?Software is eating the world)，而軟件產(chǎn)業(yè)本身正在被人工智能的發(fā)展所顛覆。越來越多的軟件開發(fā)不再只是依靠軟件工程師的想法、邏輯和認(rèn)知，而這些軟件的核心已變成非常大的模型，有上千億的參數(shù)，有各式各樣的大數(shù)據(jù)。通過訓(xùn)練各種各樣的模型，包含統(tǒng)計(jì)模型、符號(hào)、邏輯、知識(shí)表達(dá)，軟件產(chǎn)業(yè)已被人工智能化。

今天，視頻、圖像、文字都已經(jīng)被數(shù)字化，下一個(gè)階段就是語義化，比如圖像理解。在數(shù)字原始表達(dá)空間，計(jì)算機(jī)很難做語義理解，我們需要深度學(xué)習(xí)模型來學(xué)習(xí)非線性的轉(zhuǎn)化。機(jī)器跟人的思維方式不一樣，機(jī)器算得快，任何問題只要能表達(dá)，使用加減乘除就能完成得很好。今天的人工智能的本質(zhì)其實(shí)是軟件產(chǎn)業(yè)的革命，借由大數(shù)據(jù)、大計(jì)算和機(jī)器學(xué)習(xí)來訓(xùn)練大模型，“編寫”越來越智能的軟件。

從數(shù)據(jù)學(xué)習(xí)機(jī)器能理解的語義表達(dá)

我們已經(jīng)到了這樣一個(gè)時(shí)代，有了更好的技術(shù)，能夠直接從數(shù)據(jù)中學(xué)習(xí)機(jī)器能理解的表達(dá)方式。使用深層神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)本身直接學(xué)習(xí)機(jī)器能夠“理解”的語義表達(dá)空間。輸入是原始的數(shù)據(jù)空間，是信息化和數(shù)字化之后的結(jié)果，例如數(shù)字圖片和它的語義標(biāo)注，在輸入的數(shù)字化原始數(shù)據(jù)空間里，它們的向量表達(dá)和分布一般是非常復(fù)雜的。

但借由深度學(xué)習(xí)，我們可以學(xué)到所需要的非線性轉(zhuǎn)換函數(shù)來把它們變換或映射到一個(gè)機(jī)器能理解的新的語義表達(dá)空間里。在這個(gè)新的空間里，機(jī)器能借著計(jì)算來處理許多需要人類智能的復(fù)雜工作。數(shù)據(jù)量越大，學(xué)習(xí)出來的表達(dá)方式越好，從而帶來更高的識(shí)別精度。這將構(gòu)成一個(gè)正向循環(huán)。

我們希望能訓(xùn)練更大、更深的網(wǎng)絡(luò)。但這也帶來一定的挑戰(zhàn)，因?yàn)樾枰蟮臄?shù)據(jù)和更大的計(jì)算平臺(tái)，這也讓分布式機(jī)器學(xué)習(xí)的平臺(tái)變得非常重要。盡管今天的大部分應(yīng)用還依賴于監(jiān)督學(xué)習(xí)，但是也還有很多研究，比如對(duì)抗學(xué)習(xí)(GAN)，是生成模型與辨別模型互相對(duì)抗，在博弈論的框架里面彼此學(xué)習(xí)。這就好像訓(xùn)練兩個(gè)模型，一個(gè)是學(xué)生模型，一個(gè)是教練模型，教練不斷出更好、更難的題目來測(cè)試學(xué)生，學(xué)生也借由這些更難的題目被訓(xùn)練得更好。學(xué)生的進(jìn)步又使得教練必須不斷加強(qiáng)他的能力。

例如，一個(gè)花樣滑冰選手在大部分的場(chǎng)景都跳得很好，但是三周跳需要改善動(dòng)作，教練就需要有好的生成模型來產(chǎn)生更多的這方面的訓(xùn)練樣本。學(xué)生在進(jìn)行大量的針對(duì)性的訓(xùn)練之后，才能不斷進(jìn)步。另外，非監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)，還有人機(jī)互動(dòng)學(xué)習(xí)也是一個(gè)很重要的新方向。

人工智能驅(qū)動(dòng)信息流：打通內(nèi)容生產(chǎn)和消費(fèi)

“今日頭條”是一個(gè)信息分發(fā)平臺(tái)。它有輸入輸出兩端，一端是信息的創(chuàng)作源頭，包含文字、文章、影像、問答、短視頻。另外一端是入口，人們可以借由不同的信息流，不同的手機(jī)應(yīng)用、通道接入信息。在信息流的過程中，人工智能能夠處理、分析、挖掘和理解信息流里的每一個(gè)環(huán)節(jié)。包括審核工作，通過過濾信息，再進(jìn)一步標(biāo)注各式各樣的特征向量，借此推薦引擎的算法。使用搜索引擎，大部分人看到的結(jié)果是一樣的，信息流個(gè)性化推薦的難度和復(fù)雜度更高，但也因此向人們提供了更多的使用場(chǎng)景。

“今日頭條”要做的，就是在這個(gè)信息流過程中把所有的輸入和輸出連接起來。今天的人工智能，只要能夠定義輸入是什么，輸出是什么，有大量的例子、標(biāo)注數(shù)據(jù)讓系統(tǒng)來學(xué)習(xí)，基本就可以建立數(shù)據(jù)模型。當(dāng)然，我們希望把所有的輸入和輸出在信息流的管線(pipeline)里面定義好。一旦有大數(shù)據(jù)，我們就利用機(jī)器學(xué)習(xí)；若沒有大數(shù)據(jù)，就利用人工提取的特征向量，并進(jìn)一步形成閉環(huán)，借由用戶不斷的消費(fèi)、互動(dòng)和信息的創(chuàng)作，能夠不斷地拿到更進(jìn)一步的標(biāo)注數(shù)據(jù)和訓(xùn)練樣本。

人工智能也會(huì)越來越智能，我們甚至能夠借由信息的創(chuàng)造，讓人工智能學(xué)習(xí)如何幫助內(nèi)容創(chuàng)作。我們的目標(biāo)是有一天機(jī)器可以寫作，可以創(chuàng)作視頻內(nèi)容；不僅如此，人工智能還可以幫助消費(fèi)，有一天也會(huì)有機(jī)器閱讀。比如，依靠機(jī)器閱讀，評(píng)價(jià)文章的質(zhì)量，內(nèi)容是否有問題需要過濾掉等。將來，機(jī)器寫作、閱讀都會(huì)借由新的信息流機(jī)會(huì)不斷進(jìn)步，不斷提升質(zhì)量。在這一過程中，我們希望建立人工智能的基礎(chǔ)架構(gòu)和平臺(tái)來進(jìn)一步完善系統(tǒng)。這方面，我們會(huì)在內(nèi)部先提供自己產(chǎn)品所需要的人工智能服務(wù)，并在將來有一天能夠?qū)ν忾_放。

在人工智能時(shí)代保持競(jìng)爭(zhēng)力的五大要點(diǎn)

目前人工智能應(yīng)用的競(jìng)爭(zhēng)越來越激烈，智能化門檻也在不斷降低。有5件重要的事情可以幫助我們思考如何保持競(jìng)爭(zhēng)力。

1. 數(shù)據(jù)非常重要。要建立數(shù)據(jù)倉庫來管理所有的訓(xùn)練樣本，而且有比別人更大的訓(xùn)練數(shù)據(jù)。大數(shù)據(jù)是最關(guān)鍵的因素，是數(shù)據(jù)讓人工智能技術(shù)不斷迭代訓(xùn)練。

2. 想辦法形成閉環(huán)，來挖掘人類智能。最好有很大的用戶基礎(chǔ)和用戶的使用時(shí)間，這將進(jìn)一步為我們的數(shù)據(jù)和細(xì)粒度進(jìn)行標(biāo)注，有助于思考產(chǎn)品定位。

3. 有豐富多樣的應(yīng)用場(chǎng)景。解決人類社會(huì)的基礎(chǔ)需求就是連接人與信息。開發(fā)者應(yīng)該深入到應(yīng)用場(chǎng)景中，使用自己開發(fā)的產(chǎn)品，把自己的需求真正解決好，以便以后為其他人或企業(yè)用提供服務(wù)。

4. 從底層的芯片到數(shù)據(jù)中心的管理都至關(guān)重要。必須加速和訓(xùn)練創(chuàng)新的算法，建立自己的人工智能基礎(chǔ)架構(gòu)，能夠看到真實(shí)的工作負(fù)載(workload)。如果沒有大規(guī)模計(jì)算的需求和分布式機(jī)器學(xué)習(xí)的需求，或許無法意識(shí)到一些重要問題的存在。

5. 人才很重要。今天的算法還在不斷進(jìn)步，許多單位紛紛采取開放與合作的態(tài)度。我們需要有效地利用與學(xué)術(shù)界的合作，建立聯(lián)合實(shí)驗(yàn)室，或者利用開源社區(qū)吸引優(yōu)秀的人才，只有這樣方能幫助自身的成長(zhǎng)。

（馬維英，今日頭條副總裁兼人工智能實(shí)驗(yàn)室主任，IEEE Fellow、ACM科學(xué)家,曾任微軟亞洲研究院常務(wù)副院長(zhǎng)）

深藍(lán)智庫企業(yè)社會(huì)責(zé)任峰會(huì) 智慧康養(yǎng)論壇十大商業(yè)品牌商業(yè)高峰論壇金融業(yè)十大品牌酒業(yè)價(jià)值榜餐飲十大品牌

@北京商報(bào)

新聞排行