AI在內容分發上的絆腳石
自從互聯網商業化發展以來,不論是新聞客戶端、視頻網站或是電商平臺……所有的平臺,都是把自己默認為一個優秀的飼養員,它按照自己的想法,把內容(飼料)Push(喂)給用戶。
這些飼養員都是受過訓練的專業人士,行話叫做---由網站編輯為用戶設置議程,按照大多數用戶的口味挑選內容。
后來編輯實在忙不過來,采用機器幫忙---最簡單的機器方式則是“熱門推薦”,比如按照點擊量或其它數據來做排序。
飼養員模式最大的問題是不知道食客胃口如何,這會導致兩個顯著的后果:一是食客不滿意,用戶個性化需求不能得到滿足;二是自身資源浪費,大量長尾資源長期得不到曝光,增加沉沒成本。
有人發現了機器的好處。機器可以是根據用戶特征來推薦內容。正如一個高明的廚子可以根據每一個食客的口味提供飯菜,如果機器足夠聰明,在一定程度上可以解決所有用戶的個性化需求。這豈不是內容產業的C2M?
準確的說,這是內容分發的C2M,它以單個用戶為對象進行溝通,跳出了大眾傳播/分眾傳播窠臼,是不是足以革了所有的搜索引擎和門戶網站的命?
這種智能化的內容C2M有深刻的時代背景。今天,你已經站在時代邊緣,眼睜睜的看著AI技術點燃了IOT的引線,接下來你將發現自己無可拒絕的進入下一個信息核爆的時代:信息終端爆炸、信息規模爆炸、信息平臺爆炸……
在信息高速公路上,你開過的車,你走過的路,全都變了規則,你所熟悉的一切的基于飼養員模式的知識框架都面臨顛覆。
在這個時代,飼養員模式已經失靈了,聰明的機器將成為最大的變量。
第一個出現的場景是人類生產內容,機器分發內容。
下一個出現的場景是機器生產內容,機器分發內容。
內容產業面臨C2M革命,行不行?
“當然不行,機器很蠢。”如果你這樣想,那么很遺憾,你注定是看不到明天的太陽了。
“當然行。”如果你這么想,那么祝賀你掉進坑里了。
真實的情況,你可能意想不到。
一、內容C2M之路本質是走向個體化溝通
作為一個獨立的研究方向,推薦系統的源頭可以追溯到90年代初的協同過濾算法,中期的代表則是傳統的機器學習算法,比如Netflix大賽所推動的隱語義模型,現在則是更加復雜的深度學習模型。
近些年,深度學習突飛猛進,使得機器推薦變成了整個互聯網的太陽。在新技術的推動下,個性化溝通也變得更加可行,而且越來越接近單用戶溝通。
(一)協同過濾蹣跚起步
按照百科詞條解釋,協同過濾是利用用戶群體的喜好來為你推薦感興趣的信息,這些用戶要么興趣相投、要么具有共同經驗,然后網站結合你的反饋(如評分),進行過濾分析,進而幫助別人篩選信息。
當然,用戶喜好不一定局限于特別感興趣的信息,特別不感興趣信息的紀錄也相當重要。協同過濾表現出了出色的效果,開始在互聯網行業稱王稱霸。
起先,協同過濾應用于郵件過濾。
1992年,施樂公司的科學家提出了Tapestry系統。這是最早應用協同過濾系統的設計,主要是解決Xerox公司在Palo Alto的研究中心資訊過載的問題。這個研究中心的員工每天會收到非常多的電子郵件卻無從篩選分類,于是研究中心便發展這項實驗性的郵件系統來幫助員工解決這項問題。
接著,協同過濾思路開始應用于內容推薦。
1994年,美國Minnesota的GroupLens項目組創辦了一個新聞篩選系統,這個系統可以幫助新聞的閱聽者過濾其感興趣的新聞內容,閱聽者看過內容后給一個評比的分數,系統會將分數記錄起來以備未來參考之用,假設前提是閱聽者以前感興趣的東西在未來也會有興趣閱聽,若閱聽者不愿揭露自己的身分也可以匿名進行評分。作為最老牌的內容推薦研究團隊,GroupLens于1997年創建了電影推薦系統MovieLens,還有性質相近的音樂推薦系統Ringo,以及影音推薦系統Video Recommender等等。
后來,出現了另一個里程碑——電子商務推薦系統。
1998年,亞馬遜的林登和他的同事申請的基于物品的協同過濾(item-to-item)技術專利,是亞馬遜早期使用的經典算法,一度引爆流行。
協同過濾算不算人工智能?從技術的角度來看,它也屬于AI范疇。但必須指出的是協同過濾算法比較弱智,無論是基于用戶的協同過濾,還是基于物品的協同過濾,推薦效果總是差強人意。
怎樣通過一個成體系的方法論來引導推薦系統的不斷優化?如何才能把復雜的現實因素糅合到推薦結果中?攻城獅們一度非常非常頭大,重賞之下必有勇夫,后來,終于有人發現了更加靈活的思路。
(二)傳統機器學習開始加速
2006年,Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線影片租賃網站,舉辦大賽的目的旨在解決電影評分預測問題的機器學習和數據挖掘問題。主辦方為此下了血本,宣稱對于那些能夠將Netflix的推薦系統Cinematch的準確率提升10%的個人或團隊,獎勵100萬美元!
Netflix在自家blog上披露了許多龐大的數據,舉例如下:
我們有幾十億的用戶評分數據,并且以每天幾百萬的規模在增長。
我們的系統每天產生幾百萬的播放點擊,并且包含很多特征,例如:播放時長、播放時間點和設備類型。
我們的用戶每天將幾百萬部視頻添加到他們的播放列表。
顯然,在這些海量數據面前,我們已經不能靠由純人工或者小型系統建立起來的分類標準對整個平臺用戶喜好進行標準化。
比賽開始一年后,Korbell的團隊以8.43%的提升贏得了第一個階段獎。他們付出了超過2000個小時的努力,融合了107種算法。其中兩種最有效的算法:矩陣分解(通常被叫做SVD,奇異值分解)和局限型玻爾茲曼機(RBM)。
矩陣分解作為協同過濾的補充,核心是將一個非常稀疏的用戶評分矩陣R分解為兩個矩陣:User特性的矩陣P和Item特性的矩陣Q,并用已知的數據構建這些向量,使用它們來預測未知的項。該算法在有效提高計算精度的同時,還能夠加入各種建模元素,使更多元化的信息融合進來,更好地利用大量數據。
然而矩陣分解也有不足。不足之處在于,矩陣分解和協同過濾算法一樣,都屬于監督學習范疇,粗糙且簡單,適用于小型系統。擺在網絡巨頭們面前的問題是,如果需要建立一個大型推薦系統,協同過濾和矩陣分解則會花費較長的時間。怎么辦?
于是,一些攻城獅將眼光轉移到無監督學習中。無監督學習中的聚類算法的本質是識別用戶組,并對這個組內的用戶推薦相同的內容。當我們擁有足夠的數據,最好使用聚類作為第一步,來縮減協同過濾算法中相關鄰居的選擇范圍。
隱語義模型運用了聚類分析方法,其一大優勢是既可以做評分預測,又可以同時對文本內容建模,使得通過內容來進行推薦的效果得到較大提升。
傳統的分析方式在對用戶打標簽,并根據標簽映射到結果的兩個步驟中準確度不高。比如用戶填寫的年齡不一定真實,或者并非所有青少年都喜歡漫畫。而隱語義模型的核心,是超越這些表層語義標簽的維度,通過機器學習技術,挖掘用戶行為中更深層的潛在關聯,使得推薦精度更高。
Netflix Prize百萬美元武林大賽號令之下,天下英才頻出。2009年達到了一個高峰,成為推薦系統領域最標致性的事件,這次比賽吸引了眾多專業人士投身于推薦系統領域的研究,也讓這項技術從專業圈子滲透到了商業領域,引發了熱烈的討論并逐漸勾起了主流網站的垂涎,基于內容的推薦、基于知識的推薦、混合推薦、基于信任網絡的推薦等等走上了快速發展的通道。
這些推薦引擎與協同過濾不同,例如基于內容的推薦是建立在項目的內容信息上作出推薦的,而不需要依據用戶對項目的評價意見,更多地需要用機器學習的方法從關于內容的特征描述的事例中得到用戶的興趣資料。內容過濾主要采用自然語言處理、人工智能、概率統計和機器學習等技術進行過濾。
百萬美元花得值不值?據2016年的Netflix用戶數據:注冊會員6500萬人,每天觀看視頻的總時長1億個小時。Netflix說,每年靠這套系統能夠節省10億美元。
(三)深度學習帶來“無人駕駛”
近些年來,用戶的大痛點出現。智能手機的普及,讓龐大的信息量和狹小的閱讀屏幕成為一對難以化解的矛盾,用戶閱讀場景不再是固守于電腦屏幕,而是向移動化碎片化轉變,搜索引擎失靈了,人工推薦忙不過來,機器推薦也不夠用了,這種轉變對大內容平臺簡直是生死考驗。能滿足需求則生,不滿足則死。
面對這一問題,YouTube和Facebook提出了新解決思路:運用深度學習,制造聰明的機器。近十年來,深度學習已經取得了巨大的飛躍,對于解決大數據量更有優勢。
如果說人工內容推薦如同司機開車,那么深度學習所帶來的內容推薦,則如無人駕駛汽車。在這種技術是利用用戶數據來“感知”用戶喜好,其推薦系統基本可以分為數據層、觸發層、融合過濾層和排序層,當數據層生成和存儲的數據進入候選層后,也就觸發了核心的推薦任務。
以YouTube為例,其最新公開的推薦系統算法由兩個神經網絡組成,一個用于候選生成,一個用于排序。首先,以用戶的瀏覽歷史為輸入,候選生成網絡可以顯著減小可推薦的視頻數量,從龐大的庫中選出一組最相關的視頻。
這樣生成的候選視頻與用戶的相關性最高,再進一步對用戶評分進行預測。這個網絡的目標,只是通過協同過濾提供更廣泛的個性化。排序網絡的任務則是仔細分析候選內容,精選出少量最優選擇。具體操作為根據視頻描述數據和用戶行為信息,使用設計好的目標函數為每個視頻打分,將得分最高的視頻呈獻給用戶。
在這種模式下,機器全然接管了平臺。在深度學習的持續訓練下,機器越來越聰明,與人打交道的智商會逐漸提升,在某種意義上也逐漸承擔起看門狗的責任。
二、內容產業是否即將被C2M顛覆
世界之大無奇不有,美國得克薩斯州科珀斯—克里斯蒂市一家銀行的一臺自動取款機(ATM)竟然在11日吐出了字條,上面寫著“救我”,這條新聞很快傳遍中文網絡,成為許多網站的頭條。
你需要從N個網站上看到一模一樣的文章嗎?
這些冗余的信息消耗了你的精力和流量,就像你打開任何一個電視頻道,都能看到許多方便面廣告一樣,讓人很難從大量的信息中快速找到自己想要的內容。
如何解決用戶信息冗余的尷尬?
過去曾經有許多不成功的技術方案,個人門戶曇花一現,RSS訂閱不成氣候,跨站跟蹤上不了臺面。能引領未來者,只有C2M。
C2M模式可以像今日頭條這樣應用于全網,也可以像Facebook那般基于巨頭的平臺。其核心就在于基于用戶行為習慣、特征和訴求,對海量的信息進行提取、分揀然后傳遞給用戶,這是克服痛點的秘密。
但質疑的聲音也不少。比如有觀點認為,協同過濾這樣的推薦容易讓用戶形成信息繭房、無法識別閱讀場景、即時性差、耗時長等缺點,而今日頭條這樣的模式也常常被詬病,還要應付難以捕捉的用戶興趣、用戶數據的隱私和管理等多項挑戰。
支持和質疑各執一端,孰是孰非?未來雖有兩大機遇,但是目前要跨越三座大山。
1.支持的理由如下:
①千人千面,眾口可調。
個性化的內容推薦機制能夠根據用戶的喜好為其推薦信息。通過各種算法,通過分析用戶的歷史行為,對比相關用戶和相關物品猜測用戶可能喜歡的內容,列出候選集并進行驗證,用戶可以得到較為準確的內容,使信息分發做到千人千面,實現內容與用戶的精準連接,而不是傳統意義上的千人一面般的投放。
②海里撈針,提高效率
個性化推薦省去了用戶在海量信息中進行提取和搜尋的環節。用戶無需在海量信息中摸針,在一定程度上為用戶去除了部分無用信息,縮小了用戶信息搜索的范圍,提高了用戶的閱讀效率。
③投其所好,增強粘性
不斷為用戶推薦適合他的內容能夠增加用戶粘性。個性化推薦技術通過算法進行用戶感興趣的內容的精準推薦,幫助用戶快捷發現感興趣的內容,當你看完一個內容后,會立馬給你推薦相關的東西,可以增加用戶粘性,提高用戶體驗。
④挖掘長尾,打破兩極
個性化推薦能夠通過相關算法幫助用戶挖掘長尾內容,避免兩極分化的馬太效應。當A用戶喜歡比較冷門的長尾內容,而B用戶又有跟A用戶有相同或相似的興趣和行為習慣時,系統就能夠把A用戶喜歡的冷門內容推薦給B用戶,這樣就使冷門內容得到更多的曝光,幫助用戶發現更多的長尾內容,避免內容生產生態兩極分化。
⑤雙向交流,深度優化
基于用戶進行個性化推薦是對用戶進行深度分析和交流的結果,提升了用戶的交互式體驗。傳統的人工推薦是遍地撒網地推薦,沒有對用戶進行細致地劃分和篩選,機器推薦以用戶特點和習慣為基礎進行推薦,用戶能夠得到雙向的交流和溝通,用戶的行為也能對下一步的推薦產生影響,在一定程度上得到了反饋,提升了用戶的交互式體驗。
⑥分門別類,運營細化
個性化推薦也有利于平臺對內容進行分類,從而利于平臺精細化管理和運營。信息時使得平臺不斷涌現,各種形式的內容越來越豐富,用戶手機端展示的區域有限,個性化推薦能夠使商家更好地針對不同客戶對內容進行分類,有利于精細化運營。
2.質疑的觀點主要有:
①畫地為牢,思維設限
個性化新聞體驗容易讓思想裹足不前。個性化推薦的結果是基于用戶的歷史數據和歷史行為,基于相似用戶或者相似物品進行的推薦,在一定程度上將用戶感興趣的內容固定在一個特定的閉環里,在為用戶篩選信息的同時也為用戶隔斷了很多信息。個性化推薦的內容采集自你的興趣,又決定了你的興趣。因此,無法接觸“新”事物自然就不能培養新的興趣,容易讓用戶越來越狹隘。
②人心變幻,機器何解
機器推薦無法識別閱讀場景的變化而帶來的需求的變化,無法感知用戶為什么需要閱讀,難以匹配人類情感的復雜程度。例如在某一個階段,我們因為大家都在討論某件事而去關注這件事,但這并不意味著我們對類似的事情都感興趣。
③審美下線,好壞難分
個性化推薦的難度對推薦內容的質量帶來了挑戰。以往評價一篇文章的好壞對編輯來說都沒那么容易,如今機器推薦很容易忽略質量這一維度。機器算法不準確會使標題黨內容混雜出現,機器推薦可能會把一篇沒有價值的文章推薦的很高,也有可能把真正有價值的文章埋沒掉,機器推薦只能從外部數據來衡量你的文章有沒有價值,目前還沒有辦法從內容的本質上分析有沒有價值。
④耗時較長,總慢半拍
基于海量數據的個性化推薦行為耗時較長,即時性較差。如新聞推薦存在及時性問題,需要不斷更新,通過分析用戶的歷史行為、對比類似用戶等數據分析工作耗時較長,不易在第一時間形成推薦結果。并且協同過濾等方法還存在冷啟動的問題,即在用戶體驗之初,并未形成成熟的歷史數據時,需要經過很長的時間收集用戶點擊日志數據,從而產生推薦。
⑤熱點共通,個體趨同
并不是所有的用戶都彼此相等,但協同過濾方法不考慮用戶之間的個體差異。例如,我們觀察到娛樂新聞不斷推薦給大多數用戶,即使用戶不點擊娛樂的故事。原因是,娛樂新聞一般都是非常流行的,因此總是從一個用戶的“鄰居”的娛樂故事足夠的點擊進行推薦。
3.未來的機遇在哪里?
未來的機遇在于兩大推動力:業界對長尾金礦的商業動力;用戶強烈的個性化需求的推動。
①長尾金礦
個性化推薦能夠幫助用戶發現更多優質的長尾內容,提高平臺商業價值。一般平臺用戶訪問的只局限在熱門的10%左右的內容,很多小眾的、冷門的內容卻沉在數據庫中不易被發現,我們將其稱之為長尾內容。
按長尾理論,由于成本和效率的因素,當商品儲存流通展示的場地和渠道足夠寬廣,商品生產成本急劇下降以至于個人都可以進行生產,并且商品的銷售成本急劇降低時,幾乎任何以前看似需求極低的產品,只要有賣,都會有人買。個性化推薦能夠通過協同過濾中基于用戶的推薦技術將小眾喜歡的長尾內容擴散開來,充分挖掘長尾內容,產生長尾金礦。
②時代剛需
我們所處的時代已經變化了。經過20年發展,互聯網變成了移動互聯網,現在即將融合AI進入IOT時代,終端和信息正在以核爆的態勢發生急劇膨脹,用戶在海量的數據中想要找到他們需要的信息將變得越來越難。在這種情況下,傳統的搜索引擎已經力不從心。早先最具代表性的就是分類目錄的雅虎和搜索引擎的谷歌,已經進入死胡同,想要通過搜索引擎去了解一個陌生領域的知識,效率極低!
要滿足時代剛需,希望在于個性化推薦。機器需要盡可能的了解用戶,并且根據用戶的數據,主動推薦讓用戶有興趣和需求的信息。目前這20來年,雖說取得了一點點成就,但僅僅是唐僧取經邁出了第一步,還有很長的路要走。
4.當下需要跨越的三座大山
個性化推薦在發展過程中面臨很多諸如難以預測用戶興趣、用戶相關數據涉及隱私以及數據的處理難度等問題,都給個性化推薦帶來了很大的威脅和挑戰。
第一座山,準確。
用戶的興趣易受多重因素影響而不斷變化,這對個性化推薦來說是個不可避免的挑戰。個性化推薦系統的基礎部分是用戶興趣建模,用戶興趣建模的質量直接決定了個性化推薦的質量。但是用戶興趣隨時都會受到社交、場景、環境等多重因素影響,用戶興趣地不斷變化使得根據以往數據預測用戶未來傾向的工作變得很難,也會影響推薦結果的準確性。
第二座山,隱私。
對以用戶數據為基礎進行的個性化推薦來說,如何保護用戶隱私是個不小的難題。傳統的內容推薦系統對用戶的頁面訪問記錄進行數據挖掘,找出用戶的訪問習慣,然后在服務器端根據用戶需求進行信息篩選,試圖為用戶提供信息推薦服務和垃圾信息過濾服務。但如何能在保護用戶隱私的同時,又為用戶提供更準確的內容推薦服務是一個不小的挑戰。
第三座山,價值觀。
除了三座大山外,還有一個問題也值得重視。現在的機器推薦等于“沒有三觀”、“沒有審美”,在中文圈運營,由于眾所周知的原因,一定會遇到相當的挑戰。
流量造假和作弊是比較明顯的例子。比如有網友告訴筆者說:網上經常看到一些視頻學習人數幾萬、幾十萬,數字大的得令我們懷疑人生,結果測試了一下,頁面刷新一次人數就加三而新課程加幾十,瞬間明了。半夜測試某些視頻直播,對著墻拍,從啟動直播十分鐘直播粉絲還能蹭蹭往上漲,進一個真粉絲時人數又一波漲,作弊一時爽,但心里不踏實。
曾經有企業在智能推薦的客戶端上投過一些非常垂直大號的廣告,有的效果真好,有的造假太明顯---在閱讀量瞬間破萬的時候帶過來的流量,還不如自己閱讀破千的號效果好。如此種種,數據是正經的,就看用它的人正經不正經了。
未來,個性化推薦如何在技術和管理上繼續革新,人工智能因素的參與能否改善現存的諸多問題,為用戶產生更優質的推薦結果將成為一個重要課題。
三、巨頭正在開辟的技術路線
其實,無論支持還質疑有多么大,個性化推薦已經引得無數巨頭競折腰。
目前在市場上,依然是新老技術各占一方地盤,新派深度學習技術快速崛起,咄咄逼人;老派技術也在不斷優化,以防不測。新老技術之爭,是當下的一個熱點,也是決定未來發展的兩大路線。
(一)老派技術認為:傳統推薦技術可以自我完善
1.Google新聞的套路,不斷優化
Google新聞是一個在線信息門戶站點,它聚集數千家信息源的新聞報道(在將相似新聞分組后)并以個性化的方法展現給登錄用戶。由于文章和用戶數量巨大,以及給定的響應時間要求,純粹的基于記憶的方法是不適用的,需要一種可擴展的算法,因此Google新聞組合使用了基于模型和基于記憶的技術。
Google新聞的套路依然是協同過濾的底子。它在個性化推薦方面采用的是基于模型和基于記憶的技術相結合的協同過濾技術。根據《推薦系統》一書的介紹,基于模型的那部分依賴兩種聚類技術:
①概率潛在語義索引(PLSI):協同過濾的“第二代”概率技術,為了識別出有相似想法的用戶和相關物品的聚類,引入了隱藏變量,對應每個用戶—物品對的有限狀態集合,能適應用戶可能同時對多個主題感興趣的情況。
②MinHash:根據兩個用戶瀏覽過物品的交集將兩者放入相同的聚類(哈希桶)。為了讓這種哈希過程具有可擴展性,采用了一種特殊方法尋找近鄰,并采用Google自己的MapReduce技術在幾個機群之間分發計算任務。
基于記憶的方法主要是分析“伴隨瀏覽量”。“伴隨瀏覽量”指的是一篇文章在預先定義的一段時間內被相同用戶瀏覽過。預測時需要遍歷活躍用戶最近的歷史數據和從內存里獲取鄰近的文章。運行時,預先設定集合里候選物品的綜合推薦評分是這三種方法(MinHash、PLSI和伴隨瀏覽)獲得的分數的線性組合計算值,然后再根據計算值的高低進行推薦結果的輸出。
2.Linkedin為四個場景開發的系統
Linkedin主要是通過自主研發設計的協同過濾推薦平臺Browsemap實現個性化推薦。Browsemap是Linkedin開發的一個實現了物品協同過濾推薦算法的泛化平臺,該平臺可支持Linkedin中所有實體的推薦,包括求職者、招聘貼、企業、社會群體(如學校等)、搜索詞等,若要通過該平臺實現某個新的實體協同過濾推薦,開發者要做的工作僅僅包括:相關行為日志的接入、編寫Browsemap DSL配置文件和調整相關過期參數等簡單工作。
論文指出,Browsemap平臺在Linkedin最常用的有四個推薦場景:給求職者推薦公司、相似公司推薦、相似簡歷推薦和搜索詞推薦等等。
①給求職者推薦公司:通過Browsemap實現基于物品的協同過濾,計算用戶和潛在意向公司的相似度值,得到相關公司特征;將相關公司特征和用戶/公司內容特征(包括用戶位置、工作經驗;企業產品、相關描述)一起分析得到最終的偏好分值。
②相似公司推薦:與給求職者推薦公司有兩點不同:一是內容特征相似度變為公司畫像之間的相似度;二是基于多種用戶行為構建browsemap。
③相似簡歷(用戶)推薦:通過公司詳情頁瀏覽行為和用戶畫像特征實現該部分推薦。同時將相似簡歷的屬性用于補足簡歷的缺失屬性,得到該用戶的虛擬簡歷。
④搜索詞推薦提供了四種關聯方式:一是協同過濾:在計算搜索詞間相關性時會加入時間和空間因素;二是基于推薦搜索詞搜索結果的點擊率;三是基于搜索詞之間的重合度;四是基于推薦搜索詞的點擊率。但實驗結果表明協同過濾的結果最好,甚至也好于將這四種方式綜合的結果。
3.今日頭條的三個階段
作為國內當紅的個性化推薦產品,今日頭條技術經歷了三個階段:
早期階段,以非個性化推薦為主,重點解決熱文推薦和新文推薦,這個階段對于用戶和新聞的刻畫粒度也比較粗,并沒有大規模運用推薦算法。
中期階段,以個性化推薦算法為主,主要基于協同過濾和內容推薦兩種方式。協同過濾技術思想和前文介紹的并無差別。基于內容推薦的方式,則是先對新聞進行刻畫,然后利用用戶的正反饋(如點擊,閱讀時長、分享、收藏、評論等)和負反饋(如不感興趣等)建立用戶和新聞標簽之間的聯系,從而來進行統計建模。
當前階段,以大規模實時機器學習算法為主,用到的特征達千億級別,能做到分鐘級更新模型。架構分為兩層:檢索層,有多個檢索分支,拉出用戶感興趣的新聞候選;打分層,基于用戶特征、新聞特征、環境特征三大類特征使用實時學習進行建模打分。值得一提的是,實際排序時候并不完全按照模型打分排序,會有一些特定的業務邏輯綜合在一起進行最終排序并吐給用戶。
頭條為何能取得成功?文章分析,很多人會說是頭條的個性化推薦技術做得好,其實不盡然。原因在于,今日頭條的個性化推薦也是經歷著復雜的演變過程:從人工推薦到機器推薦再到最終不斷迭代算法和技術,反復的進行驗證,日益完善。
(二)新派技術認為:深度學習才是明智選擇
新派技術主要指采用了深度學習的個性化推薦系統。
深度學習是機器學習中一種基于對數據進行表征學習的方法。觀測值(例如一幅圖像)可以使用多種方式來表示,如每個像素強度值的向量,或者更抽象地表示成一系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從實例中學習任務(例如,人臉識別或面部表情識別)。深度學習的好處是用非監督式或半監督式的特征學習和分層特征提取高效算法來替代手工獲取特征。
當常規推薦算法已經無法及時地分析處理體量較大的數據并準確地針對獨立用戶做出推薦時,具備相應技術水平的公司開始利用深度學習解決海量內容分析推薦的痛點。我們以較早開始引入深度學習的YouTube、Facebook為例進行分析。
1.YouTube的神經網絡
YouTube的推薦系統是是世界上規模最大、最復雜的推薦系統之一。YouTube的全球用戶已經超過十億,每秒上傳的視頻長度以小時計。視頻“語料”庫存日益增長,就需要一個推薦系統及時、準確地將用戶感興趣的視頻不斷推薦給用戶。
相比其他商業推薦系統,Youtube推薦系統面臨三個主要的挑戰:
①規模。現有絕大多數可行的推薦算法,在處理YouTube級別的海量視頻就力不從心了。
②新鮮度。YouTube視頻“語料”庫不僅僅是儲量巨大,每時每刻上傳的新增視頻也是源源不斷。推薦系統要及時針對用戶上傳的內容進行分析建模,同時要兼顧已有視頻和新上傳視頻的平衡。
③噪聲。由于用戶行為的稀疏性和不可觀測的影響因素,用戶的歷史記錄本質上難以預測。
為了解決這些問題,YouTube推薦系統將研究重點轉移到深度學習,使用Google Brain開發的TensorFlow(Google研發的第二代人工智能學習系統)系統為推薦系統帶來了開發測試上的靈活性。
YouTube推薦系統主要由兩個深度神經網絡組成:第一個神經網絡用來生成候選視頻列表;第二個神經網絡用來對輸入視頻列表打分排名,以便將排名靠前的視頻推薦給用戶。
候選視頻生成是依靠協同過濾算法產生一個寬泛的針對用戶的個性化推薦候選名單。排名神經網絡是基于第一個候選生成網絡的列表,提供更精細的區分細化,從來達到較高的推薦命中率。通過定義目標函數來提供一系列描述視頻和用戶的特征,排名網絡則根據目標函數來給每一個視頻打分。分數最高的一組視頻就被推薦給用戶。
正是YouTube海量級別的視頻才產生了深度學習的需要,有效彌補了協同過濾存在地處理數據耗時長等問題。
2.Facebook邁出的一大步
Facebook近10年來一直沿用其Newsfeed功能實現個性化推薦。2006年9月份,NewsFeed(信息流)問世,同時問世的還有MiniFeed(個人動態)。NewsFeed是一個系統自動整合生成的內容信息流,它自行來決定我們讀到哪些新聞、動態、事件。它所覆蓋的范圍,其信息推送的精準度,以及其影響力遠超過我們的想象,可以說NewsFeed是Facebook在人工智能上所走的一大步。
Facebook是如何利用深度學習來評價內容和用戶的呢?
第一,在檢視文本方面,Facebook使用“自然語言處理”技術來掃描每個人發的“狀態”和“日志”,以便“真正理解文本的語義”,不僅如此還要將它們評級。日志在掃描的過程中,系統會自動識別出“過度標題黨”或者“過度商業化”的內容,而且這樣的內容在NewFeed里面是越來越少見到了。
第二,在內容翻譯上,當在處理非英語的語言時,Facebook工程師專門開發了一個深度學習平臺,每一天會對100多種語言所寫成的文本進行分析,翻譯。比如當一個朋友以德語發表了一條動態時,NewsFeed會以英語體現出來給一個美國的朋友,營造了一個能夠跨過語言障礙的,人人實現互聯互通的數字虛擬環境。
第三,在識別物體方面,Facebook也在利用深度學習技術來識別照片和視頻里面的物體,不僅如此,它還能進一步地去探究誰有可能對這些照片感興趣,或者這些照片跟哪些用戶相關聯,從而推薦給目標用戶。
(三)深度學習之困境
深度學習能打遍天下無敵手嗎?
至少目前來看,深度學習只是在Speech和Image這種比較“淺層”的智能問題上效果是比較明顯的,而對于語言理解和推理這些問題效果就有點失分,也許未來的深度神經網絡可以更“智能”的解決這個問題,但目前還差點火候。
深度學習在推薦系統領域的研究與應用還處于早期階段。即使深度學習被認為能夠解決協同過濾的冷啟動、數據處理較慢的問題,但是風光之下,它也有自己的難言之隱。
第一,成本太高。數據對深度學習的進一步發展和應用至關重要。然而過分倚重有標注的大數據也恰恰是深度學習的局限性之一。數據收集是有成本的,而且標注成本已經開始水漲船高,這就使得深度學習的成本過高。而且對于體量較小、數據較少的眾多小公司來說,即使有能力用深度學習改善個性化推薦結果,也面臨著沒有數據支撐的尷尬境地。
第二,降低成本的方案有沒有?有,但是難以實現。深度學習分為有監督學習和無監督學習,大量無監督數據的獲取成本卻是微乎其微的。目前一般用的都是監督學習,但本質上基于監督學習的大多數推薦模型都很難徹底規避現存問題從而提高推薦質量。無監督學習由于無需對數據進行加標簽等原因成本較有監督學習較低,但目前深度學習對無監督數據的學習能力嚴重不足,因此深度學習在推薦系統中的應用仍處于早期階段。
新老派兩大力量相互抗爭、相互促進但又相互交融。傳統推薦技術在深度學習的沖擊下不斷完善,深度學習帶著趕超傳統推薦技術的強勢勁頭不斷革新但也面臨著發展窘境。但正是在多個平臺的這種自我發展和革新的過程中,新老派的界限也變得越來越模糊,越來越走向融合。即使堅持完善傳統推薦技術的公司也開始慢慢涉足到深度學習的領域中,深度學習發展較為成熟的新派也并沒有完全摒棄老派技術,那么,未來到底何派為王?
四.未來鹿死誰手?
內容C2M,本質上是對人心的一種洞察和預測。技術與人心的斗法,并非一朝一夕便能奏功。人類思想的根本特征在于“意識”,即個體理解自己與他人的心理狀態,包括情緒意圖、期望、思考和信念等,并借此信息預測和解釋他人行為的一種能力。
但是,當前的人工智能領域中存在著一個很嚴重的問題:人們誤解了深度學習模型的工作機理,并高估了網絡模型的能力。
通過深度學習,我們可以訓練出一個模型,它可以根據圖片內容生成文字描述。這個過程被視作機器“理解”了圖片和它生成的文字。當某個圖像存在輕微改變,導致模型開始產生相當荒謬的字幕時,結果就會讓人非常驚訝—模型失靈了。機器能找出一只貓,但機器仍然不能識別跟貓相關的所有信息。
回顧歷史不難發現,技術一直追求的目標,與其說是讓機器替代人類,而不如說是制造聰明的機器來提高效率。協同過濾技術的發展便是個明顯的例子。
最近幾年來,互聯網巨頭制造“聰明的機器”的積極性異常高漲,也是效率使然。根據微軟研究院的估計,亞馬遜網站上大約30%的頁面瀏覽來自于推薦系統;Netflix首席產品官聲稱80%以上的電影觀看來自于推薦系統,并稱Netflix推薦系統的價值每年高達十億美元;據阿里巴巴披露數字,2013年當天由推薦直接引導的成交總額為56.8億元。今日頭條則將公司核心業務架構在推薦引擎上,是當今最重視推薦技術的公司之一……
在內容C2M發展歷程中,盡管深度學習存在許多不足,但深度學習主導未來是大概率事件。我們看到代表著傳統推薦技術和深度學習的新老派在相互促進和相互融合,在全球流量前20的平臺中,雖然有不少公司依然沿用采用協同過濾技術,比如Google新聞,LinkedIn等,但是其中一些公司也已經準備甚至已經采用深度學習等技術來改進自身不足。而YouTube、Facebook等先行者已開始享受深度學習的紅利。
從飼養員模式到聰明的機器,內容產業的C2M已然成勢,顛覆日,不遠了。
我們可以相信,雖然深度學習還存在著一些制約因素,但是,隨著AI技術和產業的強勁發展,技術上的瓶頸終究會被突破。
需要警惕的是,在C2M跨越了準確、隱私兩座大山后,人類通過AI掌握了新的力量,掌握者的欲望和野心,也應該受到一定的控制,尤其是價值觀問題,將顯得越發重要。