自從互聯(lián)網(wǎng)商業(yè)化發(fā)展以來(lái),不論是新聞客戶(hù)端、視頻網(wǎng)站或是電商平臺……所有的平臺,都是把自己默認為一個(gè)優(yōu)秀的飼養員,它按照自己的想法,把內容(飼料)Push(喂)給用戶(hù)。
這些飼養員都是受過(guò)訓練的專(zhuān)業(yè)人士,行話(huà)叫做---由網(wǎng)站編輯為用戶(hù)設置議程,按照大多數用戶(hù)的口味挑選內容。
后來(lái)編輯實(shí)在忙不過(guò)來(lái),采用機器幫忙---最簡(jiǎn)單的機器方式則是“熱門(mén)推薦”,比如按照點(diǎn)擊量或其它數據來(lái)做排序。
飼養員模式最大的問(wèn)題是不知道食客胃口如何,這會(huì )導致兩個(gè)顯著(zhù)的后果:一是食客不滿(mǎn)意,用戶(hù)個(gè)性化需求不能得到滿(mǎn)足;二是自身資源浪費,大量長(cháng)尾資源長(cháng)期得不到曝光,增加沉沒(méi)成本。
有人發(fā)現了機器的好處。機器可以是根據用戶(hù)特征來(lái)推薦內容。正如一個(gè)高明的廚子可以根據每一個(gè)食客的口味提供飯菜,如果機器足夠聰明,在一定程度上可以解決所有用戶(hù)的個(gè)性化需求。這豈不是內容產(chǎn)業(yè)的C2M?
準確的說(shuō),這是內容分發(fā)的C2M,它以單個(gè)用戶(hù)為對象進(jìn)行溝通,跳出了大眾傳播/分眾傳播窠臼,是不是足以革了所有的搜索引擎和門(mén)戶(hù)網(wǎng)站的命?
這種智能化的內容C2M有深刻的時(shí)代背景。今天,你已經(jīng)站在時(shí)代邊緣,眼睜睜的看著(zhù)AI技術(shù)點(diǎn)燃了IOT的引線(xiàn),接下來(lái)你將發(fā)現自己無(wú)可拒絕的進(jìn)入下一個(gè)信息核爆的時(shí)代:信息終端爆炸、信息規模爆炸、信息平臺爆炸……
在信息高速公路上,你開(kāi)過(guò)的車(chē),你走過(guò)的路,全都變了規則,你所熟悉的一切的基于飼養員模式的知識框架都面臨顛覆。
在這個(gè)時(shí)代,飼養員模式已經(jīng)失靈了,聰明的機器將成為最大的變量。
第一個(gè)出現的場(chǎng)景是人類(lèi)生產(chǎn)內容,機器分發(fā)內容。
下一個(gè)出現的場(chǎng)景是機器生產(chǎn)內容,機器分發(fā)內容。
內容產(chǎn)業(yè)面臨C2M革命,行不行?
“當然不行,機器很蠢。”如果你這樣想,那么很遺憾,你注定是看不到明天的太陽(yáng)了。
“當然行。”如果你這么想,那么祝賀你掉進(jìn)坑里了。
真實(shí)的情況,你可能意想不到。
一、內容C2M之路本質(zhì)是走向個(gè)體化溝通
作為一個(gè)獨立的研究方向,推薦系統的源頭可以追溯到90年代初的協(xié)同過(guò)濾算法,中期的代表則是傳統的機器學(xué)習算法,比如Netflix大賽所推動(dòng)的隱語(yǔ)義模型,現在則是更加復雜的深度學(xué)習模型。
近些年,深度學(xué)習突飛猛進(jìn),使得機器推薦變成了整個(gè)互聯(lián)網(wǎng)的太陽(yáng)。在新技術(shù)的推動(dòng)下,個(gè)性化溝通也變得更加可行,而且越來(lái)越接近單用戶(hù)溝通。
(一)協(xié)同過(guò)濾蹣跚起步
按照百科詞條解釋?zhuān)瑓f(xié)同過(guò)濾是利用用戶(hù)群體的喜好來(lái)為你推薦感興趣的信息,這些用戶(hù)要么興趣相投、要么具有共同經(jīng)驗,然后網(wǎng)站結合你的反饋(如評分),進(jìn)行過(guò)濾分析,進(jìn)而幫助別人篩選信息。
當然,用戶(hù)喜好不一定局限于特別感興趣的信息,特別不感興趣信息的紀錄也相當重要。協(xié)同過(guò)濾表現出了出色的效果,開(kāi)始在互聯(lián)網(wǎng)行業(yè)稱(chēng)王稱(chēng)霸。
起先,協(xié)同過(guò)濾應用于郵件過(guò)濾。
1992年,施樂(lè )公司的科學(xué)家提出了Tapestry系統。這是最早應用協(xié)同過(guò)濾系統的設計,主要是解決Xerox公司在Palo Alto的研究中心資訊過(guò)載的問(wèn)題。這個(gè)研究中心的員工每天會(huì )收到非常多的電子郵件卻無(wú)從篩選分類(lèi),于是研究中心便發(fā)展這項實(shí)驗性的郵件系統來(lái)幫助員工解決這項問(wèn)題。
接著(zhù),協(xié)同過(guò)濾思路開(kāi)始應用于內容推薦。
1994年,美國Minnesota的GroupLens項目組創(chuàng )辦了一個(gè)新聞篩選系統,這個(gè)系統可以幫助新聞的閱聽(tīng)者過(guò)濾其感興趣的新聞內容,閱聽(tīng)者看過(guò)內容后給一個(gè)評比的分數,系統會(huì )將分數記錄起來(lái)以備未來(lái)參考之用,假設前提是閱聽(tīng)者以前感興趣的東西在未來(lái)也會(huì )有興趣閱聽(tīng),若閱聽(tīng)者不愿揭露自己的身分也可以匿名進(jìn)行評分。作為最老牌的內容推薦研究團隊,GroupLens于1997年創(chuàng )建了電影推薦系統MovieLens,還有性質(zhì)相近的音樂(lè )推薦系統Ringo,以及影音推薦系統Video Recommender等等。
后來(lái),出現了另一個(gè)里程碑——電子商務(wù)推薦系統。
1998年,亞馬遜的林登和他的同事申請的基于物品的協(xié)同過(guò)濾(item-to-item)技術(shù)專(zhuān)利,是亞馬遜早期使用的經(jīng)典算法,一度引爆流行。
協(xié)同過(guò)濾算不算人工智能?從技術(shù)的角度來(lái)看,它也屬于A(yíng)I范疇。但必須指出的是協(xié)同過(guò)濾算法比較弱智,無(wú)論是基于用戶(hù)的協(xié)同過(guò)濾,還是基于物品的協(xié)同過(guò)濾,推薦效果總是差強人意。
怎樣通過(guò)一個(gè)成體系的方法論來(lái)引導推薦系統的不斷優(yōu)化?如何才能把復雜的現實(shí)因素糅合到推薦結果中?攻城獅們一度非常非常頭大,重賞之下必有勇夫,后來(lái),終于有人發(fā)現了更加靈活的思路。
(二)傳統機器學(xué)習開(kāi)始加速
2006年,Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線(xiàn)影片租賃網(wǎng)站,舉辦大賽的目的旨在解決電影評分預測問(wèn)題的機器學(xué)習和數據挖掘問(wèn)題。主辦方為此下了血本,宣稱(chēng)對于那些能夠將Netflix的推薦系統Cinematch的準確率提升10%的個(gè)人或團隊,獎勵100萬(wàn)美元!
Netflix在自家blog上披露了許多龐大的數據,舉例如下:
我們有幾十億的用戶(hù)評分數據,并且以每天幾百萬(wàn)的規模在增長(cháng)。
我們的系統每天產(chǎn)生幾百萬(wàn)的播放點(diǎn)擊,并且包含很多特征,例如:播放時(shí)長(cháng)、播放時(shí)間點(diǎn)和設備類(lèi)型。
我們的用戶(hù)每天將幾百萬(wàn)部視頻添加到他們的播放列表。
顯然,在這些海量數據面前,我們已經(jīng)不能靠由純人工或者小型系統建立起來(lái)的分類(lèi)標準對整個(gè)平臺用戶(hù)喜好進(jìn)行標準化。
比賽開(kāi)始一年后,Korbell的團隊以8.43%的提升贏(yíng)得了第一個(gè)階段獎。他們付出了超過(guò)2000個(gè)小時(shí)的努力,融合了107種算法。其中兩種最有效的算法:矩陣分解(通常被叫做SVD,奇異值分解)和局限型玻爾茲曼機(RBM)。
矩陣分解作為協(xié)同過(guò)濾的補充,核心是將一個(gè)非常稀疏的用戶(hù)評分矩陣R分解為兩個(gè)矩陣:User特性的矩陣P和Item特性的矩陣Q,并用已知的數據構建這些向量,使用它們來(lái)預測未知的項。該算法在有效提高計算精度的同時(shí),還能夠加入各種建模元素,使更多元化的信息融合進(jìn)來(lái),更好地利用大量數據。
然而矩陣分解也有不足。不足之處在于,矩陣分解和協(xié)同過(guò)濾算法一樣,都屬于監督學(xué)習范疇,粗糙且簡(jiǎn)單,適用于小型系統。擺在網(wǎng)絡(luò )巨頭們面前的問(wèn)題是,如果需要建立一個(gè)大型推薦系統,協(xié)同過(guò)濾和矩陣分解則會(huì )花費較長(cháng)的時(shí)間。怎么辦?
于是,一些攻城獅將眼光轉移到無(wú)監督學(xué)習中。無(wú)監督學(xué)習中的聚類(lèi)算法的本質(zhì)是識別用戶(hù)組,并對這個(gè)組內的用戶(hù)推薦相同的內容。當我們擁有足夠的數據,最好使用聚類(lèi)作為第一步,來(lái)縮減協(xié)同過(guò)濾算法中相關(guān)鄰居的選擇范圍。
隱語(yǔ)義模型運用了聚類(lèi)分析方法,其一大優(yōu)勢是既可以做評分預測,又可以同時(shí)對文本內容建模,使得通過(guò)內容來(lái)進(jìn)行推薦的效果得到較大提升。
Copyright © 2002-2017 山東博源通益泰橡膠制品銷(xiāo)售有限公司 版權所有 Power by DedeCms 魯ICP備13014080號-2