国产在线观看无码一区二区三区,国产黄大片在线观看画质优化,日本不卡一区二区三区中文

產(chǎn)品經(jīng)理也可以懂的-個性化推薦算法

時間：2018-01-30來源：lb577.com點擊量：次作者：辛宇軒

時間：2018-01-30點擊量：次作者：辛宇軒

今日頭條帶動了“個性化推薦”的概念，自此之后，無論是工具產(chǎn)品，電商產(chǎn)品，還是內(nèi)容型的產(chǎn)品，都自帶內(nèi)容屬性，個性化算法也逐漸從賣點變?yōu)闃伺洹?/span>

各種推薦算法不能僅僅是研發(fā)涉獵領域，作為PM，也要深入到算法內(nèi)部，了解算法的設計，以及結(jié)合內(nèi)容對算法不斷“調(diào)教”，才能讓產(chǎn)品的推薦算法不斷完善，才能符合用戶的口味。

目前比較流行的個性化推薦算法有以下幾種：

基于內(nèi)容的推薦：根據(jù)內(nèi)容本身的屬性(特征向量)所作的推薦。

基于關聯(lián)規(guī)則的推薦：“啤酒與尿布”的方式，是一種動態(tài)的推薦，能夠?qū)崟r對用戶的行為作出推薦。是基于物品之間的特征關聯(lián)性所做的推薦，在某種情況下會退化為物品協(xié)同過濾推薦。

協(xié)同過濾推薦：與基于關聯(lián)規(guī)則的推薦相比是一種靜態(tài)方式的推薦，是根據(jù)用戶已有的歷史行為作分析的基礎上做的推薦?？煞譃槲锲穮f(xié)同過濾、用戶協(xié)同過濾、基于模型的協(xié)同過濾。其中，基于模型的協(xié)同又可以分為以下幾種類型：基于距離的協(xié)同過濾；基于矩陣分解的協(xié)同過濾，即Latent Factor Model(SVD)或者ALS；基于圖模型協(xié)同，即Graph，也叫社會網(wǎng)絡圖模型。

1、產(chǎn)品冷啟動通過熱度算法進行內(nèi)容推薦

產(chǎn)品發(fā)展初期，由于一方面沒有用戶行為、用戶喜好、用戶畫像，另外也沒有大量的內(nèi)容樣本基礎，是很難開展個性化推薦的。所以在產(chǎn)品初期，一般采取“熱度算法”，顧名思義就是把熱點的內(nèi)容優(yōu)先推薦給用戶。雖然無法做到基于興趣和習慣為每一個用戶做到精準化的推薦，但能覆蓋到大部分的內(nèi)容需求，而且啟動成本比個性化推薦算法低太多。

熱度算法基本原理：

新聞熱度分 = 初始熱度分 + 用戶交互產(chǎn)生的熱度分 – 隨時間衰減的熱度分

Score = S0 + S（Users） – S（Time）

1）以新聞或視頻較有時效性的內(nèi)容舉例，熱度隨內(nèi)容陳舊而分值衰減。

2）初始熱度分不要一視同仁。

按照新聞類別給予新聞不同的初始熱度，讓用戶關注度高的類別獲得更高的初始熱度分，從而獲得更多的曝光。軍事>娛樂>體育>財經(jīng)....

對于重大事件的報道，如何讓它入庫時就有更高的熱度，我們采用的是熱詞匹配的方式。

即對大型新聞站點的頭條，Twitter熱點，競品的頭條做監(jiān)控和扒取，并將這批新聞的關鍵詞維護到熱詞庫并保持更新；每條新聞入庫的時候，讓新聞的關鍵詞去匹配熱詞庫，匹配度越高，就有越高的初始熱度分。這樣處理后，重大事件發(fā)生時，Twitter和門戶網(wǎng)站的爭相報道會導致熱詞集中化，所有匹配到這些熱詞的新聞，即報道同樣事件的新聞，會獲得很高的初始熱度分。

3）用戶交互的熱度分值比重不一。首先明確用戶的的哪些行為會提高新聞的熱度值，然后對這些行為賦予一定的得分規(guī)則。

例如對于單條新聞，用戶可以點擊閱讀（click），收藏（favor），分享（share），評論（comment）這四種行為，我們?yōu)椴煌男袨橘x予分數(shù)，就能得到新聞的實時用戶行為分為：

S（Users） = 1*click + 5*favor + 10*comment + 20*share

這里對不同行為賦予的分數(shù)為1,5,10,20，但這個值不能是一成不變的；當用戶規(guī)模小的時候，各項事件都小，此時需要提高每個事件的行為分來提升用戶行為的影響力；當用戶規(guī)模變大時，行為分也應該慢慢降低，因此做內(nèi)容運營時，應該對行為分不斷調(diào)整。

當然也有偷懶的辦法，那就是把用戶規(guī)?？紤]進去，算固定用戶數(shù)的行為分，即：

S（Users） = （1*click + 5*favor + 10*comment + 20*share）/ DAU * N（固定數(shù)）

這樣就保證了在不同用戶規(guī)模下，用戶行為產(chǎn)生的行為分基本穩(wěn)定。

2、基于內(nèi)容特征與用戶特征進行個性化推薦

對于此種推薦，有兩個實體：內(nèi)容和用戶，因此需要有一個聯(lián)系這兩者的東西，即為標簽。內(nèi)容轉(zhuǎn)換為標簽即為內(nèi)容特征化，用戶則稱為用戶特征化。對于此種推薦，主要分為以下幾個關鍵部分：

標簽庫

內(nèi)容特征化

用戶特征化

隱語義推薦

綜合上面講述的各個部分即可實現(xiàn)一個基于內(nèi)容和用戶畫像的個性化推薦系統(tǒng)。

標簽庫

標簽是聯(lián)系用戶與物品、內(nèi)容以及物品、內(nèi)容之間的紐帶，也是反應用戶興趣的重要數(shù)據(jù)源。標簽庫的最終用途在于對用戶進行行為、屬性標記。是將其他實體轉(zhuǎn)換為計算機可以理解的語言關鍵的一步。

標簽庫則是對標簽進行聚合的系統(tǒng)，包括對標簽的管理、更新等。

一般來說，標簽是以層級的形式組織的?？梢杂幸患壘S度、二級維度等。

標簽的來源主要有：

已有內(nèi)容的標簽

網(wǎng)絡抓取流行標簽

對運營的內(nèi)容進行關鍵詞提取

對于內(nèi)容的關鍵詞提取，使用結(jié)巴分詞+TFIDF即可。此外，也可以使用TextRank來提取內(nèi)容關鍵詞。

這里需要注意的一點是對于關聯(lián)標簽的處理，比如用戶的標簽是足球，而內(nèi)容的標簽是德甲、英超，那么用戶和內(nèi)容是無法聯(lián)系在一起的。最簡單的方式是人工設置關聯(lián)標簽，此外也可以使用word2vec一類工具對標簽做聚類處理，構(gòu)建主題模型，將德甲、英超聚類到足球下面。

內(nèi)容特征化

內(nèi)容特征化即給內(nèi)容打標簽。目前有兩種方式：

人工打標簽

機器自動打標簽

針對機器自動打標簽，需要采取機器學習的相關算法來實現(xiàn)，即針對一系列給定的標簽，給內(nèi)容選取其中匹配度最高的幾個標簽。這不同于通常的分類和聚類算法。可以采取使用分詞 +Word2Vec來實現(xiàn)，過程如下：

將文本語料進行分詞，以空格,tab隔開都可以，使用結(jié)巴分詞。

使用word2vec訓練詞的相似度模型。

使用tfidf提取內(nèi)容的關鍵詞A,B,C。

遍歷每一個標簽，計算關鍵詞與此標簽的相似度之和。

取出TopN相似度最高的標簽即為此內(nèi)容的標簽。

此外，可以使用文本主題挖掘相關技術，對內(nèi)容進行特征化。這也分為兩種情況:

通用情況下，只是為了效果優(yōu)化的特征提取，那么可以使用非監(jiān)督學習的主題模型算法。如LSA、PLSI和GaP模型或者LDA模型。

在和業(yè)務強相關時，需要在業(yè)務特定的標簽體系下給內(nèi)容打上適合的標簽。這時候需要使用的是監(jiān)督學習的主題模型。如sLDA、HSLDA等。

用戶特征化

用戶特征化即為用戶打標簽。通過用戶的行為日志和一定的模型算法得到用戶的每個標簽的權重。

用戶對內(nèi)容的行為：點贊、不感興趣、點擊、瀏覽。對用戶的反饋行為如點贊賦予權值1，不感興趣賦予-1；對于用戶的瀏覽行為，則可使用點擊/瀏覽作為權值。

對內(nèi)容發(fā)生的行為可以認為對此內(nèi)容所帶的標簽的行為。

用戶的興趣是時間衰減的，即離當前時間越遠的興趣比重越低。時間衰減函數(shù)使用1/[log(t)+1], t為事件發(fā)生的時間距離當前時間的大小。

要考慮到熱門內(nèi)容會干預用戶的標簽，需要對熱門內(nèi)容進行降權。使用click/pv作為用戶瀏覽行為權值即可達到此目的。

此外，還需要考慮噪聲的干擾，如標題黨等。

另，在非業(yè)務強相關的情況下，還可以考慮使用LSA主題模型等矩陣分解的方式對用戶進行標簽化。

隱語義推薦

有了內(nèi)容特征和用戶特征，可以使用隱語義模型進行推薦。這里可以使用其簡化形式，以達到實時計算的目的。

用戶對于某一個內(nèi)容的興趣度(可以認為是CTR)：

其中i=1…N是內(nèi)容c具有的標簽，m(ci)指的內(nèi)容c和標簽i的關聯(lián)度(可以簡單認為是1),n(ui)指的是用戶u的標簽i的權重值,當用戶不具有此標簽時n(ui)=0，q©指的是內(nèi)容c的質(zhì)量，可以使用點擊率(click/pv)表示。

3、其他運用

除了個性化推薦，基于內(nèi)容的相關性算法能精準地給出一篇新聞的相關推薦列表，對相關閱讀的實現(xiàn)非常有意義。此外，標簽系統(tǒng)對新聞分類的實現(xiàn)和提升準確性，也有重要的意義。

4、優(yōu)缺點

基于內(nèi)容的推薦算法有幾個明顯優(yōu)點：

對用戶數(shù)量沒有要求，無論日活幾千或是幾百萬，均可以采用；因此個性化推薦早期一般采用這種方式。

每個用戶的特征都是由自己的行為來決定的，是獨立存在的，不會有互相干擾，因此惡意刷閱讀等新聞不會影響到推薦算法。

而最主要的缺點就是確定性太強了，所有推薦的內(nèi)容都是由用戶的閱讀歷史決定，所以沒辦法挖掘用戶的潛在興趣；也就是由于這一點，基于內(nèi)容的推薦一般與其他推薦算法同時存在。

基于用戶的協(xié)同推薦

終于，經(jīng)過團隊的努力，你的產(chǎn)品已經(jīng)有了大量活躍用戶了，這時候你開始不滿足于現(xiàn)有的算法。雖然基于內(nèi)容的推薦已經(jīng)很精準了，但總是少了那么一點性感。因為你所有給用戶的內(nèi)容都是基于他們的閱讀習慣推薦的，沒能給用戶“不期而遇”的感覺。

于是，你就開始做基于用戶的協(xié)同過濾了。

基于用戶的協(xié)同過濾推薦算法，簡單來講就是依據(jù)用戶A的閱讀喜好，為A找到與他興趣最接近的群體，所謂“人以群分”，然后把這個群體里其他人喜歡的，但是A沒有閱讀過的內(nèi)容推薦給A。

舉例我是一個足球迷，系統(tǒng)找到與我類似的用戶都是足球的重度閱讀者，但與此同時，這些“足球群體”中有一部分人有看NBA新聞的習慣，系統(tǒng)就可能會給我推薦NBA內(nèi)容，很可能我也對NBA也感興趣，這樣我在后臺的興趣圖譜就更完善了。

1、用戶群體劃分

做基于用戶的協(xié)同過濾，首先就要做用戶的劃分，可以從三方面著手：

（1）外部數(shù)據(jù)的借用

這里使用社交平臺數(shù)據(jù)的居多，現(xiàn)在產(chǎn)品的登錄體系一般都借用第三方社媒的登錄體系，如國外的Facebook、Twitter，國內(nèi)的微信、微博，借用第三方賬戶的好處多多，例如降低門檻，方便傳播等，還能對個性化推薦起到重要作用。

因為第三方賬戶都是授權獲取部分用戶信息的，往往包括性別，年齡，工作甚至社交關系等，這些信息對用戶群劃分很有意義。

此外還有其他的一些數(shù)據(jù)也能借用，例如IP地址，手機語種等。

使用這些數(shù)據(jù)，你很容易就能得到一個用戶是北京的還是上海的，是大學生還是創(chuàng)業(yè)者，并依據(jù)這些屬性做準確的大類劃分。

比如一篇行業(yè)投資分析出來后，“上海創(chuàng)業(yè)圈”這個群體80%的用戶都看過，那就可以推薦給剩下的20%。

（2）產(chǎn)品內(nèi)主動詢問

常見在產(chǎn)品首次啟動的時候，彈框詢問用戶是男是女，職業(yè)等，這樣能對內(nèi)容推薦的冷啟動提供一些幫助。但總體來說，性價比偏低，只能詢問兩三個問題并對用戶的推薦內(nèi)容做非常粗略的劃分，同時要避免打擾到用戶；這種做法算是基于用戶個性化的雛形。

（3）對比用戶特征

新聞的特征加用戶的閱讀數(shù)據(jù)能得到用戶的特征，那就可以通過用戶特征的相似性來劃分群體。

最后總結(jié)，沒有一款完美的個性化推薦算法，畢竟用戶的心里你別猜別猜別猜，但是產(chǎn)品經(jīng)理還是要結(jié)合自身產(chǎn)品不斷打磨算法。

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽！怕錢不夠？可先就業(yè)掙錢后再付學費！怕學不會？助教全程陪讀，隨時解惑！擔心就業(yè)？一地學習，可推薦就業(yè)！

?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司備案號：京ICP備12034770號監(jiān)督電話：010-53672995 郵箱：bjaaa@aaaedu.cc

AAA教育

產(chǎn)品經(jīng)理也可以懂的-個性化推薦算法

預約申請免費試聽課

AAA教育官方微信

視頻學習群