聯(lián)商網(wǎng)前言:Netflix是近年來(lái)迅速竄起來(lái)的美國(guó)知名影片,音樂(lè)租賃零售商,已經(jīng)連續(xù)五次被評(píng)為顧客最滿意的網(wǎng)站。公司可以提供在線影片租賃觀看,或者租賃實(shí)體DVD,并在大多數(shù)的知名實(shí)體零售商內(nèi)設(shè)有Netflix自動(dòng)影片租賃亭。在其急速滲透至美國(guó)消費(fèi)者家庭的同時(shí)我們不得不感嘆公司背后強(qiáng)大的技術(shù)支持,下文分享的是Netflix基于用戶搜索作出的相關(guān)推薦運(yùn)算法,譯者想表達(dá)的是:簡(jiǎn)單的現(xiàn)象背后不簡(jiǎn)單的工程。
假如你用過(guò)Netflix的影片租賃服務(wù),你可能會(huì)被它基于你搜索下的影片相關(guān)推薦給驚訝到,因?yàn)樗?ldquo;相關(guān)推薦”是在是有點(diǎn)特殊、甚至讓你覺(jué)得摸不著頭腦。
假如Netflix要為其約4000萬(wàn)名顧客作出特殊的影片定制推薦,那它需要多大的個(gè)性化類(lèi)型數(shù)據(jù)庫(kù)去描述整個(gè)好萊塢的電影呢?
當(dāng)筆者意識(shí)到自己可能發(fā)現(xiàn)Netflix算法規(guī)律后,深深的被這個(gè)網(wǎng)站的技術(shù)理念給震懾了。通過(guò)大量而且重復(fù)工作,筆者發(fā)現(xiàn)Netflix的影片數(shù)據(jù)分類(lèi)不是簡(jiǎn)單的分幾百或幾千個(gè),這個(gè)網(wǎng)站有76897種獨(dú)立的電影分類(lèi)方法。
我們花了數(shù)周的時(shí)間去理解,分析,逆向解析Netflix的詞匯和語(yǔ)法的分類(lèi)原理。我們已經(jīng)拆分了Netflix最受歡迎的分類(lèi),計(jì)算出最受歡迎的演員和導(dǎo)演。
有史以來(lái)從沒(méi)有一家公司會(huì)像Netflix整合過(guò)這些數(shù)據(jù)。從數(shù)據(jù)中可以得知:Netflix分析非常細(xì)致,給每一部電影和電視劇都會(huì)設(shè)定標(biāo)簽。他們幾乎擁有所有好萊塢的影片,而那些我們找到的流派僅僅是整個(gè)數(shù)據(jù)庫(kù)的冰山一角。
我們逆向解構(gòu)Netflix的系統(tǒng)原理,發(fā)現(xiàn)真的難以超越。公司雇傭了很多人,工作前需要閱讀長(zhǎng)達(dá)36頁(yè)的培訓(xùn)文件,然后訓(xùn)練他們?nèi)绾螌?duì)影片的暗示性內(nèi)容、暴力程度、浪漫情節(jié)等元素做出精準(zhǔn)的評(píng)級(jí)、分類(lèi)。
他們捕捉了數(shù)萬(wàn)種不同的電影屬性,甚至還為影片主要人物進(jìn)行道德評(píng)級(jí)。這些標(biāo)簽,與4000萬(wàn)用戶的看片習(xí)慣進(jìn)行匹配,隨即形成了Netflix獨(dú)一無(wú)二的競(jìng)爭(zhēng)優(yōu)勢(shì)。
在Netflix線下銷(xiāo)售中沒(méi)有一部電影的標(biāo)簽超過(guò)五個(gè),三個(gè)描述詞的比較多:如戀愛(ài)無(wú)果外國(guó)喜劇片,兩個(gè)描述詞的最常用,用得最多的就是一個(gè)形容詞。
從《洛杉磯時(shí)報(bào)》的一篇文章中我們學(xué)到了設(shè)置標(biāo)簽的基本知識(shí)。這些標(biāo)簽是如何與Netflix的個(gè)性化推薦祥結(jié)合的?是什么樣的算法能將標(biāo)簽精確地轉(zhuǎn)化為76897個(gè)分類(lèi)?
其中關(guān)鍵的一步是:將設(shè)置標(biāo)簽的人類(lèi)智慧與有著運(yùn)算法則的機(jī)器智能相結(jié)合。不難看出,Netflix公司”個(gè)性化類(lèi)型“完全是人為形成的,也從側(cè)面反映出人類(lèi)可能還不能獨(dú)立解決這一問(wèn)題。例如,形容詞“賞心悅目的”,要想給電影貼上這樣的標(biāo)簽,電影必須滿足一系列特征以外,更重要的是有一個(gè)美滿的結(jié)局。工程師在給一部電影分類(lèi)時(shí),依據(jù)的是一系列基本的標(biāo)簽,并不是直接得到這個(gè)電影的類(lèi)型。
Netflix公司甚至拿出100萬(wàn)美元的獎(jiǎng)金用于鼓勵(lì)團(tuán)隊(duì)設(shè)計(jì)出算法。要求其算法能夠提高公司預(yù)測(cè)用戶給電影評(píng)星的能力。而團(tuán)隊(duì)花費(fèi)數(shù)年時(shí)間也僅僅把算法提高10%。
Netflix這么做的最主要目的是留住訂閱用戶。而我們之前表象看到的奇怪推薦正是他們戰(zhàn)略的重要部分。早在2012年時(shí),Netflix就在其官博中提到,“能精確捕捉到用戶喜歡的微類(lèi)型內(nèi)容,就能用提升訂購(gòu)率,從而拉開(kāi)自己與競(jìng)爭(zhēng)對(duì)手的差距”事實(shí)也證明,Netflix更了解用戶,其網(wǎng)站內(nèi)容對(duì)于用戶的粘性就越強(qiáng)。
現(xiàn)在Netflix建立了屬于自己用戶對(duì)美國(guó)電影喜好的強(qiáng)大數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)雖然不能告訴導(dǎo)演編劇影視劇要怎么拍才能有好票房,但至少能提醒美國(guó)的制片人,影片需要有哪些元素才能抓住美國(guó)觀眾的眼球,例如在拍攝美劇“紙牌屋”的時(shí)候,就很好的利用了這些元素。
(聯(lián)商網(wǎng)編譯,轉(zhuǎn)載注明出處)