- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-02-28來源:億信華辰瀏覽數:568次

截止到今天,中國首部重工業科幻電影《流浪地球》票房已經突破 41 億元,很可能會最終突破 50 億票房。驚人的票房數據讓眾多票房預測機構大跌眼鏡。根據我們的統計,在春節檔之前,不同預測機構給《流浪地球》的票房預測普遍在 10 億左右,與本片的實際票房差距在五倍左右。
與此同時,在春節檔其它電影的票房預測上,預測機構也普遍呈現了非常大的偏差,甚至在電影第一天的票房數據之后,貓眼APP 給出的《喜劇之王》的預測值仍然達到了 24.96 億,而實際上,《喜劇之王》的票房之后就大幅縮水,最終的票房很可能只停留在 6 億左右。

票房分析可以說是大數據分析一個非常典型的應用了,具有數據來源多(歷史票房數據、社交媒體互動、受眾反饋等)、數據量大、影響因子多(用戶評價、宣傳流量、預售量、檔期、題材、流量明星)等等特點,可是真正到實踐之中仍然不盡如人意。那么,為什么數據預測這么難呢?怎么來提升數據預測的準確性呢?
一、大數據來進行票房預測的三種思路
Datahunter 資深數據分析師介紹稱,目前針對電影票房的預測主要有以下三種思路:
第一種思路可以形象的理解為“照貓畫虎”,其原理在于:目前市場上已經上映了大量的影片,并積累了海量的票房變動數據,深度神經網絡模型可以依據某一部影片的大量用戶行為數據,在定檔影片上映前一個月就可以給出該片的首日票房預測;同時,系統自動篩選出與之最相似的電影,描繪出待映電影的未來票房走勢圖,進而預測出這部影片在上映期間的每日票房以及最終的總票房。谷歌所采用的預測模型只選取了三種維度:電影預告片的搜索量、同系列電影前幾部的票房表現、檔期的季節性特征,最終獲得94%的預測準確率。

谷歌建立的票房預測線性回歸模型
這種方式的優點在于簡單直接,更接近傳統大數據分析“只反映趨勢,不深究因果”的理念,上映時間越長,其預測的數據就越為精準,往往適用于貓眼等掌握了大量票房數據的企業。但缺點在于,其無法將電影上映過程中眾多的復雜因素考慮進來,所以經常會出現預測波動大、與實際偏離值較高等缺陷。
第二種思路則較為復雜,而且會將更多的因子納入到考量因素中來。其先根據歷史票房變化預測出某一個檔期的總票房,然后根據社交媒體討論數量、不同導演與演員的歷史電影質量、點映用戶的評價、票房情況、SEO情況等預測出各電影票房占比,之后綜合預測出各電影的實際票房。這種方式優點在于更多的將“電影評價”這一個重要因子納入到考量范圍內,通過電影導演表現、上映前反饋等等因素來判斷出電影的流行趨勢,因此預測精準性方面有更好的效果。
第三種思路則綜合了大數據分析與人工決策,即先使用大數據分析來對于影片的票房進行一個事先的預測,并輸出可視化的數據圖表。與此同時,專家會對具體的電影進行分析,找出其潛在的爆點或是隱患,并評估其可能帶來的影響,并以加權的方式納入到模型之中進行修正。這種方式在預測爆品方面有更好的表現,也是 Datahunter 優先推薦的方式,這種方式我們在稍后會繼續講到。
二、票房預測為什么這么難?
盡管有著大量的數據以及先進的工具,但是票房預測仍然沒有達到讓人滿意的精準率,這就要像金融行業中經常談到的“黑天鵝”概念一樣,非常難以預測、且不尋常的事件經常會發生,而且還會引起連鎖負面反應甚至顛覆。體現在大數據分析與預測場景中,只要某個隱性但關鍵的因素沒有沒納入到模型中,將可能使預測與事實產生重大偏差。
這也是大數據分析的難點所在:事物變化的影響因素非常多,幾乎不可能窮盡,誰知道哪一個因素將會產生連鎖式的反應?而且,由于很多大數據分析工具并不考慮因果性,只考慮相關性,經常會帶來“虛假相關”的問題,也就是無法對于數據變化的真正原因進行歸因。在大多數場景下,這樣的預測并沒有什么問題,但是在特定的場景下,偏離預測的情況仍有可能會發生。
更加不可控制的則是不成熟的市場環境,以及潛在的風險因素,比如影片檔期選擇、宣發策略的一招失誤,就可能導致整個影片的票房成幾倍的誤差。而某個關鍵演員的負面新聞也同樣會帶來不可預期的影響,例如吳秀波的丑聞導致《情圣2》的撤檔,范冰冰事件則直接導致《大轟炸》放棄國內上映,賠的血本無歸。
如果將具體電影代入到預測模型中,我們將很容易發現預測的難度:如果使用谷歌預測模型來預測《流浪地球》,只有檔期的季節性特征是利于其票房發揮的,其不僅電影預告片的搜索量不及同檔期競爭電影,而且同系列的科幻電影幾乎沒有市場表現,無怪乎得到眾多預測機構的看衰。這樣的例子并不少,其突出的特點就是口碑的大幅引爆,比如《瘋狂動物城》、《白蛇傳》、《紅海行動》乃至票房榜首《戰狼》都屬于這個類型。
三、數據預測準確率如何改善?
盡管電影票房預測看似困難重重,但是仍舊可以通過不同的方式進行改善。在前面我們提到了大數據分析與人工決策相結合的方式,其核心原理就是利用人工思維的主觀能動性與創造性,發掘電影票房中潛在、但關鍵的影響因子,最終來得出結論。而這一影響因子是不斷發生變化的,幾年之前,這一關鍵因子往往體現在 IP、流量明星中,現在,口碑、開創性對于票房會帶來更大的影響。
有些人會問,電影尚未上映,口碑怎么來進行判斷呢?其實,這往往是有跡可循的,其數據可能來源于電影的提前點映評價、預告片、拍攝周期等等因素。例如,在上映之前,《流浪地球》的點映就得到了觀眾的超高評價,而《愛情公寓》大電影還沒上映我們就基本可以判斷是爛片。當然,這些都是大數據系統無法完全告訴我們的,需要專家進行評判。
要評價電影對于觀眾的吸引力,還可以采取 LDA 來進行分析,LDA 是一種非監督機器學習技術,可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。下面是不同機構通過 LDA 對《流浪地球》進行的詞云圖分析,可以看出《流浪地球》的科幻、特效等核心詞匯很好的切中了當前觀眾的“痛點”,完全可以在預測中給出更高的評判。
四、數據分析的其它應用場景
除了票房之外,其它應用場景可以利用大數據分析+人工決策的方式進行分析么,答案是肯定的。目前 Datahunter 正在搭建 Data Analytics 數據分析平臺+Data Wisdom數據智能決策的人工智能決策輔助平臺,這套系統并沒有激進的將所有決策任務都交給機器系統,而是將數據挖掘結果輸出給專家,并結合專家判斷進行調整,能夠更好的預防“黑天鵝”事件的發生。
例如,在銷售數據預測時,除了可以根據歷史銷售數據、人口密度、消費水平、消費習慣、商圈口碑等數據進行深度數據挖掘之外,管理者或是專家還會根據帕努單那納入其它的影響因子(例如某項活動的舉行、補貼政策的退出等等),根據結果進行相應的資源調配以及銷售額調控措施,讓銷售更富精準性。