有一套日本劇集名為《遺留搜查》,由2011年開始至今已播了五季共46集,是以警視廳刑事部搜查科系村探員查案為主線的故事。他在案發現場總可以找到一些看似和凶案無關、卻必定會遺留下來的犯罪證據,憑其鍥而不捨的精神,找到真正的兇手。如今我們常常討論大數據,當中的大數據分析員其實也應該和探員系村先生一樣,要把場景還原。就像在電子商業當中,要還原到最基本的一步:買家為甚麼要買你的產品?當時場景又是怎樣?分析員必需要從浩瀚的數據中找到精準的數字。同時,他也必須保持中立,未有答案前摒棄一切偏見,一旦輸入了帶有偏見的演算法,其答案與真相定必存在大偏差。
我嘗試用三個案例去解釋怎樣還原場景——上世紀九十年代香港引入有線電視並設有成人台播放三級電影。大部份人直覺都會認為收入最多的便是晚上時段,並設定男性為目標觀眾群組,因而電視台便針對這個預測開始投放資源到目標客戶。然而,經過多個月的經營之後,最多人觀看的時間原來是工作日的白天時段,觀眾是家庭主婦,使電視台的高管跌破眼鏡,更證實了「想當然」的預測未必反映真相。第二個案例是在2008年雷曼兄弟破產之前,LinkedIn湧現大量雷曼兄弟員工到平台上尋找工作,當時LinkedIn的員工只是感到奇怪。後來雷曼兄弟破產,並因此引發股票市場大跌,他們才恍然大悟,而這就是分析員應該還原的場景。有「悟性」的分析員便會把投資銀行的職員突然蜂擁尋找工作視為股票市場大跌的先兆之一。第三個案例是上世紀七八十年代酒樓報稅的往昔舊事。當時酒樓業以現金結算,東主輕易便能少報收入,因而少付一些稅金。然而聰明的官員卻會參考酒樓門口的報攤生意,評估和衡量酒樓的生意有否報足。這便是運用其它數據曲線還原真相的例子。以上三個例子都是數據應用的冰山一角,卻都圍繞一個重點:準確的數據採集,建基於分析員能避開一切前設和偏見,運用和輸入精妙演算法,最大程度地還原成交的場景,重現每一個行為背後的真相。
Code:https://youtu.be/FnhTCb0NXOs
|