有一套日本劇集名為《遺留搜查》由2011年開始至今已播了五季共46集,是以警視廳刑事部搜查科糸村探員查案的故事,他在案發現場都可以找到一些看似和兇案無關的證據,憑著其鍥而不捨的精神,找到真正的兇手,靠的就是在現場一定會遺留一些犯罪的證據。
在今天我們常常討論的大數據當中,大數據分析員也應該和探員糸村先生一樣,要把場景還原才有用,好像在電子商業中,要還原到買家為甚麼要買你的産品,當時場景又是怎樣,分析員要從浩瀚的數據中找到精準的數據才有用,另外他不應該在未有答案前便有偏見,因為一有偏見便輸入帶着有色眼鏡的演算法,其答案一定有重大偏差。
筆者嘗試用三個案例去解釋怎樣還原場景,在九十年代香港引入有線電視並設有成人台播放三級電影,大部分人直覺都會認為收入最多是晚上和以男性觀眾為主,便會投放資源到認定的客戶,但經過多個月的經營之後,最多人觀看的時間原來是工作天的白天,而觀眾是家庭主婦,令到高管大跌眼鏡,證明想當然的未必是反映真相。
第二個案例是在2008年雷曼兄弟爆煲之前,Linked上有大量的雷曼兄弟員工到平台上尋找工作,當Linkedin的職員只是感到奇怪,後來雷曼兄弟破産,此LinkedIn 的職員才恍然大悟,並因此而引發股票市場大跌,這就是還原的場景,若果是有悟性的分析員便會把投資銀行的職員突然之間在尋找工作,便有可能是股票市場大跌的先兆之一。
第三個案例是七八十年代的酒樓報稅,由於那個時候酒樓業以現金結算,酒樓東主都是自行報少收入而從而希望少付一些稅金,聰明的官員會參考酒樓地下的報攤生意,去衡量酒樓的生意是否報足,用其它數據曲線去還原真相。
以上三個例子是數據應用的冰山一角,圍繞着不要有前設和帶有偏見,數據一定要採集準確,另外要輸入好演算法,這樣才能得出成交的場景,才能夠知道真正的行為背後的場景。 |
您可能有興趣:
|