有一套日本剧集名为《遗留搜查》,由2011年开始至今已播了五季共46集,是以警视厅刑事部搜查科系村探员查案为主线的故事。他在案发现场总可以找到一些看似和凶案无关、却必定会遗留下来的犯罪证据,凭其锲而不捨的精神,找到真正的兇手。如今我们常常讨论大数据,当中的大数据分析员其实也应该和探员系村先生一样,要把场景还原。就像在电子商业当中,要还原到最基本的一步:买家为甚么要买你的产品?当时场景又是怎样?分析员必需要从浩瀚的数据中找到精准的数字。同时,他也必须保持中立,未有答案前摒弃一切偏见,一旦输入了带有偏见的演算法,其答案与真相定必存在大偏差。
我尝试用三个案例去解释怎样还原场景——上世纪九十年代香港引入有线电视并设有成人台播放三级电影。大部份人直觉都会认为收入最多的便是晚上时段,并设定男性为目标观众群组,因而电视台便针对这个预测开始投放资源到目标客户。然而,经过多个月的经营之后,最多人观看的时间原来是工作日的白天时段,观众是家庭主妇,使电视台的高管跌破眼镜,更证实了「想当然」的预测未必反映真相。第二个案例是在2008年雷曼兄弟破产之前,LinkedIn涌现大量雷曼兄弟员工到平台上寻找工作,当时LinkedIn的员工只是感到奇怪。后来雷曼兄弟破产,并因此引发股票市场大跌,他们才恍然大悟,而这就是分析员应该还原的场景。有「悟性」的分析员便会把投资银行的职员突然蜂拥寻找工作视为股票市场大跌的先兆之一。第三个案例是上世纪七八十年代酒楼报税的往昔旧事。当时酒楼业以现金结算,东主轻易便能少报收入,因而少付一些税金。然而聪明的官员却会参考酒楼门口的报摊生意,评估和衡量酒楼的生意有否报足。这便是运用其它数据曲线还原真相的例子。以上三个例子都是数据应用的冰山一角,却都围绕一个重点:准确的数据採集,建基于分析员能避开一切前设和偏见,运用和输入精妙演算法,最大程度地还原成交的场景,重现每一个行为背后的真相。
Code:https://youtu.be/FnhTCb0NXOs
|