• 欢迎访问交通人网站!
  • 分享一款小游戏:信任的进化
  •    发表于7年前 (2016-02-01)  数据挖掘 |   抢沙发  673 
    文章评分 1 次,平均分 5.0

    有人说,数据会说谎。其实不然,数据本身不会说谎,它只会真是呈现记录的状态。

    所谓的数据会“说谎”,其根本原因在于分析数据的那个人所追求的“真相”。

    先来讲个故事:

    1941年,第二次世界大战正打得如火如荼。有一天,美国哥伦比亚大学著名统计学家沃德 教授(Abraham Wald) 遇到了一个意外的访客,那是英国皇家空军的作战指挥官。

    他说:“沃德教授,每次飞行员出发去执行轰炸任务,我们最怕听到的回报是:‘ 呼叫总部,我中弹了!’请协助我们改善这个攸关飞行员生死的难题吧!”

    沃德接下这个紧急研究案,他受委托分析德国地面炮火击中联军轰炸机的资料,并且以统计专业,建议机体装甲应该如何加强,才能降低被炮火击落的机会。但依照当时的航空技术,机体装甲只能局部加强,否则机体过重,会导致起飞困难及操控迟钝。沃德将联军轰炸机的弹着点资料,描绘成两张比较表,沃德的研究发现,机翼是最容易被击中的部位,而飞行员的座舱与机尾,则是最少被击中的部位。

    沃德详尽的资料分析,令英国皇家空军十分满意。但在研究成果报告的会议上,却发生一场激辩。

    负责该项目的作战指挥官说:“沃德 教授的研究清楚地显示,联军轰炸机的机翼,弹孔密密麻麻,最容易中弹。因此,我们应该加强机翼的装甲。”

    沃德客气但坚定地说: “将军,我尊敬你在飞行上的专业, 但我有完全不同的看法,我建议加强飞行员座舱与机尾部位的装甲,因为那儿最少发现弹孔。”

    大数据时代警惕“幸存者偏差”

    在全场错愕怀疑的眼光中,沃德解释说:“我所分析的样本中,只包含顺利返回基地的轰炸机。从统计的观点来看,我认为被多次击中机翼的轰炸机, 似乎还是能够安全返航,而飞机很少发现弹着点的部位,并非真的不会中弹,而是一旦中弹,根本就无法返航。”

    指挥官反驳说:“我很佩服沃德教授没有任何飞行经验,就敢做这么大胆的推论,就我个人而言,过去在执行任务时,也曾多次机翼中弹严重受创,要不是我飞行技术老到,运气也不错,早就机毁人亡了,所以,我依然强烈主张应该加强机翼的装甲。”

    这两种意见僵持不下,皇家空军部部长陷入苦思。他到底要相信这个作战经验丰富的飞将军, 还是要相信一个独排众议的统计学家?

    由于战况紧急,无法做更进一步的研究,部长决定接受沃德的建议,立刻加强驾驶舱与机尾发动机的防御装甲。不久之后,联军轰炸机被击落的比例,果然显著降低。

    为了确认这个决策的正确性,一段时间后,英国军方动用了敌后工作人员,搜集了部份坠毁在德国境内的联军飞机残骸,他们中弹的部位。果真如沃德所预料,主要集中在驾驶舱与发动机的位置。

    看不见的弹痕最致命,乍看之下,作战指挥官加强机翼装甲的决定十分合理, 但他忽略了一个事实:弹着点的分布,是一种严重偏误的资料。因为最关键的资料,其实是在被击落的飞机身上,但这些飞机却无法被观察到,因此,布满了弹痕的机翼,反而是飞机最强韧的部位。空军作战指挥官差点因为太重视「看得见」的弹痕,反而做出错误的决策。

    (有人说这个案例是杜撰的,但是有人扒出了一篇古老的论文,作者和内容都跟故事对上了。论文的下载地址附后。)

    这个案例有两个特别值得警惕的地方:

    第一, 搜集更多资料,并不会改善决策品质。 由于弹痕资料的来源本身就有严重的偏误,努力搜集更多的资料,恐怕只会更加深原有的误解。

    第二,召集更多作战经验丰富的飞行员来提供专业意见,也不能改善决策品质,因为 这些飞行员,正是产生偏误资料过程中的一环。他们都是安全回航的飞行员,虽然可能有机翼中弹的经验,但都不是驾驶舱或发动机中弹的“烈士”。

    统计学里将这类因结果导致错误认知的情况,称为“幸存者偏差”(Survivorship bias)。简单的说, 当他们愈认真凝视那些“看得到”的弹痕,他们离真相就愈远。

    信息界有所谓“Garbage In, Garbage Out”。前提(或假设)若是错误,再漂亮的统计算式或方法、再多的资料,也不能让后面的推论变得正确。

    在大数据时代,我们更要警惕“幸存者偏差”现象。因为随着数据种类的丰富、数据量的激增,很容易让人产生一种把握全局的错觉,从而迷失在数据的海洋中。殊不知,我们面对的大数据也许仅仅只能代表我们所关心问题的极小一部分。以此为基础分析得到的结论,无论方法多么新颖,如果角度存在偏差,得到的结论就会“谬以千里”。

    打赏
    微信
    支付宝
    微信二维码图片

    微信 扫描二维码打赏

    支付宝二维码图片

    支付宝 扫描二维码打赏

    相关下载

     

    除特别注明外,本站所有文章均为交通人原创,转载请注明出处来自http://www.hijtr.com/watch-out-for-survivorship-bias-in-big-data/

    交通人博客是交通人工作室(JTR Studio)建立的交通人系列网站之一,是交通人工作室的主阵地,旨在整合和分享交通行业相关资讯,具体包括但不限于行业新闻、行业动态,以及行业相关规范、书籍、报告和软件等资源。

    发表评论

    表情 格式

    *

    暂无评论

    
    切换注册

    登录

    忘记密码 ?

    切换登录

    注册

    扫一扫二维码分享