• 欢迎访问交通人网站!
  • 分享一款小游戏:信任的进化
  •    发表于7年前 (2018-07-03)  思辨明理 |   抢沙发  210 
    文章评分 0 次,平均分 0.0
    导语:“造谣动动嘴,辟谣跑断腿”——大数据研究的真实写照。当下,数据为王,只要拥有数据,谁都可以置喙一二。于是乎,各种大数据分析报告满天飞,一些报告甚至连基本的概念都没有搞清楚。也难怪,数据即资源,研究的目的是为了数据变现。不弄点动静,如何吸引关注!外行如此,内行也好不到哪里去。如今,论文已然成为研究的首要目标和唯一价值。大数据研究,数据的预处理是关键,但是目前鲜有人去深究数据中的种种问题,相反,大数据的“大”反而成了滋生造假的温床。

    最近在看到一些研究生的论文答辩和开题,对其中的一些研究内容,我产生了一些看法。这些看法在某些微信群中展开了激烈的讨论。冷静后,梳理自己的想法,形成短文,供大家讨论。

    观点一:大数据研究的讨论应该要建立在一个基本框架下讨论

    所有有意义的争论与质疑要建立在两件事情上。第一是要有共同认知模式,比如用 A 宗教的认知模式去争论B宗教的观点,怎么也不会有结果的。第二是要有基本的讨论框架,才能让逻辑和知识在这个框架下运行,保证讨论逻辑对内的自洽。目前的很多微信群中的讨论,主要是缺乏后者。

    我这里提出一个讨论问题的框架,仅供参考,即定义 -> 数据源 -> 计算方法 -> 扩样方法 -> 数据校核。

    • 定义:所讨论数据研究的定义内涵外延。
    • 数据源:数据来源,时间,数据特点,可能的缺陷。
    • 计算方法:大致的计算方法,模型选择。
    • 扩样方法:样本与母体的关系,扩样的方法。(并不是所有的研究都需要扩样,有研究仅讨论相对关系的。)
    • 数据校核:外部独立不相关数据的校核,校核源越多一般就越有说服力。

    观点二:反对从数据资料出发和从研究工具出发的研究

    所有的研究都应该是从问题出发的。理由是所有的研究最终是要解决具体的有价值的问题的。有些学者由于掌握了一些特点的数据材料,有些是掌握了。讲一个我听到过的一个有趣的故事吧。历史学曾经有一个研究是关于杨玉环上吊是用白绫还是红绫,一派支持白绫说,一派支持红绫说。两派争执不下,主要是各自都有特定的研究出土文物,以及新的考古技术。也就是从材料出发和从工具出发。可是对于历史研究而言,杨玉环的死用什么颜色的绫子又有什么关系呢??

    观点三:大数据所谓的概化的模糊,本质上还是统计学原理

    杨东援教授曾经说过,以传统调查为代表的小数据抽样可能是精确的错误,以手机信令数据分析为代表的大数据研究技术则是模糊的准确。应该怎么理解这句话呢?我觉得本质上是没有不同的,在统计意义上不存在数据大到一定程度就放生神奇的质的变化,都是对于母体的抽样,只是抽样的规模不一样。即便是高达80%的抽样也是抽样,其实很少有真正意义上 100% 的全样本调查(因为各类的脏数据总是客观存在的。)既然是抽样,就必须讲清楚抽样和母体的关系。所谓的大数据的概化的模糊的准确,本质上是统计学上通过统计工具计算后对于小概率事件的拒绝。

    所以既然大数据研究也是抽样,所以就有可能会产生扩样的问题,至少一定要证明抽样样本的统计为什么是可以反应母体性质的。从另一个角度说,数据也不是相对母体占比越多越好的,而是无偏性越好则越好的。只能说,一般数据量的样本大,抽样无偏的概率就越大,比如移动信令数据的无偏性理论上是要好于联通信令数据的。

    观点四:一定要说明参与计算数据集合选择,为什么是适合本次研究的

    当我们处理数据的时候,把数据包中的数据,经过一些计算规则和算法模型得到的参与最后计算的样本,一定要说明这些样本与原来的数据包是什么关系,为什么现在选出来的数据是可以用于模型统计的。

    以最近微信公众号上一篇利用上海手机信令数据,研究上海职住联系结构的研究为例,参与计算的样本是上海 400 万对职住不同地的数据。但是上海一天出现的手机号码有 1800 万,被剔除的数据有 1400 万之多,这就不是统计学可以忽略的小概率数据了。这 1400 万到底是什么人呢?物联网卡?火车高速公路过境人员?短期驻留人口?白天夜晚很少活动的老人小孩高校学生?或者就是无可解释的人员?总之要和现实世界的其他统计数据核对。

    如果换一个城市重复这样的计算方法,比如中小城市,职住同地的人比例高许多的数据,职住不同地的样本变得比例非常小,还能反应职住空间联系吗?这是值得思考的问题。否则就是任意按照自己的某种规则选择一些样本就可以参与计算了,需要怎样的结果就可以人为的得到,就失去研究的价值了。

    再举一个例子,最近某硕士论文研究,上海两个年度的手机信令数据中相同 msid 家和工作地的变化,来研究职住变迁。问题就在于,两个年度的数据之间共同 msid 的比例很低,凭什么用这个交集就能研究上海的职住变迁呢?进一步地,这个职住变迁的比例偏高太多,三年内上海职住变迁的人数比例会有那么高吗?尤其是住的人群。

    观点五:数据的光芒最后一定要照耀到现实世界中去

    从数据中来,一定要最终走出数据,要去和现实世界的其他统计数据做对比。结论到底是否正确,如果和现实的结果不符合,会不会是计算的错误?会不会是数据本身质量的问题?不可以自娱自乐,不问世事。再拿上文提到的那篇研究性的公众号文章为例,文中研究的用复杂网络理论计算的“社区”(一种联系紧密的空间单元,并非一般所知的社区),得到的结论中大量“社区”是在上海外环外的郊区无人地区或者农村地区,这一类结论就是没有和现实世界去对照。非常有可能是数据异常导致的,或者是这种方法本身就不适合。

    再讲一个我看到真实的例子,某美国教授研究的一篇 SCI 论文。大概说的是,测算全球气候变暖以后,海平面会升高多少,从而导致佛罗里达州有多少面积的土地和公路无法使用。在一定条件下,这样的公路网的可达性会下降多少。

    这个就是属于典型的用数据和模型研究一个完全无用的内容,好比西方谚语中,讲学习杀龙的技巧,但是世界上根本不存在龙。并不是说全球气候变暖,从而不会导致海啸。而是说如果真有如此重大自然灾害的时候,已经几乎没有什么太大的必要去使用残缺的道路系统了。其实整篇论文就是盖了一个巨大的全球气候变暖的帽子,用常规的方法研究了一下公路部分封闭的可达性变化,本质上是故弄玄虚。目前,在许多论文中,这其实是一种比较普遍的现象,主要原因是研究机构的学者距离实践的世界越来越远。

    打赏
    微信
    支付宝
    微信二维码图片

    微信 扫描二维码打赏

    支付宝二维码图片

    支付宝 扫描二维码打赏

    交通人博客是交通人工作室(JTR Studio)建立的交通人系列网站之一,是交通人工作室的主阵地,旨在整合和分享交通行业相关资讯,具体包括但不限于行业新闻、行业动态,以及行业相关规范、书籍、报告和软件等资源。

    发表评论

    表情 格式

    *

    暂无评论

    
    切换注册

    登录

    忘记密码 ?

    切换登录

    注册

    扫一扫二维码分享