香港教授祝建华:一个文科教授眼中的大数据
2013年12月13日,“中关村大数据日”在中关村软件园拉开帷幕。中关村大数据日以“你好,大数据:站在数据王国的门口”为主线,从大数据发展趋势、大数据与社交媒体、开源技术与趋势等层面,将大数据与云计算结合,讲解大数据发展前景,阐释大数据商业价值,描绘大数据时代的蓝图。香港城市大学的祝建华教授在现场发表演讲,他演讲的题目是“一个文科教授眼中的大数据”。 以下是现场速记: 祝建华:谢谢周老师的介绍,用现在的网络语言,我是一个文科男,或者是老年文科男。最近大家最有印象的是莫言在接受诺贝奖时说了一句话,
元胞自动机简介
定义 元胞自动机(Cellular Automata,简称CA,也有人译为细胞自动机、点格自动机、分子自动机或单元自动机),是一时间和空间都离散的动力系统。散布在规则格网 (Lattice Grid)中的每一元胞(Cell)取有限的离散状态,遵循同样的作用规则,依据确定的局部规则作同步更新。大量元胞通过简单的相互作用而构成动态系统的演化。不同于一般的动力学模型,元胞自动机不是由严格定义的物理方程或函数确定,而是用一系列模型构造的规则构成。凡是满足这些规则的模型都可以算作是元胞自动机模型。因此,元
无锡·基于手机信令数据的居民出行调查项目
在《从公交IC卡数据,我们到底能获得什么?》一文中,曾简单介绍了基于公交IC卡的公交客流分析。今天在这里转载一篇介绍基于手机信令数据的居民出行调查项目的文章。与公交IC卡数据相比,手机信令数据覆盖的人群更加广泛,时间上也更加连续,是未来替代居民出行调查的潜在手段。当然,目前基于手机信令数据的分析方法还存在一些难点,比如说定位的精度、活动模式的识别、出行方式的识别等。
科学解谜:数学模型能否预测未来
在普通人看来,数学和历史似乎是永远都挨不着边的两件事,就像文科生惧怕数字,而理科生敬畏文字。不过,偏偏却有这样的人试图用公式、数据去描述原本是用文字记录的历史。 人类社会是如何从一个个小部落演变到今天这样一个庞大而复杂的形态,这个问题就有研究人员用数学进行了回答。近期,在《美国国家科学院院刊》上发表的一篇由美英跨学科团队合著的论文,通过数学模型研究表明,激烈的战争是大型复杂社会进化的驱动力。 推演历史 英美的研究将重点放在军事创新的传播以及生态的地理因素的互动上。论文合著者之一美国国立数学生物综
对抗样本的基本原理:家猪变烤面包机
概述 对抗样本是机器学习模型的一个有趣现象,攻击者通过在源数据上增加人类难以通过感官辨识到的细微改变,但是却可以让机器学习模型接受并做出错误的分类决定。一个典型的场景就是图像分类模型的对抗样本,通过在图片上叠加精心构造的变化量,在肉眼难以察觉的情况下,让分类模型产生误判。 在原理上介绍对抗样本,以经典的二分类问题为例,机器学习模型通过在样本上训练,学习出一个分割平面,在分割平面的一侧的点都被识别为类别一,在分割平面的另外一侧的点都被识别为类别二。 生成攻击样本时,我们通过某种算法,针对指定的样本
一种神奇的 Sqrt 函数实现方法
在编程开发中,经常需要去计算一个数的平方根,小编一般是直接调用系统函数 Math.Sqrt()。 当然除了系统函数,我们也可以自己编写函数进行求解,常用的方法有二分法和牛顿迭代法。 二分法 二分法的基本思想:对于区间 \([m,n]\) 上连续不断且 \(f(m)·f(n) < 0\) 的函数 \(y=f(x)\),通过不断地把函数 \(f(x)\) 的零点所在的区间一分为二,使区间的两个端点逐步逼近零点,进而得到零点近似值。 显然,\(\sqrt{a}\) 是函数 \( f(x) =x^
「国发」促进大数据发展行动纲要
(本文有删减) 促进大数据发展行动纲要 大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。 信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。目前,我国在大数据发展和应用方面已具备一定基础,拥有市场优势和发展潜
Multicollinearity in Multiple Linear Regression using Ordinary Least Squares
The collinearity statistics provide information to allow the analyst to detect when the independents are intercorrelated to the degree that the regression output may be adversely affected. Interrelatedness of the independent variables creates what is
大数据时代:关注相关,淡化因果
这是小编一年前分享的一篇文章,今天无意看到,挖出来再分享一次。当初之所以分享这篇文章,是因为小编对于文中“What比why重要”的观点十分认同。在大数据时代,简单的额统计分析即可以轻松发现到两种或多种现象之间的潜在联系,但是却难以轻松地理清它们之间的因果关系。正如《大数据时代》的作者维克托指出的那样:大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,是对人类的认知和与世界交流的方式提出全新的