非参数方法——核密度估计(Kernel Density Estimation)

模型与算法 5年前 (2019-04-20) 浏览: 8062 评论: 0

核密度估计(Kernel density estimation,KDE),是一种用于估计概率密度函数的非参数方法。令 \(x_1,x_2,\cdots,x_n\) 为独立同分布 \(F\) 的 \(n\) 个样本点,设其概率密度函数为 \(f\),核密度估计如下: \[\hat{f}_h(x) = \frac{1}{n}\sum_{i=1}{n}{K_h(x-x_i)}=\frac{1}{nh}\sum_{i=1}{n}{K(\frac{x-x_i}{h}})\] 其中,\(K(.)\) 为核函

基于公交 IC 卡和 AVL 数据的下车站点推导

数据挖掘 8年前 (2016-04-25) 浏览: 1597 评论: 0

前言 当敲下《基于公交IC卡和AVL数据的下车站点推导》这个题目的时候,不禁轻轻舒了一口气:终于把自己挖的坑给填上了。 其实在很早之前,上车站点识别和下车站点推导的核心代码就已经写完了。但是因为数据原因(更重要的原因是懒),先前的代码比较碎片,功能的实现还时不时需要人工的参与。 今天,算是彻彻底底的把上车识别和下车推导的程序码完了。最终的版本也已经完全实现了图形化操作,与最初的控制台程序相比,用户已经可以自行设定绝大多数的推导参数。为了尽可能减少软件使用过程中的假死现象,还特意添加了启动界面,以

「推介」城市公共交通系统大数据分析系统

模型与算法 8年前 (2016-08-16) 浏览: 2678 评论: 0

本文要介绍的是一个以公交 IC 卡和车辆定位数据等城市公交系统大数据为基础的数据分析系统,可实现公交车辆运营分析、公交客流 OD 推导和公交客流分析等功能,为城市公交线网规划、优化调整和运营管理提供数据和决策支撑。

罗曼诺夫斯基检验法(Romanowski)的临界值表

开发随记 7年前 (2017-09-05) 浏览: 1839 评论: 0

罗曼诺夫斯基检验法(Romanowski Test),又称 t 检验,是一种常见的异常数据检测方法,其基本流程为: (1)剔除疑似离群值 \(x_{o}\),计算新样本的均值和标准差: \[\overline{x'}=\frac{1}{n-1}\sum_{i=1}^{n-1}{x_i} \] \[s'=\sqrt{\frac{1}{n-2}\sum_{i=1}^{n-1}\left({x_i-\overline{x}}\right)^2}\] (2)计算统计量 \(K_{o}\) 的值: \[K

大数据时代警惕“幸存者偏差”

数据挖掘 8年前 (2016-02-01) 浏览: 696 评论: 0

有人说,数据会说谎。其实不然,数据本身不会说谎,它只会真是呈现记录的状态。 所谓的数据会“说谎”,其根本原因在于分析数据的那个人所追求的“真相”。 先来讲个故事: 1941年,第二次世界大战正打得如火如荼。有一天,美国哥伦比亚大学著名统计学家沃德 教授(Abraham Wald) 遇到了一个意外的访客,那是英国皇家空军的作战指挥官。 他说:“沃德教授,每次飞行员出发去执行轰炸任务,我们最怕听到的回报是:‘ 呼叫总部,我中弹了!’请协助我们改善这个攸关飞行员生死的难题吧!” 沃德接下这个紧急研究案

大数据不靠谱?“天网”算法或致数千人被“恐怖分子”甚至错杀

数据挖掘 8年前 (2016-02-20) 浏览: 610 评论: 0

大数据时代的隐私和安全:大数据一直与我们的生活息息相关。以前,我们有足够的理由不去关心大数据,因为大数据对我们的影响也许只是某个网站漂浮的一个小广告,或者电通讯公司的一个业务推广电话。就像湖面吹过一缕清风荡起的涟漪,如此的不起眼。而今后,随着智能家居、车联网、自动驾驶技术的流行,大数据将深入参与我们的生活。大数据在给我们生活带来便利的同时,也会带来一系列的问题:比如隐私问题。在互联网、智能手机流行的当下,隐私问题已经开始显现。大家应该都还记得那年 3Q 大战的“二选一”。而随着物联网技术的发展,

基于公交 IC 卡和 AVL 数据的上车站点识别

模型与算法 8年前 (2016-04-14) 浏览: 1151 评论: 0

在车辆定位系统广泛应用的今天,也许你会感觉要去识别公交乘客的上车站点并不是一件特别困难的事情。 因为从纯理论的角度来看,有了 IC 卡数据,有了 AVL 数据(特别是到离站数据),上车站点的识别基本上没有什么可以研究的。但是当你具体实践的时候,你会发现从公交 IC 卡和 AVL 数据到上车站点数据之间有一段很长很长的路。 “咦,20 号的 IC 数据里面竟有 19 号的数据!” “这个站的到离站时间也丢了!” “怎么五条公交线路共用一个线路编号!” …… 总而言之,没有不可能,只有想不到。 公交

常见大数据术语中英文对照表

数据挖掘 9年前 (2015-12-18) 浏览: 306 评论: 0

A 聚合(Aggregation) – 搜索、合并、显示数据的过程 算法(Algorithms) – 可以完成某种数据分析的数学公式 分析法(Analytics) – 用于发现数据的内在涵义 异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息 匿名化(Anonymizati

“大数据与城市空间分析研讨会”要点摘录

数据挖掘 9年前 (2015-12-16) 浏览: 1468 评论: 0

随着信息时代的到来,海量、多源的大数据将对城市问题咨询、城市规划应用、城市交通研究等方面的范式、技术革新产生重要影响。为推动大数据在城市研究中的应用,不断提高城市研究水平,2015 年 11 月 21 日,由同济大学建筑与城市规划学院、上海同济城市规划设计研究院、城市规划学刊编辑部共同主办的大数据与城市空间分析研讨会在同济大学成功举办。 会议嘉宾从多角度解读了对城市的理解、对大数据方法应用的心得,具体情况如下: 手机数据·活动特征 基于智能手机的个体用户活动特征分析 同济大学交通运输学院 &nb

在信息爆炸的时代,逻辑更重要

数据挖掘 7年前 (2017-01-31) 浏览: 286 评论: 0

互联网时代的信息爆炸使得信息变得不值钱,曾经精英们惊恐得以为会丧失很多话语权,但是发现并没有。其实信息并不重要,这都是些碎点,重要的是背后的思考逻辑,傻逼看到真的信息都能得出错误的结论,因为他的逻辑傻逼。聪明人即使信息掌握不全,都能通过强大的逻辑去寻找到自己要的信息。 曾经有个广告叫“心有多大,世界就有多大”。这话说的没错,当我看到了大海,我的心里早已有波澜,之后我无法视而不见。 荣耀的背后,总是充满着伤痛。上一个荣耀的时代属于宝洁,属于一切将大工业时代的佼佼者。但宝洁最近有点衰,媒体一窝蜂质疑


切换注册

登录

忘记密码 ?

切换登录

注册

扫一扫二维码分享