非参数方法——核密度估计(Kernel Density Estimation)

非参数方法——核密度估计(Kernel Density Estimation)

模型与算法 5年前 (2019-04-20) 浏览: 8037 评论: 0

核密度估计(Kernel density estimation,KDE),是一种用于估计概率密度函数的非参数方法。令 \(x_1,x_2,\cdots,x_n\) 为独立同分布 \(F\) 的 \(n\) 个样本点,设其概率密度函数为 \(f\),核密度估计如下: \[\hat{f}_h(x) = \frac{1}{n}\sum_{i=1}{n}{K_h(x-x_i)}=\frac{1}{nh}\sum_{i=1}{n}{K(\frac{x-x_i}{h}})\] 其中,\(K(.)\) 为核函

罗曼诺夫斯基检验法(Romanowski)的临界值表

罗曼诺夫斯基检验法(Romanowski)的临界值表

开发随记 7年前 (2017-09-05) 浏览: 1833 评论: 0

罗曼诺夫斯基检验法(Romanowski Test),又称 t 检验,是一种常见的异常数据检测方法,其基本流程为: (1)剔除疑似离群值 \(x_{o}\),计算新样本的均值和标准差: \[\overline{x'}=\frac{1}{n-1}\sum_{i=1}^{n-1}{x_i} \] \[s'=\sqrt{\frac{1}{n-2}\sum_{i=1}^{n-1}\left({x_i-\overline{x}}\right)^2}\] (2)计算统计量 \(K_{o}\) 的值: \[K

基于公交 IC 卡和 AVL 数据的下车站点推导

基于公交 IC 卡和 AVL 数据的下车站点推导

数据挖掘 8年前 (2016-04-25) 浏览: 1593 评论: 0

前言 当敲下《基于公交IC卡和AVL数据的下车站点推导》这个题目的时候,不禁轻轻舒了一口气:终于把自己挖的坑给填上了。 其实在很早之前,上车站点识别和下车站点推导的核心代码就已经写完了。但是因为数据原因(更重要的原因是懒),先前的代码比较碎片,功能的实现还时不时需要人工的参与。 今天,算是彻彻底底的把上车识别和下车推导的程序码完了。最终的版本也已经完全实现了图形化操作,与最初的控制台程序相比,用户已经可以自行设定绝大多数的推导参数。为了尽可能减少软件使用过程中的假死现象,还特意添加了启动界面,以

「推介」城市公共交通系统大数据分析系统

「推介」城市公共交通系统大数据分析系统

模型与算法 8年前 (2016-08-16) 浏览: 2671 评论: 0

本文要介绍的是一个以公交 IC 卡和车辆定位数据等城市公交系统大数据为基础的数据分析系统,可实现公交车辆运营分析、公交客流 OD 推导和公交客流分析等功能,为城市公交线网规划、优化调整和运营管理提供数据和决策支撑。

大数据时代警惕“幸存者偏差”

大数据时代警惕“幸存者偏差”

数据挖掘 8年前 (2016-02-01) 浏览: 696 评论: 0

有人说,数据会说谎。其实不然,数据本身不会说谎,它只会真是呈现记录的状态。 所谓的数据会“说谎”,其根本原因在于分析数据的那个人所追求的“真相”。 先来讲个故事: 1941年,第二次世界大战正打得如火如荼。有一天,美国哥伦比亚大学著名统计学家沃德 教授(Abraham Wald) 遇到了一个意外的访客,那是英国皇家空军的作战指挥官。 他说:“沃德教授,每次飞行员出发去执行轰炸任务,我们最怕听到的回报是:‘ 呼叫总部,我中弹了!’请协助我们改善这个攸关飞行员生死的难题吧!” 沃德接下这个紧急研究案

汉语编程,你也行!

汉语编程,你也行!

开发随记 9年前 (2015-12-06) 浏览: 452 评论: 0

其实敲出这样一个标题,小编的内心是崩溃的。 因为我们日常接触到的绝大部分编程语言都是以英语为基础的,比如VB、C、C++、C#、Matlab、PHP、R、Java等等。 数据来源:TIOBE Index for December 2015 其实呢,像 C#,也是支持中文变量的,比如: int 年龄=0,这里“年龄”就是一个整型变量。 但是如果连关键字都是直接用汉字呢?比如说下面这位崩溃的程序猿遇到的奇葩事。 小编已经被深深的震惊了!你说你都这样了,为什么不直接使用易语言啊!! 好吧,其实汉语编程

地理围栏:如何判断一个点是否在多边形内部?

地理围栏:如何判断一个点是否在多边形内部?

开发随记 8年前 (2016-02-22) 浏览: 1993 评论: 0

地理围栏(Geo-fencing)是LBS的一种应用。简单地说,就是用一个虚拟的栅栏围出一个虚拟地理边界,当用户进入或者离开某个特定区域,就会触发相应的互动。 如下图所示的三个商场,当用户进入其中某个商场的时候,服务器就会将对应商场的优惠券消息推送到用户。 在公共交通领域,地理围栏常用于公交车辆的报站。对于每个站点,事先预设一个地理围栏,当车辆进入站点区域后,车辆自动报站。该技术同样可以用来记录公交车辆的到站和离站时间。 那么我们如何判断一个点是否在多边形的内部呢?这是地理围栏的核心问题。本文将

大数据不靠谱?“天网”算法或致数千人被“恐怖分子”甚至错杀

大数据不靠谱?“天网”算法或致数千人被“恐怖分子”甚至错杀

数据挖掘 8年前 (2016-02-20) 浏览: 610 评论: 0

大数据时代的隐私和安全:大数据一直与我们的生活息息相关。以前,我们有足够的理由不去关心大数据,因为大数据对我们的影响也许只是某个网站漂浮的一个小广告,或者电通讯公司的一个业务推广电话。就像湖面吹过一缕清风荡起的涟漪,如此的不起眼。而今后,随着智能家居、车联网、自动驾驶技术的流行,大数据将深入参与我们的生活。大数据在给我们生活带来便利的同时,也会带来一系列的问题:比如隐私问题。在互联网、智能手机流行的当下,隐私问题已经开始显现。大家应该都还记得那年 3Q 大战的“二选一”。而随着物联网技术的发展,

基于公交 IC 卡和 AVL 数据的上车站点识别

基于公交 IC 卡和 AVL 数据的上车站点识别

模型与算法 8年前 (2016-04-14) 浏览: 1150 评论: 0

在车辆定位系统广泛应用的今天,也许你会感觉要去识别公交乘客的上车站点并不是一件特别困难的事情。 因为从纯理论的角度来看,有了 IC 卡数据,有了 AVL 数据(特别是到离站数据),上车站点的识别基本上没有什么可以研究的。但是当你具体实践的时候,你会发现从公交 IC 卡和 AVL 数据到上车站点数据之间有一段很长很长的路。 “咦,20 号的 IC 数据里面竟有 19 号的数据!” “这个站的到离站时间也丢了!” “怎么五条公交线路共用一个线路编号!” …… 总而言之,没有不可能,只有想不到。 公交

常见大数据术语中英文对照表

常见大数据术语中英文对照表

数据挖掘 8年前 (2015-12-18) 浏览: 302 评论: 0

A 聚合(Aggregation) – 搜索、合并、显示数据的过程 算法(Algorithms) – 可以完成某种数据分析的数学公式 分析法(Analytics) – 用于发现数据的内在涵义 异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息 匿名化(Anonymizati


切换注册

登录

忘记密码 ?

切换登录

注册

扫一扫二维码分享