罗曼诺夫斯基检验法(Romanowski Test),又称 t 检验,是一种常见的异常数据检测方法,其基本流程为:
(1)剔除疑似离群值 \(x_{o}\),计算新样本的均值和标准差:
\[\overline{x'}=\frac{1}{n-1}\sum_{i=1}^{n-1}{x_i} \]
\[s'=\sqrt{\frac{1}{n-2}\sum_{i=1}^{n-1}\left({x_i-\overline{x}}\right)^2}\]
(2)计算统计量 \(K_{o}\) 的值:
\[K_{o}=\frac{\left| x_{o}-\overline{x'} \right| }{s'}\]
(3)确定检出水平 \(\alpha\),查临界值 \(K_{\alpha}{\left( n \right)}\)。
(4)当 \(K_{o} > K_{\alpha}{\left( n \right)}\) 时,判定 \(x_{o}\) 为离群值,否则未发现 \(x_{o}\) 为离群值。
在具体应用时,发现网上竟然找不到完整的临界值表,也没有找到可用的 C# 类库。无奈之下,数学渣小编只好努力温习相关理论方法,自己编程进行计算。好在理论不是特别复杂,不过由于其中涉及积分问题,为了兼顾计算效率和准确性,还是花了好久时间才找到比较好的解决方案。
下面是小编计算的临界值表,主要给出了 \(\alpha\)=0.250、0.100、0.050、0.025、0.010 和 0.005 情况下。
n | 0.250 | 0.100 | 0.050 | 0.025 | 0.010 | 0.005 |
---|---|---|---|---|---|---|
4 | 0.943 | 2.177 | 3.372 | 4.968 | 8.042 | 11.460 |
5 | 0.855 | 1.831 | 2.631 | 3.558 | 5.077 | 6.530 |
6 | 0.811 | 1.680 | 2.335 | 3.041 | 4.105 | 5.044 |
7 | 0.785 | 1.594 | 2.177 | 2.777 | 3.635 | 4.355 |
8 | 0.767 | 1.539 | 2.077 | 2.616 | 3.360 | 3.963 |
9 | 0.754 | 1.501 | 2.010 | 2.508 | 3.180 | 3.712 |
10 | 0.745 | 1.472 | 1.960 | 2.431 | 3.053 | 3.537 |
11 | 0.737 | 1.451 | 1.923 | 2.373 | 2.959 | 3.408 |
12 | 0.731 | 1.433 | 1.893 | 2.327 | 2.887 | 3.310 |
13 | 0.726 | 1.419 | 1.869 | 2.291 | 2.829 | 3.233 |
14 | 0.722 | 1.407 | 1.850 | 2.261 | 2.782 | 3.170 |
15 | 0.718 | 1.398 | 1.833 | 2.236 | 2.743 | 3.118 |
16 | 0.715 | 1.389 | 1.819 | 2.215 | 2.711 | 3.074 |
17 | 0.712 | 1.382 | 1.807 | 2.197 | 2.683 | 3.037 |
18 | 0.710 | 1.376 | 1.796 | 2.181 | 2.658 | 3.005 |
19 | 0.708 | 1.370 | 1.787 | 2.168 | 2.637 | 2.978 |
20 | 0.706 | 1.365 | 1.779 | 2.156 | 2.619 | 2.953 |
21 | 0.705 | 1.361 | 1.772 | 2.145 | 2.602 | 2.932 |
22 | 0.703 | 1.357 | 1.765 | 2.135 | 2.587 | 2.912 |
23 | 0.702 | 1.353 | 1.759 | 2.126 | 2.574 | 2.895 |
24 | 0.701 | 1.350 | 1.754 | 2.118 | 2.562 | 2.879 |
25 | 0.699 | 1.347 | 1.749 | 2.111 | 2.551 | 2.865 |
26 | 0.698 | 1.344 | 1.745 | 2.105 | 2.542 | 2.852 |
27 | 0.697 | 1.341 | 1.741 | 2.099 | 2.532 | 2.841 |
28 | 0.697 | 1.339 | 1.737 | 2.093 | 2.524 | 2.830 |
29 | 0.696 | 1.337 | 1.733 | 2.088 | 2.516 | 2.820 |
30 | 0.695 | 1.335 | 1.730 | 2.083 | 2.509 | 2.811 |
需要说明的是,小编提供的临界值表使用的是单侧概率,而下面这张网络上广泛流传的临界值表使用的双侧概率。大家在使用时需要根据实际情况进行选择!
除特别注明外,本站所有文章均为交通人原创,转载请注明出处来自http://www.hijtr.com/romanowski-test/
暂无评论