离群值的特征

如题所述

发现离群值也可以通过观察值的频数表或直方图来初步判断,也可通过统计软件作观察值的箱式图来判断,如果观测值距箱式图底线Q1(第25百分位数)或顶线Q3(第75百分位数)过远,如超出箱体高度(四分位数间距)的两倍以上,则可视该观测值为离群值。当数据近似正态分布时,有一种较为简单的方法,可用均数加减2.5s来判断,如观测值在此范围以外,可视为离群值。在统计学上也可用线性回归的方法来对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该例观测值可予以保留。
离群值处理方法包括:
一、剔除离群值,不追加观测值;
二、剔除离群值,追加观测值;或剔除离群值,适宜地插补替代;
三、找到实际原因修正离群值,否则予以保留的; 离群值的取舍  1. 定义  在一组平行测定数据中,有时会出现个别值与其他值相差较远,这种值叫离群值。  判断一个测定值是否是离群值,不是把数据摆在一块看一看,那个离得远,那个是离群值,而是要经过计算、比较才能确定,我们用的方法就叫Q检验法。  2. 检验方法  (1)求Q:Q=   即:求出离群值与其最邻近的一个数值的差,再将它与极差相比就得Q值。  (2)比较:根据测定次数n和置信度查Q,若Q>Q,则离群值应舍去,反之则保留离群值。

温馨提示:答案为网友推荐,仅供参考