查看更多
密码过期或已经不安全,请修改密码
修改密码壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
5月14日,“中国卒中中心联盟——真实世界研究学习班”在线上召开,中国卒中中心联盟邀请多位专家就真实世界研究相关话题进行了方法指导和经验分享,本文整理自国家神经系统疾病临床医学研究中心、国家神经系统疾病医疗质量控制中心、首都医科大学附属北京天坛医院王孟教授的报告。
缺失值的分类和处理
王孟教授指出,缺失值分为可恢复的缺失值和不可恢复的缺失值。
可恢复的缺失值指缺失的数值实际存在,但是没有观测到,如利用健康人的平均血压进行测量时,没有测到血压,此时可以根据经验和相关知识对这一数据进行插补,可以利用健康人的平均血压插补缺失值。
不可恢复的缺失值指缺失处的数值并不存在。这种情况需要根据研究的具体情况对变量进行适当的预处理。如在研究月经周期变量时纳入了男性,男性的记录就是缺失,可将其记为0,或只选取月经周期非缺失的人群进行研究(改变研究设计)。
可恢复缺失值的产生机制有3种,包括完全随机缺失、随机缺失和非随机缺失。
完全随机缺失指缺失的发生与已观察到的数据和未观察的数据都无关,这种缺失机制可以忽略。如医生忘记记录患者的性别,这不取决于任何变量,也与患者的特征无关。
随机缺失指随缺失的发生仅与已观察到的数据有关,而与其本身的值无关,此时可利用已有的信息尝试对缺失值进行插补。例如,年纪越大的人越可能忘记自己的详细病史,病史中的信息缺失将依赖于年龄这一变量,因此可以根据患者的年龄对缺失进行合理的插补。
非随机缺失是指缺失的发生与缺失值本身有关。例如,在有关肿瘤的队列研究中,如果患者出现治疗失败,则很可能从队列中脱落,之后的后面的数据将全都缺失,这种数据不容易弥补。
缺失值的处理方法主要有两种。
第一种是删除法,即直接删除含有缺失值的观测,或删除频繁出现的缺失变量。通常,直接删除法只有在完全随机的情况下才能得到有效的结论。删除法包括①变量删除法:实际上是变量选择的一个步骤,在进行数据挖掘时,需要从数据集的变量选集中挑选出能对研究的问题进行分析的变量,一个变量如果有多余50%的缺失观测,建议将此变量删除;②完整案例分析法:在完整案例分析中,含有一个及以上缺失值的观测均被删除;③可及案例分析法:原理上与完整案例分析法相同,但其更侧重于使用同一个数据进行多项分析时如何处理缺失。
第二种是插补法,即用多种类型的预测值来插补缺失值。但需要注意的是,用插补法填补某自变量的缺失值时,通常不能用因变量的信息,使用因变量的信息进行插补,可能会强化自变量和因变因变量的关系,从而产生偏倚。插补法共有7种:均值/中位数插补法、末次观测结转法、线性回归法、线性插值法、K-最近邻法、热层插补法与冷层插补法、多重插补法。
离群值的分类和处理
离群值是一个与其余数据不同的数据点,也被称为异常值、不和谐值或噪音值,根据产生的原因分为人为离群值和自然离群值。在医学领域中,离群值的主要来源是设备故障、人为失误、病人特殊行为以及患者的自然变异。
检测离群值的方法主要有两种:四分位间距法和Z分数法。对于信息时代的大数据离群值处理,通常基于不同算法对数据进行可视化、分类、聚类等处理,以便更加准确、快速地找出庞大数据量中的离群值。
离群值的处理与缺失值的处理类似,具体包括直接删除法、均值替换法、回归替换法、多重替换法。
中国医学论坛报沐雨整理,转载须授权
查看更多