壹生大学

壹生身份认证协议书

本项目是由壹生提供的专业性学术分享,仅面向医疗卫生专业人士。我们将收集您是否是医疗卫生专业人士的信息,仅用于资格认证,不会用于其他用途。壹生作为平台及平台数据的运营者和负责方,负责平台和本专区及用户相关信息搜集和使用的合规和保护。
本协议书仅为了向您说明个人相关信息处理目的,向您单独征求的同意,您已签署的壹生平台《壹生用户服务协议》和《壹生隐私政策》,详见链接:
壹生用户服务协议:
https://apps.medtrib.cn/html/serviceAgreement.html
壹生隐私政策:
https://apps.medtrib.cn/html/p.html
如果您是医疗卫生专业人士,且点击了“同意”,表明您作为壹生的注册用户已授权壹生平台收集您是否是医疗卫生专业人士的信息,可以使用本项服务。
如果您不是医疗卫生专业人士或不同意本说明,请勿点击“同意”,因为本项服务仅面向医疗卫生人士,以及专业性、合规性要求等因素,您将无法使用本项服务。

同意

拒绝

同意

拒绝

知情同意书

同意

不同意并跳过

工作人员正在审核中,
请您耐心等待
审核未通过
重新提交
完善信息
{{ item.question }}
确定
收集问题
{{ item.question }}
确定
您已通过HCP身份认证和信息审核
(
5
s)

P<0.05真的值得庆贺吗?——兼谈置信区间

2020-11-26作者:壹生科研学院科研
科研

来源:“小白学统计”微信公众号


有一个降血压的新药打算上市,上市之前必须经过统计学验证,这是必须的。所以该公司雄心勃勃地开展了一个临床研究,招了3000名高血压患者(我们假定这3000名患者的收缩压都一样,比如都是160),然后分为2组,一组用常规药,一组用新药。服用一段时间后,出来数据了。这就开始比较,最后一比,发现P=0.0215,有统计学意义。于是公司经理沸腾了,决定要打开市场,好好研发这个有用的新药。

可是在上市之前,我们还是有必要来好好想一想。首先我们回顾一下P值的含义,P值说的是,如果两种药的降压效果完全一样(比如都降为150,两组差值为0),在这种前提假设下,如果出现了样本计算的这么大差值(甚至比这一差值还要大),这种概率到底有多大?注意P值不是说原假设成立(即两组差值=0)的概率,而是说如果原假设成立,而又出现了现有数据计算的结果,这种概率有多大。如果说的再理论化一些,P值是说,如果我做了很多次比较,这一结果出现的经常程度。比如像刚才这个P=0.0215,那就是说,如果我做了1000次比较,理论上最多有21次出现样本计算的这么大的差值(当然也包括比这一差值还大的情形)这样的结果。所以说,P值只是反映了这样的结果在多次抽样中出现的频率,但实际中我们做不到多次抽样,所以这种解释只存在于理论中。

那对于这个例子,很明显是有统计学意义,但是否有实际意义,P值回答不了。P值只是告诉你这种结果有多大几率出现,可是无法告诉你这样的结果有没有实际意义。所以仅凭一个P值小于0.05,就认为药物值得上市,是很不理智的。

那么有没有这样一个指标,既能看有没有统计学意义,同时又兼顾实际意义呢?有,这就是置信区间。

置信区间,就是用样本数据计算两个值,用这两个数确定一个区间,这个区间以一定的可信程度包含被估计的参数。“一定的可信程度”这个是我们自己来决定的,通常我们习惯计算95%的置信区间。通俗点说,95%的置信区间就是计算一个区间,我们有95%的信心认为这个区间包含了被估计的参数。

置信区间是怎么计算的呢?它是根据样本数据计算的点估计和标准误来计算的。所谓点估计,就是根据样本计算的参数估计值,比如刚才例子中,我们想真正了解的是总体的两种药物差值,这就是参数,而用样本数据计算的两组差值只是对参数的估计而已,所以它是参数估计值。但由于样本和总体是有差别的,所以直接用参数估计值认为它就是参数值肯定是问题的。

因为总体值总是很飘忽的,我想我们都没有这么大的信心说总体值等于多少,尤其是仅凭样本估计的值。所以谨慎起见,我们需要考虑到样本与总体的变动,这样用一个区间来表示就可信的多。所以置信区间表现为(参数估计值±边际误差),所谓边际误差,就是考虑到了样本与总体是有一定差异的。由于现实中几乎所有抽样分布都会近似呈正态分布,因此边际误差通常都是用正态分位数的一个“z*标准误”来表示,也就是我们通常见到的“1.96*标准误”。

假设刚才例子中,我们计算的95%置信区间是(0.72,0.96),那我们就可以说,我们有95%的信心认为(0.72,0.96)这样的区间包含了总体参数。

如果要说置信区间的理论意义,也是只存在于理论中。比如95%的置信区间,意思是:如果从一个总体中重复多次抽取不同的样本,对每一个样本都可以计算一个置信区间,那么理论上有95%的置信区间包含了总体参数。一个总体参数总是固定的,对于每次抽样计算的置信区间,要么包含这个参数,要么不包含这个参数,但总的来说,100次抽样样本中,会有95次包含了这个参数。

置信区间的宽窄反映了对参数估计的精确度,置信区间越窄,说明越精确,置信区间越宽,说明越不精确。一般来说,样本量越大,计算的置信区间越窄。因为样本量越大,标准误越小。当样本量跟总体一样多时,计算的置信区间就窄成了只有一个值了。这时就是最精确了。

置信区间的前缀数字95%称为置信系数,我们习惯用95%,但不一定非要用这个。也可以用90%99%等。一般来说,置信系数越大,所得的区间越宽,也就是越可信;置信系数越小,所得区间越窄,越不可信。想象一下,如果我说你的身高在10-300cm之间,那一定是非常可信的,因为区间太宽了。但是精确度太差了。所以现实中不一定非要计算95%置信区间,取决于你的研究目的。你更倾向于精度还是可信度。

其实很多国外文献都要求报道置信区间而不是P值,因为置信区间既有P值的统计学意义,还有P值反映不了的实际意义。比如刚才例子中,如果置信区间是(0.72,0.96),由于这个区间没有包含0,所以可以得出有统计学意义的结论。因为通常无效假设都是两组差值为0,所以只要置信区间不包含0,就说明有统计学意义。而且根据这一区间,还可以说,我们有95%的信心认为新药比常规药多降了0.72-0.96之间,这是P值无法回答的。所以,如果你作为一个经理,想让药物上市的话,好好想想,降低的0.72-0.96是不是实际意义呢?


200 评论

查看更多