壹生资讯-P<0.05真的值得庆贺吗？—

您已通过HCP身份认证和信息审核

(

P<0.05真的值得庆贺吗？——兼谈置信区间

2020-11-26作者：壹生科研学院科研

科研

来源：“小白学统计”微信公众号

有一个降血压的新药打算上市，上市之前必须经过统计学验证，这是必须的。所以该公司雄心勃勃地开展了一个临床研究，招了3000名高血压患者（我们假定这3000名患者的收缩压都一样，比如都是160），然后分为2组，一组用常规药，一组用新药。服用一段时间后，出来数据了。这就开始比较，最后一比，发现P=0.0215，有统计学意义。于是公司经理沸腾了，决定要打开市场，好好研发这个有用的新药。

可是在上市之前，我们还是有必要来好好想一想。首先我们回顾一下P值的含义，P值说的是，如果两种药的降压效果完全一样（比如都降为150，两组差值为0），在这种前提假设下，如果出现了样本计算的这么大差值（甚至比这一差值还要大），这种概率到底有多大？注意P值不是说原假设成立（即两组差值=0）的概率，而是说如果原假设成立，而又出现了现有数据计算的结果，这种概率有多大。如果说的再理论化一些，P值是说，如果我做了很多次比较，这一结果出现的经常程度。比如像刚才这个P=0.0215，那就是说，如果我做了1000次比较，理论上最多有21次出现样本计算的这么大的差值（当然也包括比这一差值还大的情形）这样的结果。所以说，P值只是反映了这样的结果在多次抽样中出现的频率，但实际中我们做不到多次抽样，所以这种解释只存在于理论中。

那对于这个例子，很明显是有统计学意义，但是否有实际意义，P值回答不了。P值只是告诉你这种结果有多大几率出现，可是无法告诉你这样的结果有没有实际意义。所以仅凭一个P值小于0.05，就认为药物值得上市，是很不理智的。

那么有没有这样一个指标，既能看有没有统计学意义，同时又兼顾实际意义呢？有，这就是置信区间。

置信区间，就是用样本数据计算两个值，用这两个数确定一个区间，这个区间以一定的可信程度包含被估计的参数。“一定的可信程度”这个是我们自己来决定的，通常我们习惯计算95%的置信区间。通俗点说，95%的置信区间就是计算一个区间，我们有95%的信心认为这个区间包含了被估计的参数。

置信区间是怎么计算的呢？它是根据样本数据计算的点估计和标准误来计算的。所谓点估计，就是根据样本计算的参数估计值，比如刚才例子中，我们想真正了解的是总体的两种药物差值，这就是参数，而用样本数据计算的两组差值只是对参数的估计而已，所以它是参数估计值。但由于样本和总体是有差别的，所以直接用参数估计值认为它就是参数值肯定是问题的。

因为总体值总是很飘忽的，我想我们都没有这么大的信心说总体值等于多少，尤其是仅凭样本估计的值。所以谨慎起见，我们需要考虑到样本与总体的变动，这样用一个区间来表示就可信的多。所以置信区间表现为（参数估计值±边际误差），所谓边际误差，就是考虑到了样本与总体是有一定差异的。由于现实中几乎所有抽样分布都会近似呈正态分布，因此边际误差通常都是用正态分位数的一个“z值*标准误”来表示，也就是我们通常见到的“1.96*标准误”。

假设刚才例子中，我们计算的95%置信区间是（0.72,0.96），那我们就可以说，我们有95%的信心认为（0.72,0.96）这样的区间包含了总体参数。

如果要说置信区间的理论意义，也是只存在于理论中。比如95%的置信区间，意思是：如果从一个总体中重复多次抽取不同的样本，对每一个样本都可以计算一个置信区间，那么理论上有95%的置信区间包含了总体参数。一个总体参数总是固定的，对于每次抽样计算的置信区间，要么包含这个参数，要么不包含这个参数，但总的来说，100次抽样样本中，会有95次包含了这个参数。

置信区间的宽窄反映了对参数估计的精确度，置信区间越窄，说明越精确，置信区间越宽，说明越不精确。一般来说，样本量越大，计算的置信区间越窄。因为样本量越大，标准误越小。当样本量跟总体一样多时，计算的置信区间就窄成了只有一个值了。这时就是最精确了。

置信区间的前缀数字95%称为置信系数，我们习惯用95%，但不一定非要用这个。也可以用90%、99%等。一般来说，置信系数越大，所得的区间越宽，也就是越可信；置信系数越小，所得区间越窄，越不可信。想象一下，如果我说你的身高在10-300cm之间，那一定是非常可信的，因为区间太宽了。但是精确度太差了。所以现实中不一定非要计算95%置信区间，取决于你的研究目的。你更倾向于精度还是可信度。

其实很多国外文献都要求报道置信区间而不是P值，因为置信区间既有P值的统计学意义，还有P值反映不了的实际意义。比如刚才例子中，如果置信区间是（0.72,0.96），由于这个区间没有包含0，所以可以得出有统计学意义的结论。因为通常无效假设都是两组差值为0，所以只要置信区间不包含0，就说明有统计学意义。而且根据这一区间，还可以说，我们有95%的信心认为新药比常规药多降了0.72-0.96之间，这是P值无法回答的。所以，如果你作为一个经理，想让药物上市的话，好好想想，降低的0.72-0.96是不是实际意义呢？

200 评论

知情同意书

P<0.05真的值得庆贺吗？——兼谈置信区间

热门资讯

关于我们

中国医学论坛报微信矩阵

助力乡村振兴帮扶行动

友情链接