壹生资讯-从“女士品茶”到假设检验

您已通过HCP身份认证和信息审核

(

从“女士品茶”到假设检验

2020-11-17作者：壹生科研学院科研

科研

来源：“小白学统计”微信公众号

1920年的剑桥大学，某天风和日丽的下午，一群科学家正悠闲地享受下午茶时光。就如同往常一样准备冲泡奶茶的时候。有位女士突然说：“冲泡的顺序对于奶茶的风味影响很大。先把茶加进牛奶里，与先把牛奶加进茶里，这两种冲泡方式所泡出的奶茶口味截然不同。我可以轻松地辨别出来。”。这些科学家们对此不屑一顾，觉得太无聊。幸运的是，当时恰好统计学的鼻祖Fisher先生在这一群科学家之中，他很兴奋地说：“我们做实验来检定这个假设吧。”。于是一群人就热心帮忙准备实验，准备了若干杯奶茶，有些是先放茶再加牛奶，有些先放牛奶再加茶，并将这些奶茶随机排序让这位女士品茗。在设计实验时，为了避免许多不相关的因素影响这位女士的口味辨别，还需要将茶和牛奶充分混合的时间、泡茶的时间及水的温度控制一样等等。

先不要着急关注结果。这个故事的关键不在于结果，而是有两点。第一，它第一次体现了“随机”这一思想，要以什么样的顺序让那个女士品尝呢？你可以给她前5杯先放茶、后5杯先放牛奶的顺序，也可以交替地第1、3、……杯先放茶、第2、4、……杯先放牛奶的顺序。但这些都有一定规律，如果女士能摸着这种规律，那就容易猜中。所以Fisher是“随机”给她。第二，这个故事直接体现了假设检验的基本思想。假定这位女士根本辨别不出来，完全靠猜测。那么如果给她一杯，她也有1/2的几率猜对，而如果给她两杯，那她两杯全部猜对的概率就是1/4，……，如果是10杯，那么全部猜对的概率只有1/1024。假设这位女士喝了10杯，全部辨别正确，那么我们就可以下结论：如果她只是靠猜测而全部判断正确，这种情况发生的几率只有1/1024，相当地小。反过来说，我们认为她可能不是靠猜测判断正确的，而是真的具有这种能力。

假设检验，顾名思义，就是对“假设”进行“检验”，以证明我们做的“假设”到底对不对。其实现实中我们每天都需要做假设，比如今天你出门没有带伞，为什么没有带？因为你已经不自觉的做出假定“今天不会下雨”，只不过你自己都没有意识到而已，其实你已经做了一次假设检验了。如果一直到你晚上回家都没下雨，说明你的假设是正确的，否则你的假设就是错误的。在科研中，我们所做的假设可能不像下不下雨这么直观，我们面对的可能是一堆纷繁杂乱的数据，利用这些数据对做出的假设进行验证，这也就是我们在统计中的假设检验。

为什么要做假设？这是个显而易见的道理，无论做什么，只要想做出一个结论，那一定会有一个假设，只不过有的你自己都意识不到而已。简单到你日常买衣服，要下结论买不买，那就需要假设这个衣服适不适合你，但这些思路可能在我们脑中都是一闪而过，不像书本中写的这么有逻辑或这么麻烦。

如何做假设？通常我们做的假设是从正面做出的假定（一般给它起个名字叫零假设或无效假设或原假设），然后想办法从背后攻击它（一般也叫备择假设），看它能不能经受这种背后攻击，有的书中称之为“被攻击的稻草人”。如果能经受住，说明做出的假设没错，如果承受不了，那就只能说假设有误，我们不能承认这一假设。比如，你想知道两种药物的疗效是不是一样的，那就事先假定“两种药物疗效相等”（无效假设），然后进行攻击。如果你想知道男性和女性的工资是否不同，那就假定“男性和女性工资相等”（无效假设），然后对其攻击。总之，无效假设是我们打算攻击的对象，而它的对立面备择假设才是我们想要的达到的目的。

如何来证明假设？假设的证明有好几种方法，最常用的（也是绝大多数统计教材所介绍的）的是经典统计方法，这种方法计算一个检验统计量（如t值、F值、卡方值等），据此来判断假设是否正确。也就是说，根据我们事先做出的假定，利用收集到的数据计算一个统计量。通俗地说，这个统计量反映了距离我们所做的假设有多远，离得越远，越说明假设不可靠，离得越近，说明假设越可靠。

如何根据统计量做出判断呢？我们提到，统计量反映了距离假设（确切地说是无效假设）有多远，那么远到什么程度才算认为无效假设不对呢？这就需要有个标准，我们设定一个距离标准，一旦超出这个距离，我们就可以说，事先设定的无效假设是错误的；如果没有超出这一距离，那我们就只能说，无效假设可能是正确的。

由于不同的数据用的是不同的统计量，因此很难找到一个统一的统计量标准，但如果把统计量转化为其它一个统一的指标，那就可以进行统一比较了。P值就是起到这样一个作用。当年Fisher先生在他的显著性检验中，提出了P值的概念，认为P值小的情况下，可以认为差异是有显著性的。但他并未提出一个小到什么程度的标准，也没有将其用在“拒绝”的假设框架下。后来奈曼和皮尔逊的探讨中逐渐形成了一套一直到现在我们还在应用的假设检验体系，事实上，包括我们提到的无效假设、备择假设、I类错误、II类错误等这些名词都是奈曼和皮尔逊提出的。

为什么我们可以用P值来作为我们下结论的标准？P值可以看作是一种决策风险，它是反对无效假设的一个概率，这一概率越小，说明无效假设越不可能是真的。P值不是孤立的，它是跟特定分布相联系的，根据不同的数据的统计量，可以推出相应的P值。比如正态分布，当Z大于1.96，P值就小于0.05。这些都是前人们已经为我们提供了现成的结论，我们直接拿来用就好了，前人统计学家已经从各种分布中找到了统计量与P值的联系。当然，如果想了解，看一下这些分布图，也很容易发现他们之间的规律。如果你懒得看这些，只想捡现成的结果，当然也可以。因为统计软件的发展已经可以很轻松地输出统计量和相应的P值，而且可以给出非常精确的P值，我们只要把统计量和P值摆出来就好了。

以上是假设检验的大致的思路，但如果具体到真正的数据分析上，其实并没有这么复杂。比如你要比较两种药物的疗效是否相同。当你拿到数据的时候，你会先在纸上写上“无效假设是两种药物疗效相等”吗？我想你可能不会。所以说，假设检验是帮助理解的，一旦理解了，它就完成任务了。

我们实际中做数据分析的时候，就是根据研究目的、数据类型等，来判断采用什么方法，至于统计量和P值的计算，那都是计算机的事儿，你可以放手。有时候初学者可能会迷惑：那我们学这些到底有什么用呢？我想这个就像是培养逻辑思维一样，如果你没有这种思维，你就只其然，而不知其所以然。就像小学到高中学的知识，你好像觉得没用，但实际上，如果没有以前那些基础知识，你也不可能考上大学，也不可能有现在的专业知识。

最后我们再回到“女士品茶”上来，据说当时那位女士还真的判断对了所有给她品尝的奶茶。如果你当时身在其中，你会因为有个人说了这种话而感兴趣还是会一笑了之？你能像Fisher一样通过这个小事反而构思出了随机和假设检验的思想吗？如果你要安排这样一个实验，你会怎么来安排呢，会考虑到随机给她品尝吗？会考虑到冲泡时间、混合时间等因素吗？我想，统计学不是说会掌握一个软件，会计算一些结果，更重要的是，要有一个良好的统计学思维。

200 评论

知情同意书

从“女士品茶”到假设检验

热门资讯

关于我们

中国医学论坛报微信矩阵

助力乡村振兴帮扶行动

友情链接