壹生大学

壹生身份认证协议书

本项目是由壹生提供的专业性学术分享,仅面向医疗卫生专业人士。我们将收集您是否是医疗卫生专业人士的信息,仅用于资格认证,不会用于其他用途。壹生作为平台及平台数据的运营者和负责方,负责平台和本专区及用户相关信息搜集和使用的合规和保护。
本协议书仅为了向您说明个人相关信息处理目的,向您单独征求的同意,您已签署的壹生平台《壹生用户服务协议》和《壹生隐私政策》,详见链接:
壹生用户服务协议:
https://apps.medtrib.cn/html/serviceAgreement.html
壹生隐私政策:
https://apps.medtrib.cn/html/p.html
如果您是医疗卫生专业人士,且点击了“同意”,表明您作为壹生的注册用户已授权壹生平台收集您是否是医疗卫生专业人士的信息,可以使用本项服务。
如果您不是医疗卫生专业人士或不同意本说明,请勿点击“同意”,因为本项服务仅面向医疗卫生人士,以及专业性、合规性要求等因素,您将无法使用本项服务。

同意

拒绝

同意

拒绝

知情同意书

同意

不同意并跳过

工作人员正在审核中,
请您耐心等待
审核未通过
重新提交
完善信息
{{ item.question }}
确定
收集问题
{{ item.question }}
确定
您已通过HCP身份认证和信息审核
(
5
s)

抽样误差与“偏信则暗”

2020-12-15作者:壹生科研学院科研
科研

来源:“小白学统计”微信公众号


唐太宗曾问 魏徵曰:“人主何为而明,何为而暗?”对曰:“兼听则明,偏信则暗。”

我们每天都处在各种信息之中,每天接触如此大量的信息,很容易让人迷茫。想真正做到从信息中了解真相,往往并非如此容易,尤其很多信息都带有明显的诱导方向。

我有一个朋友,原来在一个事业单位工作,科室的人大都是一些年龄较大的人,而且学历大都是本科或以下,只有他是研究生。他跟科室的人关系不算太好,也许是因为他比较优秀,也许是因为这个团体中人比较排外,总之各种原因都有。后来他就换了工作,新单位的领导通过一些途径,问了一下他以前所在单位的同事,结果那些同事说他不合群之类的话。事实上,据我所知并非如此。然而我却有点感慨,这位新领导看似问了好几个人,觉得已经得到了答案。而事实却并非如此,因为他问的这几个人,其实跟问一个人没什么区别。

这种情况其实并非个例,很多人也许都有过这种经历。这让我想到抽样误差。

其实所谓了解一个人,可以看做是参数推断。那怎么了解呢?全面了解是很难得,所以一般是抽样调查,也就是说,通过他的行为、通过一些人的评价等等。然而通过其他人评价的时候,怎样才算可靠?这是个难题。

有的人觉得,我问了以前你所在单位的几个同事,他们都说你比较孤傲,那我就认为你比较孤傲。事实上,很可能只是因为你沉浸在自己的研究中,不习惯那些浪费时间的聊天而已。而所谓问的这些同事,可能都是喜欢凑在一起聊天的人。

有的人觉得,我问了很多人,他们都这么说,那应该不会错。然而事实并非如此。样本大并不代表结果可靠。非常典型的例子就是当年罗斯福竞选总统。

在1936年美国大选中,民主党候选人罗斯福对战共和党候选人阿尔夫·兰登。《文学文摘》当年邮寄出1000万份问卷,回收到230万份,这个样本数量足够大了吧。

经过分析后,他们预测共和党候选人阿尔夫·兰登会战胜罗斯福当选总统。结果却是罗斯福获得了压倒性的胜利。

为什么如此大的样本竟会出现这种情况?原来《文学文摘》是按照电话号码本选出的这1000万调查对象,但在1936年的美国,能装得起电话的往往都是较富裕阶层、持保守立场的共和党选民,而支持罗斯福的广大工人群体基本被排除在调查范围之外,由此在样本上造成了极大偏差,从而导致结论的偏差。

而当时刚成立的盖洛普调查公司,只用了5万样本,得出了完全相反的结果。因为他们采用了分层随机抽样,避免样本来源集中于某一群体,从而更客观地反映全体投票者的倾向。

所以,抽样调查结果的可靠性,不在于你的样本量大不大(当然也不能太少),更主要的是科学抽样,使你的样本足够代表总体。也就是说,如果代表性很差,即使你调查的人再多(就算是几百万),结果依然是不可靠的。

现在很多人都在提倡大数据,很多单位也都在建大数据中心。然而,在大数据热的同时,我们必须头脑清醒,如果你的所谓大数据根本没有什么代表性,那这些大数据恐怕根本不会给你带来预期的结果。据我所知,有一些单位建立的“大数据中心”,确实收集了很多数据,然而,却没有什么目的性。就是觉得,凡是数据,我就一股脑都收集,这就是大数据。结果最终就成了大数据垃圾中心。

甚至在一些权威杂志发表的所谓大数据的文章,依然存在不少问题。比如发表今年在柳叶刀发表的一篇文章,调查了170万人,结论认为国内35-75岁的人超过三分之一有高血压,而且只有5%的人得到控制。这一说法可靠吗?恐怕不一定,也有可能存在调查偏倚。不要觉得170万似乎是很大的数字,不会有错误。首先,该研究采用方便抽样,什么是方便抽样,电视台记者走到西单,路边逮住一个人就问“你幸福吗?”这就是方便抽样。其次,什么样的人愿意参加筛查?你觉得健健康康的,没病没灾的,工作比较忙,会去参加?当然是那些觉得自己不舒服的才更愿意参加筛查。这时候筛查出结果,推论收全国有三分之一的有高血压。这一结果的准确性如何,很难说。

打个比喻,我到一些社区说,我们来免费检查一下你是否有龋齿。呼啦来了一百万人,最后一检查说,这里面99万人有龋齿,然后报告说,全国99%的人有龋齿。这一结果是否可信?恐怕未必。你要检查龋齿,那些牙口倍儿好、吃饭倍儿香的人去检查吗?当然不去了。去的本身就是那些觉得牙有点问题的,当然就高了。这就是抽样的偏倚。

古人的“兼听则明”,实际上就是告诉我们,要多听取不同层次的声音,也就是要有代表性。而我们现在某些研究却在大数据的掩饰下,偏离这种思想,最终就变成了“偏信则暗”。

其实,越是在这种信息多的时代,越是在所谓的大数据时代,越应该有理性思想,有统计学的思维,而不是靠大数据吓唬人。很多例子都已经说明,当你的样本代表性不够,即使几百万的数据,结果也未必准确。

从当年罗斯福竞选可以清楚看到,代表性差的几百万数据,结果不如代表性好的几万数据。其实,如果有调查几百万的财力和物力,用来做一个更有代表性的哪怕只有几十万,也许结果会更为可靠一些。我想,从科研角度来说,不应以“方便”为主,而应以准确、可靠为目的?

其实,每个人都可以做到“兼听则明”,只要学点统计学,有一个理性思维。统计学是教我们客观看待事物的,不要“偏信”,否则会蒙蔽你的双眼,你却还自以为看到了真相。


200 评论

查看更多