注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

教育科研博客

《基础教育论坛》(教研版)杂志社 立品教育信息咨询中心 主办

 
 
 

日志

 
 

你被骗过吗? 7种操纵数据的方式,第7种让无数人中招  

2017-06-02 15:33:59|  分类: 【大数据 】 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

你被骗过吗? 7种操纵数据的方式,第7种让无数人中招

2017-06-01

 

推荐

作者:Winnifred Louis & Cassandra Chapman

来源:科研圈(ID:keyanquan)

编辑:

加一

社长说

某某大学年度调查报告:本校计算机系的女同学,50%嫁给了本校男性老师,消息引起巨大风波...

经证实,此消息为属实,该系只有2名女生,其中1名与老师相恋结婚...

● ●●

你被骗过吗?

7种操纵数据的方式,第7种让无数人中招

数据统计和分析是每个科研人员都应具备的技能,希望本文能帮助初学者避免无意中犯错,并让你在看到故意扭曲的统计结果时,第一时间识破作假者的伎俩。

  

图片来源:Shutterstock

统计能够有效地呈现数据,便于我们理解周围世界中的模式。但如果凭直觉解释这些模式,结果通常会令人失望。以下是统计、概率和风险分析中常见的几种错误,以及避免这些错误的方法。

无意义的差异

股市的很多日常波动都只是偶然现象,并没有任何意义;在民意调查中,某党领先的一两个百分点通常也只是数据噪声而已(在给定的数据样本或公式中,出现的难以解释的变化或随机性)。

为避免对这种数据波动的原因作出错误的推论,可以查看它们的“误差幅度”。差异如果在误差幅度内,则很可能无意义,这种变化很可能只是随机波动。

来自现实印象的误会

我们常会听到对两个群体差异的笼统概括,比方说女性更乐于抚育后代,而男性体格更强壮。这些结论通常受到刻板印象和民间说法的影响,却忽视了两个群体的相似之处,以及同一群体内部的差异。

如果随机挑选两个男性,他们的体能可能相差很大;如果随机挑选一男一女,他们抚育后代的表现也可能非常相近,男性的表现甚至会更明显。

要避免这样的错误,你可以查看两组的“效应量”(effect size)。它可以反映两组间平均数的差异。如果效应量小,说明两组相似度高。但即便效应量大,也可能是较大的组内差异导致的,因此不能断定两组间的所有个体都存在差异。

忽略极值

考察对象服从正态分布(也称“钟形曲线”)时,效应量的两端是有重要意义的。在正态分布下,大多数个体接近平均值,只有一小部分个体远高于或远低于平均水平。

这种情况出现时,组内的微小变化都会导致差异。这种差异对平均值几乎没有影响,但可能会完全改变极值的特征(见第二点)。

要避免这个错误,需要仔细考虑是否要研究极值。若是针对平均水平进行研究,通常不用在意组内的细微差异。但若非常关注极值,这些细微差异将会影响巨大。

  

当研究对象服从正态分布时(在钟形曲线上),极值处的差异比平均值附近更为明显(表现在分布曲线上为:极值处的重叠区域较少,而平均值附近有大部分重叠)

相信巧合

美国每年淹死在游泳池里的人数和尼古拉斯·凯奇(Nicolas Cage)出演的电影数存在相关性,你知道吗?

图片来源:tylervigen.com

如果你观察够仔细,就会发现这种有趣的模式和相关性,但这也仅仅是巧合而已。仅仅因为两件事同时发生变化,或者具有相似的变化趋势,并不能说明它们有关。

要避免这一错误,需要思考观察到的相关性在多大程度上是可靠的。这种相关性是一次性的,还是多次出现的?未来的相关性又能否预测?如果这种相关性只出现了一次,那它很有可能是随机的结果。

因果倒置

举例来说,假如失业和心理问题存在相关性,你很容易注意到其中“明显”的因果关系——心理问题会导致失业。但有时因果关系恰恰相反,比方说是失业诱发了心理问题。

要避免这一错误,可以在发现相关性时提醒自己思考反向因果关系。这种影响从相反方向推测可以成立吗?还是说两者相互作用,形成了一个环形反馈?

第三种因素

人们常常会忘记对可能的“第三因素”(也称外部因素)进行评估。某些情况下,两件事情的相关性是由第三因素引起的,它们实际上都是第三因素的结果。

举例来说,假设下饭店和更健康的心血管系统间存在相关性,这会让我们相信两者间存在某种因果关系。然而结果可能是,能经常下饭店的人社会地位更高,负担得起更好的医疗保健服务,而这种医疗保健服务才是他们心血管系统更健康的原因。

要避免这一错误,别忘了在发现相关性时考虑第三因素。找到事件 A 的可能的原因 B 时,反过来想一想,会不会是外部因素 C 导致了 B?C 会导致 A 和 B 同时发生吗?

修改坐标轴

在对图表的纵坐标进行缩放和标注时,会出现很多迷惑人的地方。纵坐标刻度应当将统计对象有意义的数据范围完整地呈现出来。但有时,制图者为了夸大细微差异和微弱的相关性,会缩小纵坐标的刻度范围。

从下图可以看出,当纵坐标刻度范围为0~100时,两个柱图看起来差不多高。但若将刻度范围设置为52.5~56.5,它们看起来就截然不同了。

要避免这一错误,可以注意观察坐标轴刻度。对于那些没有刻度的图表,更要持怀疑态度。

撰文 Winnifred Louis & Cassandra Chapman

翻译 杨晚钰

审校 夏烨

● ●●

1

社长问:

你见识过什么数据伎俩吗?

评论区等你的故事~

 

  评论这张
 
阅读(13)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017