《赤裸裸的统计学》阅读笔记整理

《赤裸裸的统计学》这本书不错,很直观的说明了一些统计学相关术语比如:正态分布,平均值,中位数,方差,标准差等等。

百分比:

问题一:一台电脑售价4999元,先降价25%在涨价25%那他现在售价多少?

答案是:4687元。

这个问题大部分人应该能知道答案肯定不是又回到4999 。这个问题的意义是,让大家知道百分数的变动表示的是某个数字对比它原来的变化。所以看到增长百分之多少,我们最好弄清楚这个增长的事物到底是什么。

比如我投资的唱吧上地店,说这个月业绩比上个月增长了100%。但是上个月才TM分红几块钱,增长100%还TM是几块钱。。。

再说一个很有意思的概念,百分差百分率是不同的。

举个例子:今年6月份,各地开始降低企业五险一金的费率,北京的失业保险从1.2%降低到1%。站在企业税负重的角度我们可以说,企业社保等费用才降低 0.2个百分点。站在政府角度会说,我们这次调整给企业减税高达 16.7% (1.2-1.0)/1.2 so,同一个数字有不同的解读。

中位数:

如果我和7、8位小伙伴在街边吃麻辣烫,我们都是普通白领,假设平均身价是20万。突然王思聪带着一位网红过来吃麻辣烫,我们的平均可能就是4个亿。。。 显然这个平均值这时候描述我们的身价就很不靠谱。但是用中位数就不一样了,我们8位小伙伴的中位数是20万,来了一位思聪,中位数一样是20万附近。所以有时候描述平均总体水平,要用中位数而不是平均值!

scmlt

标准差、方差、正态分布:

方差是,每个数值和平均值之差的平方和。

标准差就是方差开个平方。

正态分布,好吧,定义我说不好,直接看图吧!

clip_image001.jpg

举例:如果你自己在家用微波炉做过爆米花(大超市都有卖),会发现,刚开始就1、2颗爆米花爆开,接着越来越多很密集,慢慢着又变成一秒钟1、2颗玉米爆开的声音。正态分布就是这个样子。

正态分布按照定义能得出,在一个标准差范围内有 68%的数值,2个标准差范围内有95%的数值,3个标准差范围内居然高达 99.7%。

应用:如果告诉你中国成年男子的平均身高在170 cm 标准差是10 cm ,那么可以推测出95%的男子身高在 150~190 cm之间。

相关性与相关系数:

QQ音乐的猜你喜欢是怎么实现的呢?

简单说就是找出一个和你相关性高的用户,他喜欢听的很大概率你也喜欢听毕竟臭味相投嘛。

相关系数怎么算的?(这里距离测算身高和体重的相关性)

1、 将每个学生的身高转化为标准值:(身高—平均身高)/标准差。

2、 将每个学生的体重转化为标准值:(体重—平均体重)/标准差。

3、 将每个学生的体重标准值和身高标准值相乘。

4、 把第三步相乘的所有乘积相加,再除以人数,就是相关系数。

相关系数的范围在 -1 到 1 越接近1代表正相关反之亦然。

概率

概率,相信大部分都知道什么意思,比如抛硬币,只要次数足够多出现正面和背面的次数应该是相差无几的,因为出现正面和反面的概率都是50%。

接下来说个很有名的案例(游戏)

这个游戏的玩法是:参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人会开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机会率?如果严格按照上述的条件的话,答案是会—换门的话,赢得汽车的机会率是 2/3。 这条问题亦被叫做蒙提霍尔悖论:虽然该问题的答案在逻辑上并不自相矛盾,但十分违反直觉。这问题曾引起一阵热烈的讨论。

汽车和山羊问题的解答有2个比较容易理解的。

第一个解答换个选择方式:在你选择一个门之后,主持人问你放弃这个门而选择打开剩下2扇门你会如何选择?这个问题是不是就简单了。如果你能选择2扇门肯定有一扇门后面是山羊,只不过在节目中,主持人知道了哪个门后面是山羊提前帮你打开了。

第二个解答比较极端:假设有100扇门,你选择1扇,主持人把剩下99扇里面打开了98扇有山羊的门,问你换不换?绝对要换,因为小轿车有99%的概率在剩下的99扇门里面,主持人好心的帮你把98扇都打开了。如果坚持不换,你只有1%的几率,也就是你当初在100扇门选的那一扇。如果换,中小轿车的概率就是99%!

 

关于概率的常见错误、误解

  • 想当然的认为事件之间不存在联系

:飞机引擎出故障的概率是10万分之一,如果飞机是双引擎,都出现故障的概率那就是100亿分之一吗?显然不是,因为出现故障的原因很可能和飞鸟、天气、维护不当等有关,如果一个出现了故障,另一个出现的概率肯定远大于10万分之一。

  • 对两个事件的统计独立一无所知

:比较根深蒂固的就是篮球运动员的“手感”问题,大多数体育迷都相信一个刚刚投中得分的球员继续得分的概率会比失手的球员高。不过经过一系列真实的数据分析,得出结论并不存在“手感”。

 

数据与偏见

选择性偏见

针对首堵国际机场的消费者调查肯定和在长途汽车站调查的消费者不一样。

发表性偏见

比如有个研究指出某个因素不能预防癌症算不上是一个特别有趣的发现,无论在医学还是其他领域,否定性的发现都显得单调乏味。比如:99项证明玩电子游戏和预防癌症之间不存在任何联系的研究成果不会得到发表,但是有1项研究证实经常玩游戏得癌症的概率低一些就会引起注意并最终发表,仅仅是因为这样的结论有趣能吸引眼球,媒体、微博、游戏厂商更愿意关注!

记忆性偏见

当我们试图解释当前一些特别好或者特别坏的结果时,我们的记忆便会出现“系统脆弱“的尴尬。例如:调查那些得了癌症的患者,回忆他们的饮食习惯,说摄入的脂肪含量明显会比他们实际摄入的要高得多。而正常用户则没有这个倾向。

幸存者偏见

一个房间里站满了身高不等的人,让较矮的人离开自然会让房间里的人的平均身高上升,但实际上没有一个人长高了。。。这个最容易出现在基金上,很多公司一口气推出几十个基金产品,很容易有1到2个产品连续3年跑赢大盘。(毕竟瞎买都能跑赢大盘的概率是50%)然后第四年开始大打广告说某某几只基金连续跑赢XXX 好几年。

健康用户偏见

比如:经常打高尔夫的人寿命更长或者精神状态比同龄人更好。这种结论其实是偏见的,能经常打高尔夫的人非富即贵,不用为生活奔波操劳,大部分有私人医生,有良好的饮食和生活习惯。这些才是健康长寿的关键要素而不是常打高尔夫。。。

 

中心极限定律

个人总结最通俗的一句话就是:对于一个超级大的样本,重复的随机抽取一些样本进行计算平均值,这些N个平均值是服从于正态分布的。

接下来说个公式:标准误差  SE=S/根号N   SE=标准误差 S=抽样群体的标准差 N 样本的数量

举个例子说明应用:

假设成年男子的平均身高是 170  调查某个小学男生的身高,调查人数64人,平均身高是 130 标准差是 15  由这些数据可以算出标准误差 SE=15/8 ≈2

所以 170-130 差距有40cm 比标准误差高出了3倍多不止,按照正态分布我们有 99.999%的把握认定这个样本不是成年男子里面的。

 

统计推断

研究人员推翻零假设的最常用参考门槛是 5%。如果一个零假设想要为真,其支撑数据的结果至少要达到0.05这个显著水平。

发表评论

电子邮件地址不会被公开。