回到今天主题,聊下贝叶斯。之前聊的都是已知的情况去猜测概率,比如一个箱子里面有9个红球1个白球,请问随便拿一个出来是红色的概率?心算一下就知道是90%。
现在换一个问题:有个箱子里面有一堆球,不知道红色和白色的比例。但是可以让你每次拿一个球查看什么什么颜色,然后放回去重复10次。通过观察拿出来的颜色比例倒推箱子里面的大概比例。
我们来举一个例子:
一所学校里面有60%男生,40%女生。男生都穿裤子,女生一半穿裤子一半穿裙子。由于我高度近视,没有带眼镜,在校园里看到一人穿裤子走来,但是我看不清男女,推测他是女生的概率多大?我们来一步步求解下,一般用P()代表概率,P(男生)就是男生的概率,P(穿裤子|女生)就是指的在女生里面穿裤子的概率。所以我们的问题就是P(女生|穿裤子)。
要求校园随机遇到一穿裤子的人是女生的概率,其实也就是算整个学校里面穿裤子的人里面女生占比。假设有100个学生,那么就有60个穿裤子男生,20个穿裤子的女生,20个穿裙子的女生。所以80个穿裤子的人中,有20个是女,男女比例:3:1
用公式来说就是 P(女生|穿长裤)= P(穿长裤的女生)/P(穿长裤的人)
用A B 来代替就是:
P(B|A) = P(AB) / P(A)
其实这个就等于:
P(B|A) * P(A) = P(AB)
由于
P(AB)=P(BA)=P(A|B)*P(B)
所以
P(A|B)P(B) = P(B|A)P(A)
即
P(A|B) = P(B|A)P(A) / P(B)
变形下就是:
上面的那些公式很重要!
上面的那些公式很重要!
上面的那些公式很重要!
我们把P(A)称为”先验概率”(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。比如上题的校园里面遇到一个人是男是女的概率。P(A|B)称为”后验概率”(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估,比如发现遇到的那个人穿着裤子然后我们重新评估他是男是女的概率。P(B|A)/P(B)称为”可能性函数”(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。
所以,条件概率可以理解成下面的式子:
这就是贝叶斯推断的含义。我们先预估一个”先验概率”,然后加入实验结果,看这个实验到底是增强还是削弱了”先验概率”,由此得到更接近事实的”后验概率”。
用上一个例子来说明这个公式和调整因子的意义:
在校园内遇到一人他是男生的概率是 60% ,如果我告诉你这人穿着裤子,那么他是男生的概率就变成了 75% 。极端的情况,如果我告诉你这人穿裙子,那么她是男生的概率就是0 !
贝叶斯公式是接下来研究机器学习和一些其他算法的基础。更多的东西还是需要好好看教材或者网易公开课。