统计学之边角料——频率派和贝叶斯派

第一章 频率学派和贝叶斯学派

  虽然我们在大学的时候概率统计课程只有一门,教材只有一本,在后面查阅资料后发现,其实在概率界一只有两个长期对立的统计学派:频率派和贝叶斯派,两个相持两百年了,还打的水生火热滴。

1.1 频率派

  基本依托于大数定律和中心极限定理,其贵在于得到越多越好的样本,然后计算其频率来逼近该事件的真实概率。所以频率派讲求该事件可以被独立重复,因为只有这样才能进行大规模的实验来求取概率逼近真实分布。
  大数定律:对随机变量$X$(比如投硬币100次向上的次数)进行观察不断的n次采样得到$X_1,X_2,……,X_n$,然后求取这n个样本的平均值$\bar{X}$,当样本数目n趋向于无穷大的时候的,其均值$\bar{X}$趋近于其数学期望$E(X)$。
  中心极限定理:大量相互独立的随机变量,其均值/和的分布以正态分布为极限,并且这个定理与随机变量的具体分布类型无关(无论离散还是连续,以及具体的分布类型),也就是各个随机变量的分布类型未知,只需要满足独立同分布的前提就可以,他们的均值总体符合正态分布。

1.2 贝叶斯派

  在课本上最常见的就是条件概率和贝叶斯公式了,可以从如下最常见到的贝叶斯公式来考察。而所谓的贝叶斯框架,就是无论具体是什么样的分布,都可以按照这么样的一个模式来求参数的估计。

后验概率posterior = (似然度likelihood * 先验概率prior)/标准化常量
posterior ∝ likelihood × prior

  贝叶斯讲求引入一个先验概率,表现了对该事件的知识了解,然后再用似然度去修正之前的知识了解,如果当前的观测值越符合我们的先验知识,那么似然度就越大,得到的后验概率也就越大,反之亦然。看似贝叶斯框架比较的完美,而且可以客服一些频率派困难(比如投骰子次数不多,那么计算的频率显然与真实的分布想去甚远,但是贝叶斯的先验知识可以缓和这种极端情况)。但是贝叶斯的先验知识没有具体、规则化的获得方法,每个人的先验知识都可能是不一样的,而不良的先验概率甚至会使得最终的估计偏离真实的值。对此,贝叶斯的先验知识最好是客观计算出来的,抑或者拿不准时候用弱信息甚至无信息的先验假设来尽可能避免这类问题。

1.3 区别和联系:

$$p(w|D) = \frac{p(D|w)p(w)}{p(D)}$$
  考量上面的式子,其实似然度 $p(D|w)$在两者都扮演了一个重要的位置,表示了当前的观测与之前的假设所相似的程度。在本质上:频率派认为参数w是一个存在且固定的参数(当然虽然知道他存在但不知道他是多少,不然还估计个毛啊),其可以通过某种方式的估计得到的(比如最大似然估计,就是让观测集D出现的概率最大化时候的w作为估计值,而$-log(p(D|w))$被称为误差函数,和似然度成反比关系);贝叶斯派认为w是不固定的,在先验知识得到w的时候,用后续的观测D来不断的修正w得到后验估计。

1.4 假设检验(hypothesis testing)

  在统计中,通过用样本对一个假设进行接受或者拒绝的过程,称之为假设检验,需要注意,假设检验和p是频率派中才使用的东西。一般的假设有Z检验和t检验两种,前者用于样本数目大于30的情况下,目标函数呈正态分布,查询正态分布表得到样本均值在零假设成立的概率,而当样本数量小于30的情况下,目标函数服从t分布,查询t表得到其假设成立的概率。

  • Z-score:描述的是某个采样值$X_i$同总体均值$\mu$所相差的标准方差数,$Z-score= \frac{(X_i-\mu)}{\sigma}$。需要说明的是,Z-score的计算同$X$的具体分布类型无关,只要有均值和方差,就可以计算Z-score;
  • 样本均值抽样分布:其类似于中心极限定理,只是给出了具体的正态分布结果:随着样本数目的增加,样本均值$(\bar{X}-\mu)$符合均值为0,标准方差为远方差除以样本个数开方的正态分布!

  有了上面的预备知识,下面罗列Z-假设和t-假设这两种假设的步骤:

  • 先做零假设(null hypothesis)$H_0$和备择假设(alternative hypothesis)$H_1$,比如零假设为药品无效,那么备选假设就是药品有效;
  • 根据上述样本均值抽样分布规律,$F=\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{N}}}$作为目标函数。当样本数目大于30的时候,F为正态分布,而总体标准方差未知的时候,可以用样本的标准差代替;如果样本数目小于30,F满足t分布规律。
  • 上述目标函数F计算得到$\bar{X}$与$\mu$相距离的标准差个数,然后查表(正态分布表、t分布表),得到零假设成立时候,样本的概率p,然后据此决定是否肯定还是否定零假设。
    假设检验

1.5 根据可信度,求置信区间

  其实跟上面是一个逆运算,知道可行度,就可以查Z/t-表看临界均值相对总体均值的偏移单位数目,带入上面的F公司,就可以求得置信区间的范围了
求置信区间

1.6 举个栗子

  举个现实点的例子,比如预测明天4月2号的气温,频率派可能抓取历史N年的4月2日的气温数据(为了稳定,可能也会4月2日前后一周的气温数据),然后得到均值和方差,然后得到一个温度范围及其置信度。贝叶斯学派可能根据之前的先验知识(地理位置,经济状况,政策……)估计到一个先验温度分布,然后根据当前这些因素的采样数据,用相似度去修正先验概率,得到一个修正后的后验概率分布。

第二章 置信区间(Confidence)与可信区间(Credible)

  由于上文的频率派和贝叶斯派的区别——频率派认为真实的参数w是固定的,而显示能得到的w是根据观测集D用各种方式估计得到的w’;贝叶斯派认为w是不确定的,任何随机取的w都是参数的估计,只是有概率衡量他们可能性大小而已。

2.1 频率派

  由于相信有真实固定的参数存在,所以置信度表示的意思是,对于置信度p,假如进行100次参数估计,在得到的100个置信区间中,至少有100p个置信区间将真实参数包含在内,就是100次inferences至少有p100次是正确的,而对于某一次具体的实验,只有两种可能:置信区间包含真实参数或者不包含真实参数;
  (95% Confidence Interval: 95% of the time, θ is in the 95% interval that is estimated each time,P(θ ∈ 95% CI) = 0 or 1)

2.2 贝叶斯派

  是假定某种方式得到参数的先验概率分布prior,其可信区间是固定的,然后用观测到的数据得到计算该参数的后验概率posterior,那么得到的后验概率的值,有p的概率落在这个可信区间中。
  (95% Credible Interval: P(θ ∈ 95% CI) = 0.95)

第三章 机器学习模型评估与选择

3.1 训练集、验证集的划分

  为了减少泛化误差,需要将数据集分为训练集合和验证集合,常用的划分方法有:

  • 留出法:分层抽取,保证验证数据分布和训练数据分布一致,一般$\frac23$~$\frac45$用于训练;
  • 交叉验证:将数据分为k份,每次用k-1个子集作为训练数据,1份用做训练数据;通常还需要随见用不同的k-1划分p次,称之为p次k折划分;
  • 自助法:将数据放回采样m次(某个数据一次不都不被选中的概率为1/e)得到采样D’作为训练集,D\D’作为测试集;通常勇于数据量小,无法方便拆分训练测试集的时候。

3.2 算法性能衡量指标

  • 回归任务
      由于回归任务得到的结果是连续值,如果不将回归转化为分类任务(比如设置域值进行分类),那么常用的指标是均方误差。
  • 分类任务
      错误率 = 分类错误样本数/样本总数
      精度 = 分类正确样本数/样本总数 = 1 - 错误率
预测结果正例 预测结果反例
真实正例 TP(真正) FN(假反)
真实反例 FP(假正) TN(真反)

  考虑上面的表格,那么
  Precision 查准率 = TP / (TP + FP) ,描述的是预测出为正例中真正为正的比例
  Recall 查全率 = TP / (TP + FN) ,描述的是所有为正例中被检查出来的比例

  • P-R曲线
      如果按照预测为正的概率从高到低排列下来,逐次增加选定正样本的数目,然后查准率、查全率分别为Y、X轴,即可得到P-R曲线。
      由于在通常情况下,P和R是两个需要权衡的指标,当比较两个算法性能的时候,根据P和R的重要性不同,可以计算Fb值:$\frac1{Fb} = \frac1{1+b^2}(\frac1P + \frac{b^2}R)$,重要性 b~R/P。
      当b=1的时候,大名鼎鼎的F1就是$\frac{1}{F_1} = \frac{1}{2}
    (\frac{1}{P} + \frac{1}{R})$
  • ROC曲线/受试者工作特征曲线
      TPR 真正率 = TP / (TP + FN),等同于查全率
      FPR 假正率 = FP / (TN + FP),描述正式反例中被正确预测为反例的比例
      ROC曲线以TPR为众轴,以FPR为横轴。图形越凸向西北越好。[???与PR的区别联系?]
    P-R & ROC曲线

本文完!

参考