Some notes about Machine Learning [including Ch 1-8] taught by OUC, using the textbook written by Zhihua Zhou, along with parts of Statistical Learning Method, Li Hang.

 

Ch 01 概论

 

统计学习

统计学习,简言之,一个系统基于统计数据执行某个过程,来改进其性能。其基本假设为:同类数据(独立同分布)具有一定的统计规律性。

三要素

一般过程

得到有限数据集 -> 建立三要素 -> 得到最优模型 -> 预测新数据。

分类

  1. 监督学习:学习从输入到输出映射的统计规律。

    • 基本假设:输入输出对 $(x,y)$ 满足联合概率分布 $P(x,y)$ 独立同分布产生;

    • 分类:
      • 回归问题:输入、输出变量均为连续变量;
      • 分类问题:输入变量为有限个离散变量;
      • 标注问题(e.g. 语句中的词性标注):输入、输出均为变量序列;
    • 产生的模型形式为 $\hat{y}=f(x), \hat{y}=\arg\max\limits_y \hat{p}(y\mid x)$ 等,由此也可观,监督学习的主要优化算法是最大化似然函数。
  2. 无监督学习:学习无标注数据中的统计规律或潜在结构。

    • 不同情境具体分析,其模型常与 $z=\hat{g}(x), \hat{p}(z\mid x), \hat{z}(x\mid z)$ 有关。
    • 主要学习模型是聚类、降维等;
  3. 强化学习:通过系统和环境的一系列连续互动的数据,学习最优的序贯决策。

    image-20220407153605748

  4. 半监督学习和主动学习:

    • 半监督学习:少量样本有标签,大量样本无标签:

      假设

      平滑假设

      如果两个样本 $x_1, x_2$ 相似,相应输出 $y_1, y_2$ 也应相似。

      聚类假设

      给定的决策边界位于低密度地区,这意味着不同簇对应且仅对应不同类。(鲁棒性强,受扰动程度小)

      流形假设

      多个低维流形组成输入空间,同一流形上的数据点具有相同标签。

       

      一些方法

      一致性回归

      假设细微的扰动不会对数据的分类造成影响。

      伪标签

      基于已标记的训练集,用启发式方法标注未标记数据集,生成额外训练用例。

      比如说,正常训练监督模型,用其预测数据集并选取高置信度样本,协同有标签数据训练新模型,迭代替换原模型,以求精度不断提升。

    • 主动学习:机器给出样本让教师标注,然后进行学习:

      采用主动策略(提取待标注数据,人工标注)构建小训练集(以减少标记成本),这个小训练集中的样本比较”重要”,故期望训练效果好。

      基础场景
      • Pool-based Scenario (most): 提供未标记的数据池,策略在数据池中选取样本标记;
        • 比如,选置信度最低的(min(max(prob)))
        • 边缘采样,容易判定为两类的(min(prob_max_1 - prob_max_2))
        • 熵最大的(不确定性最大)
        • KL散度
        • 方差减少最多
        • 考虑稠密的、难以区分的等
      • Stream-based Scenario: 提供未标记的数据流,策略选择对当前数据进行标记或进行预测;
      • Query synthesis scenario: 提供未标记的数据池,但策略是自行生成新样本查询;

 

Ch 02 模型评估与选择

误差

误差

样本真实输出与预测输出之间的差异。

过拟合

学习到的特征过于贴近训练集,而训练集却不能代表所有数据的分布情况,甚至可能被学习到”仅属于该训练集的特征/扰动”,导致泛化性能下降。

欠拟合

连训练样本的一般特征都没学好。

 

评估方法

留出法

直接将数据集划分为两个数据分布一致的互斥集合,随机划分进行重复实验,取平均值。

交叉验证法

讲数据集分层采样划分为 k 个大小相似的互斥子集,每次用一个子集作测试集,其余的作训练集,最终返回 k 次测试结果的均值。

自助法(Bootstrap)

简言之,就是以自主采样法为基础,对数据集有放回采样 $m$ 次得到训练集,余下作测试集。

 

性能度量

P-R

但分类中更多常用 Precision、Recall Rate 进行衡量:

ROC 曲线(考)

全称”受试者工作特征”,x-y 表示 FP-TP,同样按预测概率排序样例得到 $m^+$ 个 TP 与 $m^-$ 个 FP,画出依次减小阈值,若当前点为真实正例,则标记 $(x,y+\frac{1}{m^+})$,否则标记 $(x+\frac{1}{m^{-} },y)$。

说这么多,其实就是,横轴为假正例占所有真实反例的比例,纵轴为真正例占所有真实正例的比例(该阈值下的查准率 Recall)。

 

t 检验

假设做交叉验证后,得到了 $k$ 个测试错误率 ${\hat\epsilon_k}$,假设 $\epsilon=\epsilon_0$。采x用 t 检验,对显著度 $\alpha$,若 $[t_{-\alpha/2},t_{\alpha/2}]$ 位于临界范围 $\mid \mu-\epsilon_0\mid$ 内,则接受假设,认为泛化误差率 $\epsilon=\epsilon_0$,置信度为 $1-\alpha$;

交叉验证 t 检验

一般地,对不同学习器性能进行比较时,比如对 A, B 学习器,得到 ${\hat\epsilon_k^A}, {\hat\epsilon_k^B}$,可用 k 折交叉验证”成对 t 检验”进行比较检验。

如,对每对结果求差,$\Delta_i=\epsilon_i^A-\epsilon_i^B$,若性能相同,则差值为 0,继而用 ${\Delta_k}$ 进行 t 检验。

Friedman 检验

用于对多个算法进行比较。

根据性能好坏排序,若性能相同,则平分序值,得到平均序值 $r_i$:

friedman

friedman2

Nemenyi 后续检验

当假设”所有算法性能相同”被拒绝,可用 Nemenyi 后续检验进一步区分算法:

\[CD=q_\alpha \sqrt{\frac{k(k+1)}{6N} }\]

若两算法平均序值之差超过阈值 $CD$,则以相应置信度拒绝以上假设。

 

偏差与方差 (bias & variance)

其中,偏差刻画的是学习算法本身的拟合能力,方差刻画训练数据扰动对学习性能的影响,噪声表示的是学习问题本身的难度(若认为标记的正确率表征难度)。

bias_var

 

规范化方法

 

损失函数相关

 

损失函数的期望:

在给定策略下,学习的目标是希望找到 $\arg \min\limits_f R_{exp}(f)$,而期望损失常用经验风险来代替,故问题转化为最小化 $R_{emp}(f)$:

凸函数

为什么凸函数这么重要呢为什么呢为什么呢?

凸函数:函数曲线上的任意两点连线在这部分函数曲线之上,也即:$\lambda x_1 + (1-\lambda)f(x_2) \ge f(\lambda x_1 + (1-\lambda) x_2),\lambda \in [0, 1]$。

对于凸函数有,导数为零处(二阶导大于零)一定为极小值点,局部最优就是全局最优。

对偶问题

**待补充 **

Ch 03 线性模型

基本形式

\[f(x)=w_1x_1+w_2x_2+...+w_dx_d+b\\ i.e.\ f()=w^Tx+b\]

优点

策略

广义线性模型

\[y=g^{-1}(w^Tx+b)\]

对数线性回归

令 $g(·)=ln(·)$,则目标函数为 $lny=w^Tx+b$

二分类任务 $z=w^Tx+b, y\in {0, 1}$ 而言,最理想的情况是使用单位阶跃函数: \(y=\left\{ \begin{aligned} 0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0 \\ \end{aligned} \right.\) 但容易发现,单位阶跃函数的缺点是不连续,不便于更新。

于是提出了更加平滑的替代函数:

对数几率函数/逻辑斯蒂函数 Logistic Function

则可令线性回归逼近对数几率,即 $g(y) = ln\frac{y}{1-y}$,变换得到: \(y=\frac{1}{1+e^{-(w^Tx+b)} }\) 立刻得: \(p(y=1\mid x) = \frac{e^{w^Tx+b} }{1+e^{w^Tx+b} }\\ p(y=0\mid x) = \frac{1 }{1+e^{w^Tx+b} }\)

优点
优化方法

最大化样本分布似然 $\mathcal{l}(w,b)=\sum\limits_{i=1}^m \ln p(y_i\mid x_i;w_i;b)=\sum ln (y_ip_1(\bar{x}_i;\pmb{\beta})+(1-y_i)p_0(\bar{x}_i;\pmb{\beta}))$

等价化为最小化负对数似然函数求解(优化方法:牛顿法、梯度下降法)。

缺点

当该函数的特例,sigmoid function $y=\frac{1}{1+e^{-x} }$ ,在深度网络中的隐藏层中作为激活函数传播时,由于其在远离零点处梯度极小,且值域上最大值为 0.25,故容易出现计算缓慢、梯度消失等问题。

于是提出了 $ReLU=max(0, x)$,求导便捷。但它也有缺点:零点附近不可微、容易出现 dead ReLU 问题,也即反向传播中易使一些 NN 的导数永远为 0 而不再进行更新;

为了解决这个问题,又提出了 $LeakyReLU=max(ax, x)$,其中 $a$ 是一个极小的系数,它也有缺点,下回再讲。

注意:在二分类的输出层中,激活函数仍常选择 sigmoid function。

 

线性判别分析(LDA, Linear Discriminant Analysis)

参考 https://www.cnblogs.com/pinard/p/6244265.html、https://zhuanlan.zhihu.com/p/264578345

一种监督降维技术。优化方法:为最大化广义瑞利商;目标:投影(e.g. $\bf{R}^d\rightarrow \bf{R}$)后,使投影点类间散度最大化、类内散度最小化。

二分类 LDA

将数据点 $x$ 投影到向量 $w$ 上,计算 $x$ 离原点的距离 $w^Tx$(此处投影点 $p=(\frac{w^Tx}{w^Tw}w)$,分母全程相同,则略去)。

我们定义:$X_i, \mu_i, \Sigma_i$ 为第 $i$ 类样本的集合、均值向量、协方差矩阵,则有: \(\mu_i=\frac{1}{N_i}\sum\limits_{x\in X_i} x\\ \Sigma_i=\sum\limits_{x\in X_i} (x-\mu_i)(x-\mu_i)^T\) LDA 目标的具体体现即为:使各类别数据尽可能集中,不同类别数据的中心($w^T\mu_i$)尽可能远离。

则有优化目标(fisher LDA): \(\arg\limits_w \max J(w)=\frac{(w^T\mu_0 - w^T\mu_1)^2}{s_0^2+s_1^2}=\frac{w^TS_bw}{w^TS_ww}\) 上面的式子有个名字,叫广义瑞利商,待补充

利用其性质,或求导得:当 $S_w$ 为可逆矩阵,$(S_w^{-1}S_b)w=J(w)w$,也即:矩阵 $S^{-1}B$ 对应的最大特征值即为 $J(w)$,而相应的特征向量即为投影方向 $w$。

对于二分类问题,有 $S_bw$ 和 $\mu_0-\mu_1$ 方向平行。忽略投影向量大小时,有 $w=S_w^{-1}(\mu_0-\mu_1)$。

多类 LDA

对多类 LDA,$J(W)$ 的计算有以下不同点:

最终,得到 $W$ 即矩阵 $S_w^{-1}S_b$ 的前 $d$ 大特征值对应的特征向量张成的矩阵。

步骤

  1. 计算各类别 $\mu_i, \Sigma_i$,从而算出类内散度矩阵 $S_w = \sum \Sigma_j$;
  2. 计算类间散度矩阵 $S_b = \sum\limits_{i=1}^{K} N_i(\mu_i-\mu)(\mu_i-\mu)^T$;
  3. 计算 $S_w^{-1}S_b$ 的特征向量(按特征值大小排序),取出前 $d$ 个作为投影空间 $W$;
  4. 对数据进行投影 $Y=WX$ 即可。

 

多分类学习

 

类别不平衡

解决方法

 

感知机

感知机是一种线性模型,用于二分类任务,其基本形式如 $f(x)=sgn(w·x+b)$。其中,输入空间 $\mathcal{X}\subseteq R^n$,表示特征向量,对应特征空间中的点;而输出空间 $Y={+1,-1}$,表示特征的类别。

对于线性可分数据集,确定这个超平面 $\mathcal{S}$ 的参数 $w,b$。而为了方便可导优化,有:

知错误分类点到超平面 $\mathcal{S}$ 的总距离:$-\frac{1}{\Arrowvert w\Arrowvert }\sum\limits_{x_i\in \mathcal{M}} y_i(w·x_i+b)$,故有:

损失函数

$\mathcal{L}(w,b)=-\sum\limits_{x_i\in \mathcal{M}} y_i(w·x_i+b)$。

优化算法 (e.g. SGD, Stochastic Gradient Descent)

随机选取误分类集合 $\mathcal{M}$ 中一个误分类点下降,更新直至 $\mathcal{M}$ 为空;

 

Ch 04 决策树

决策树,根据树结构来进行预测。

学习过程

  1. 特征选择
  2. (贪心地)生成决策树
  3. (剪枝、全局优化)修剪决策树
    • 在所有可能的决策树中取最优决策树是 NPC 的,故常常采用启发式优化

特征选择

在从根向叶结点分类的过程中,选择更泛化的分类特征很重要。

 

信息增益

设训练集为 $D$,特征为 $A$,则信息增益 $g(D,A)=H(D)-H(D\mid A)$,其含义为:得知某个特征,而使训练集类信息的不确定性减少的程度;越大越好。

设 $D$ 中有 $K$ 个类 ${C_k}$,$A$ 有 $n$ 个不同的特征取值 ${D_n}$,则按经验熵计算,得到 $g(D,A)=(-\sum\limits_{k=1}^K \frac{\arrowvert C_k\arrowvert }{\arrowvert D\arrowvert}\log \frac{\arrowvert C_k\arrowvert }{\arrowvert D\arrowvert})-(\sum\limits_{i=1}^n \frac{\arrowvert D_i\arrowvert }{\arrowvert D\arrowvert}H(D_i)) $

信息增益比

用以校正信息增益存在的问题:偏向于选择取值较多的特征。

$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$,其中 $H_A(D)=-\sum\limits_{i=1}^n \frac{\arrowvert D_i\arrowvert }{\arrowvert D\arrowvert}\log \frac{\arrowvert D_i\arrowvert }{\arrowvert D\arrowvert}$,意即该特征 $A$ 本身取不同结果的可能性度量。

基尼指数

$G_i(D,A)=\sum\limits_{i=1}^n \frac{\arrowvert D_i\arrowvert }{\arrowvert D\arrowvert} Gini(D_i)$,选取基尼指数最小的特征作为最优划分特征。

生成决策树

修剪决策树

image-20220524102054493

 

Ch 05 神经网络

​ 建议看我前一篇博客。

 

Ch 06 支持向量机

这章没写充分,待补充

SVM 支持向量机用于二分类,生成一个超平面,将数据集根据标签划分为两类。

可以感性理解为感知机的进阶形式。

显然,将样本集划分为两类的超平面有很多,我们常用”间隔最大化”来选取正负支持向量正中间的,”最优”的超平面。

函数间隔

定义:超平面 $w^Tx+b=0$ 关于样本点 $(x_i, y_i)$ 的函数间隔为:$\hat{\gamma_i} = y_i(w·x_i+b),y_i=\pm 1$(分母一致,略去)

定义超平面 $w^Tx+b=0$ 关于训练集的函数间隔为:$\hat{\gamma} = \min\limits_{i=1,2,…,n}\hat{\gamma_i}$。

支持向量

数据集线性可分时,与超平面距离最近/间隔最小的样本。

我们将支持向量到超平面的距离设为 $\pm 1$,之所以这样做方便推导与优化,是因为最小间隔和超平面系数成比例关系,设定为 1 不会对目标函数优化产生任何影响。

故有优化目标:最大化正负支持向量间的间隔 $\max \frac{2}$,选取其正中间的,”最优”的超平面。

SVM

为了方便起见,转换一下得优化问题:

基本形式

\[\arg\limits_{w,b}\min \frac{1}{2}{\Arrowvert w\Arrowvert}^2\\ s.t. y_i(w^Tx_i+b)\ge 1\]

对偶问题

  1. 引入拉格朗日乘子 $\alpha_i \ge 0$:$\mathcal{L}(w,b,\alpha) = \frac{1}{2} \Arrowvert w\Arrowvert ^2 - \sum\limits_{i=1}^m \alpha_i(y_i(w^Tx_i+b)-1)$;
  2. 求导并代入得到:$\arg\limits_{\alpha}\min \frac{1}{2} \sum\limits_{i=1}^m\sum\limits_{j=1}^m \alpha_i\alpha_jy_iy_jx_i^Tx_j - \sum\limits_{i=1}^m \alpha_i\ \ \ \ \ s.t. \ \sum\limits_{i=1}^m \alpha_iy_i=0$
  3. 最终模型为 $f(x)=w^Tx+b=\sum\limits_{i=1}^m \alpha_iy_ix_i^Tx+b$

对于以上形式的优化问题,常用 SMO (Sequential Minimal Optimization) 序列最小优化算法优化,也即每次固定住其余参数,只优化选取的某个参数。

在 SVM 对偶问题中最简单的情况是:每次选取一对 $(\alpha_i, \alpha_j)$ 进行优化,此时原约束变为 $\alpha_iy_i+\alpha_jy_j=-\sum\limits_{k\ne i,j}\alpha_ky_k, \alpha_i\ge 0, \alpha_j \ge 0$,则可回代方程式得到单变量二次规划问题,可求出闭式解: \(\left\{ \begin{aligned} \alpha_i=-\alpha_jy_j/y_i-(\sum\limits_{k\ne i,j}\alpha_ky_k)/y_i\\ \arg\limits_{\alpha_i}\min \frac{1}{2} \sum\limits_{i=1}^m\sum\limits_{j=1}^m \alpha_i\alpha_jy_iy_jx_i^Tx_j - \sum\limits_{i=1}^m \alpha_i \end{aligned} \right.\)

不断如此更新,直至收敛,得到最优参数 $\alpha^*$。

确定后,$b=-\frac{\max_{j,y_j=-1}\sum\limits_{i=1}^m \alpha_iy_ix_i^Tx_j+\min_{j,y_j=1}\sum\limits_{i=1}^m \alpha_iy_ix_i^Tx_j}{2}$,即通过支持向量求解。

最终,SVM 的解具有稀疏性,其确定仅与支持向量有关。(可以丢掉其他训练数据)

好处:

核技巧

问题

数据集并不线性可分。

解决方案

将样本从原始空间映射到高维特征空间,从而将超曲面模型对应到超平面模型上。

核映射

$\mathcal{X}$ 为输入的原始空间,$\mathcal{H}$ 为特征空间,若存在映射 $\phi(x):\mathcal{X}\rightarrow \mathcal{H},\forall x,z\in \mathcal{X},\mathcal{K}(x,z)=\phi(x)·\phi(z)$,则:

称 $\mathcal{K}(·,·)$ 为核函数,$\phi(·)$ 为映射函数

正定核充要条件

设 $\mathcal{K}:\mathcal{X}\times\mathcal{X}\rightarrow{R}$ 是对称函数,$\mathcal{K}(x,z)$ 对应的 Gram Matrix $K=[\mathcal{K}(x_i,x_j)]_{m\times m}, \forall x_i\in \mathcal{X},i=1,2,…,m$ 为半正定矩阵。

核支持向量机

加入核函数,则 SVM 对偶形式变为: \(\arg\limits_\alpha \min \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m \alpha_i \alpha_j y_iy_j \phi(x_i)^T\phi(x_j) - \sum\limits_{i=1}^m \alpha_i\\s.t. \sum\limits_{i=1}^m \alpha_iy_i = 0\) 预测函数变为:$f(x)=w^T\phi(x)+b=\sum\limits_{i=1}^m \alpha_i y_i \phi(x_i)^T\phi(x) + b$

映射函数只以内积形式出现,故一般只定义核函数本身即可。

常用核函数

kernelfuncs

软间隔与正则化

问题

合适的核函数很难确定,最终结果虽线性可分,是否源于过拟合的产物也不清晰。

解决方案

引入”软间隔”进行正则化,允许个别样本点出现于间隔带中。具体地,引入松弛变量 $\xi_i\ge 0$,约束条件变为 $y_i(w^Tx_i+b)\ge 1-\xi_i$。

则优化目标变为: \(\arg\limits_{w,b}\min \frac{1}{2}{\Arrowvert w\Arrowvert}^2 + C\sum\limits_{i=1}^m \xi_i \\ s.t. y_i(w^Tx_i+b)\ge 1-\xi_i, \xi_i \ge 0\) 其中,惩罚程度 C>0,当其无穷大表示引入软间隔,否则退化为原始 SVM。

 

也有其他形式如: \(\arg\limits_{w,b}\min \frac{1}{2}{\Arrowvert w\Arrowvert}^2 + C\sum\limits_{i=1}^m l_{0/1}(y_i(w^T\phi(x_i)+b)-1)\) 此处 $l_{0/1}$ 即 0-1 损失函数,当内容物小于 0 返回 1,否则返回 0。由于不易优化,常采用 hinge 损失函数等替代。

也即,使用不满足硬间隔的样本约束参数限制,但无强制性的松弛变量 $\xi_i$。

支持向量回归(SVR)

待补充。

核方法

表示定理:对任意单调增函数 $\Omega$(结构风险)与任意非负损失函数 $l$(经验风险),优化问题: \(\arg\limits_{h\in \mathbb{H} } \min F(h) = \Omega (\Arrowvert h \Arrowvert_{\mathbb{H} }) + l(h(x_1), ..., h(x_m))\) 的解总可以写为 $h^*=\sum\limits_{i=1}^m \alpha_i \mathcal{K}(·,x_i)$。

 

与感知机的区别

  1. 感知机基于误分类损失梯度下降,满足约束的超平面个数也不唯一。而 SVM 求解的是几何间隔最大的超平面(有且仅有一个)。

 

Ch 07 贝叶斯估计

贝叶斯决策论

对于分类问题,已知所有相关概率,考虑如何基于这些概率和误判损失选择最优的分类标签。

极大似然估计

要得到上述所示后验概率 $P(c\mid \rm{x})$,则可以引入一种生成式模型,对联合概率分布 $P(c,\rm{x})$ 建模,再获得后验概率——贝叶斯定理: \(P(c\mid\rm{x})=\frac{P(c,\rm{x})}{P(\rm{x})}=\frac{P(c)P(\rm{x}\mid c)}{P(\rm{x})}\) 其中,$P(c)$ 为先验,$P(\rm{x} \mid c)$ 为似然,也即:后验正比于先验与似然。

而要估计这样的似然,假设这个概率被某个参数唯一确定,那么任务也就变成了通过训练集估计参数。

常见的两大参数估计过程学派有:贝叶斯学派(参数本身服从先验分布,基于此计算参数的后验分布)和频率主义学派(参数虽然未知,但存在客观值)。这里要讲述的 MLE 就来自于后者。

一般地,假设某类样本独立同分布,则假设其满足某种概率分布,其参数 $\theta_c$ 对数据集 $D_c$ 的似然为 $P(D_c\mid \theta_c)=\prod\limits_{\rm{x}\in D_c}P(\rm{x}\mid \theta_c)$,通常为了防止下溢,采用对数似然 $LL(\theta_c)=\log P(D_c\mid \theta_c )$,此时其极大似然估计 $\hat{\theta_c}$ 为 $\hat{\theta_c}=\arg\limits_{\theta_c}\max LL(\theta_c)$。

朴素贝叶斯分类器

属性条件独立性假设:每个属性独立地对分类结果发生影响。

基于此,上式可重写为:$P(c\mid\rm{x})=\frac{P(c,\rm{x})}{P(\rm{x})}=\frac{P(c)}{P(\rm{x})}\prod\limits_{i=1}^d P(x_i\mid c)$,其中 $d$ 为属性数目,$x_i$ 为第 $i$ 个属性的取值。

去掉 $P(x)$,求 MLE,即为朴素贝叶斯分类器。

一般地,先验概率 $P(c)=\frac{\arrowvert D_c\arrowvert}{\arrowvert D\arrowvert}$,似然 $P(x_i\mid c)=\frac{\arrowvert D_{c,x_i}\arrowvert}{\arrowvert D_c\arrowvert}$(离散)。

拉普拉斯平滑

存在这样的情况:训练集样本不包含某些类别/属性取值,但测试集中含有。

故需要对概率估计值进行平滑,具体地,$N$ 表示所有可能的类别数量,$N_i$ 表示第 $i$ 个属性可能的取值数,则修正有:$\hat{P}(c)=\frac{\arrowvert D_c\arrowvert+1}{\arrowvert D\arrowvert+N}$、$\hat{P}(x_i\mid c)=\frac{\arrowvert D_{c,x_i}\arrowvert+1}{\arrowvert D_c\arrowvert+N_i}$。

 

Ch 08 集成学习

通过构建并结合多个好而不同的个体学习器提升性能。

结合策略

Boosting

以 Adaboost 为例:初始化训练集权重后,每轮选择一个学习器池中损失最小的弱学习器(若准确率低于随机选择,二分类下即 0.5,则终止),并根据其对训练集的误差计算该轮学习器的权重值(分类误差小,权重更大),并根据这个权重调整训练集的权重,然后重复 T 轮,最终将这些弱学习器的预测结果进行加权得到最终的预测结果。

image-20220407153605748

Bagging

image-20220407153605748

随机森林

对决策树进行类似于 bagging 的变种集成学习。

image-20220407153605748

image-20220407153605748