世上没有一个分类器解决不了的分类问题
n如果有,就多用几个
n——TK
nnn图1 传统方法vs集成学习
n 同样是叫来了自己的朋友们,但是B和C采用了完全不同的策略来完成那份试卷。如果把“叫朋友”类比到机器学习领域的话,两位同学的策略正对应着“集成思想”孕育出的两大利器:nnB同学的“人海战术”---Bagging(Bootstrap Aggregation)nnC同学的“逐个击破”---Boostingnn作者接下来会根据自己对这两个算法的理解,力求以通俗的语言辅以图解来解释这两个“集成学习”中的著名思想。读者可以类比于场景中B、C同学的策略来辅助理解。(下面内容中相关术语均针对“分类”问题)nnB同学的“人海战术”---Baggingnn全称Bootstrap Aggregation,是一种在原始数据集上通过有放回抽样重新选出N个新数据集来训练分类器的集成技术。nnn图2 Bagging流程
n 如图2所示,一次完整的Bagging迭代过程可以分为以下两步:nn①对原始数据(M个观测记录)进行m次随机有放回抽样,生成一份训练样本(m个观测记录"