2019年6月27号,CINS进行了19年第十五场Seminar,主讲人分别为陈嘉兴和王柯。

第一位出场的是18级的陈嘉兴,他此次为大家分享的是一篇名为《Reactive school closure weakens the network of social Interactions and reduces the spread of influenza》的论文,这篇论文提出了一种网络模型,用以辅助为防止疾病传播和扩散所采取的闭校决策。

陈嘉兴在PPT的开头对论文的研究背景做出了一些介绍,长久以来,每当传染性流感爆发时,都会伴随着对闭校政策缓解流感传播的有效性的质疑,其原因追根溯源还是在实施这些政策期间缺乏关于人口行为的有效证据。在这篇论文中,作者利用获得的数据开发创新的数据驱动预测建模框架,以减少闭校政策的不确定性。

       在详细介绍完模型所研究的数据来源之后,陈嘉兴就这些已有的数据,对网络节点中不同情况下的感染频率和类型做出了可解释性的分析和推导,并以大量的统计图例加以说明。

网络传播模拟图

在论文的实验环节,陈嘉兴根据论文提供的可视化结果,以节点在实际传播过程中所受到的各种影响因素为基础,为大家做出了在理论上完全合理的解释。

 

 

 

 

第二位出场的是19级的王柯,王柯给大家带来的是一篇名为《XGBoost: A Scalable Tree Boosting  System》的论文,主要介绍了当下较为主流的算法——XGBoost的主要原理及其应用场景。

seminar开头,王柯首先以详实的公式结构为大家阐述了有监督学习中的一些重要概念,其中还包括评价指标的抽象含义。 王柯以机器学习入门者的视角,为在场的研零的同学提供了十分形象的概念解说。

王柯在陈述XGBoost在竞赛算法中的地位

在介绍了一系列重要的模型训练流程后,本次seminar的内容进入正题。王柯从XGBoost的源头——回归树开始进行追溯。王柯指出,用单个决策树,效果可能不大好或者说太绝对了,因此当使用单分类器效果欠佳时,一般可以考虑集成算法,弱分类器组合起来,成为一个强分类器。

通过引入集成算法的概念,王柯回到问题本身——即偏差和方差的权衡到处都有,而我们需要的是一个预测能力好并且尽量简单的模型,随后王柯开始概括XGBoost在GBDT的误差函数基础上加入了L1和L2正则项后,是如何完美的契合我们的需求的。

XGBoost核心公式

其中Loss函数可以是平方损失或逻辑损失,T代表叶子节点数,w代表叶子节点的分数。加入正则项的好处是防止过拟合,这个好处是由两方面体现的:一是预剪枝,因为正则项中有限定叶子节点数;二是正则项里leaf scroe的L2模平方的系数,对leaf scroe做了平滑。

 

以下是陈嘉兴、王柯同学在这次seminar中的表现评分。