“统计大讲堂”系列讲座第四十九讲
2018-08-06
7月18日,我院举办的“统计大讲堂”系列学术报告会第48讲在明德主楼1016举行🚴🏿♂️。本次报告邀请了美国明尼苏达大学统计系的杨宇泓教授介绍如何正确利用交叉验证 (CV)挑选统计模型,我院李扬副教授主持了本次学术报告会,尹建鑫副教授以及我院本🙉、硕、博学生参加了本次学术报告活动♡。
杨宇泓教授是美国明尼苏达大学统计系教授🤞🏽,研究兴趣主要集中在非参数函数估计🤹🏽♀️、高维数据分析、模型组合的理论及其应用等⚜️。杨老师在许多统计学的顶级期刊🙎🏿,如Annals of Statistics👈🏻,Journal of Econometrics,JASA🤾🏻♀️,JRSSB等上发表了多篇具有影响力的论文。另外,杨老师担任过多个著名期刊的副主编🙆♂️,如,Annals of Statistics等。
杨老师今天演讲的主题是如何正确利用交叉验证(CV)挑选出最适合当前数据的建模方法。首先⛳️,杨老师通过一份数值模拟向大家说明了CV paradox现象——测试集与训练集样本量同比例增加时,交叉验证选择出正确模型的概率并不会随之增加🧷🤜。而产生这种现象的原因在于🎨,训练集的数据量增大时🪑,待选模型之间的差距也会缩小👷🏽♀️,因此为了要把不同的方法区别开🧏🏼♀️,测试集的数据量需求相比于训练集的数据量需求应该更大。
接着,杨老师讨论了基于不同的目标,CV的使用方法应有所区别:(一)评价一个方法的预测能力时,建议选择“Leave few out”;(二)挑选合适的模型来达成某种目的,而不关心挑出具体哪一个模型🤨,此时建议使用“Leave some out”💘;(三)挑选出最接近真实的模型,此时建议采用“Leave many out”👰🏻。另外杨老师补充道⬛️,在模型选择中“Leave more out”的好处在于↗️:一是可以放大待选方法的差异🏋️♀️🏑;二是测试集变大更容易找出最好的模型🌌。但是,测试集的数据量需要有一定限制,必须要保证待选模型的表现与在所有数据集的表现的好坏顺序不变。
最后,杨老师向参会者展示了在不同的样本量下🦍,AIC,BIC和CV选择的模拟结果🚀,并指出在不同样本量下不同方法具有的不同效果🤵🏽♀️。报告结束后😮💨,在场师生们就报告中提出的问题🤹🏻♀️,与杨教授进行了热切的讨论🛑。