学术交流

“统计大讲堂”第195讲回顾：一种高效的高维数据张量回归方法

2022-07-18

6月28日上午，“统计大讲堂”系列讲座第195讲举行。本次讲座采取线上会议的方式🏪，邀请香港大学教授李国栋作题为“一种高效的高维数据张量回归方法”的报告。讲座由尊龙凯时平台研究员、北京AG尊龙凯时平台娱乐登录官方网站统计学院教授许王莉主持👧。

许王莉首先介绍了主讲人的相关信息🕟。李国栋于北京大学获得了统计学学士和硕士学位。2007年，获得香港大学统计学博士学位，随后在新加坡南洋理工大学数学科学系担任助理教授。2009年，加入香港大学统计与精算系担任助理教授，现任教授。

李国栋首先介绍了有关张量的背景知识👾。他通过具体的例子，指出在当下社会👉，随着数据数量的增多和结构的复杂化👩🏽‍🦲，张量的应用愈发普及🧗🏼‍♂️。而这种实用价值正是激励他们开展研究的动力之一。随后，他介绍了Tensor regression和Tensor autoregression的相关内容🧖🏽‍♀️⛲️，并指出当使用此类回归的时候🚣🏽，参数个数膨胀非常快👈🏽。为解决这一问题🦣，需进行系数降维和张量分解🧮。

接下来，李国栋着重介绍了张量分解所使用的工具。他给出了矩阵化的定义，即将一个张量压缩成平板的矩阵。常用的矩阵化方法有两种——one-mode matricization和sequential matricization。他对这两种方法进行了详细讲解👨🏿‍🎨，并根据公式指出二者的区别。

随后，他介绍了张量的三种分解方式——CP分解、Tucker分解和TT分解。CP分解对张量压缩程度最大🆑，故可以处理更高阶的张量👨🏻‍🎓🐸。但它缺乏理论性质☂️，且优化非常不稳定。Tucker分解与one-mode matricization对应，基本思想为，一个大立方体可通过一个小立方体在三个方向上扩张得到。它是目前最常用的分解方式🔅，优化性质非常稳定。但由于过于谨慎，压缩速度慢🚪，需要消耗的参数非常大。TT分解则是综合了上述两种方法的优点，性质稳定、压缩速度快。然而，它缺乏可解释性，故未能在学界流行🙇🏻‍♀️。李国栋及其团队在前人研究的基础上👨‍👦‍👦，引入正交性👦🏿，对TT分解做出了合理的解释，保证其可以应用到回归当中。

基于上述对张量分解的讨论🏋🏿，李国栋介绍了Tucker分解和TT分解应用至tensor regression中的具体方式🕶。并且，通过对比两种应用方式🏊🏽‍♀️，他指出了两种分解方法的区别，一是参数个数不同🧚🏿，二是压缩参数的方式不同💽。TT分解的参数个数更少，压缩方式更简洁，具有灵活性。随后，他通过数学公式讲解了TT regression的思想🪂，介绍了如何安排响应和预测🧑🏽‍🌾，并呈现了模拟实验的结果。

在提问交流环节中，在线师生就所讲内容积极提出问题，李国栋耐心清楚地解答了大家的疑问，并对TT分解的改进过程作了进一步的阐释🫸🏼。

“统计大讲堂”第193讲回顾：基于排列比较的动态损伤分类研究

“统计大讲堂”第197讲回顾：可微分视觉信息采集建模

教育部人文社会科学重点研究基地

学术交流

学术交流

“统计大讲堂”第195讲回顾：一种高效的高维数据张量回归方法

2022-07-18

上一篇

下一篇