学术交流

“统计大讲堂”第196讲回顾：用噪声对抗噪声：多候选工具变量的因果推断

2022-07-18

6月29日下午，“统计大讲堂”系列讲座第196讲举行。本次讲座采取线上会议的方式，邀请多伦多大学统计学助理教授孔德含作题为“Fighting Noise with Noise: Causal Inference with Many Candidate Instruments”的报告。讲座由尊龙凯时平台研究员🏠👨🏼‍🦱、统计学院教授许王莉主持👥。

许王莉首先介绍了主讲人的相关信息🧑🏽‍⚕️。孔德含🚪，多伦多大学统计学助理教授，现任美国统计学会会刊副主编🚶🏻‍♀️。研究方向包括脑图像，函数型数据分析🏃🏻‍➡️，因果推断🙍，高维数据分析以及机器学习。

孔德含首先从生活中的超重这一普遍现象引入工作目标“超重是否会影响人的生活质量”🦀，即用BMI衡量是否超重，研究BMI与生活质量之间的因果关系。但在这种情况下，会有一些混淆因素，如人的生活习惯👶🏼，它会对BMI和生活质量造成不同影响🥃。想要得到BMI与生活质量间的因果效应，就需要通过outcome等模型去校正这些混淆变量。而实际生活中🍚，这些混淆因素往往不能都观测到，因此没有办法通过校正混淆因素的方式得到因果效应的估计。随即🤵🏿，孔德含介绍了Mendelian randomization(MR)方法来解决上述问题。若通过一个随机试验（如用人的基因型进行区分）得到的一串随机的BMI值🧚‍♀️🧑🏿‍🏫，它们就不会被后天的混淆因素所影响。

接着👩‍🏭，孔德含对因果推断的结构作了简单介绍。其中风险因素为X🧎🏻‍➡️，结果为Y，从X到Y的红线为X到Y的因果效应🕣，因果效应的真值为β，混淆因素为U🧑‍🤝‍🧑👏🏽，工具变量为Z。工具变量在混淆因素没有观测到的情况下使用，需满足三个条件🚴，一是必须影响X，二是不能直接影响Y，三是与U之间不能存在相关性。这样，X到Y的因果效应就能写成一个比例🥁，称为wald ratio👟，在有限样本的情况下，该比例的估计称为two stage least squares📃。

孔德含指出👂，自然实验并不完美🙇🏿‍♂️。一是绝大多数基因型变量Z是无关的，如果想知道基因型与X相关，需使用GWAS分析🏝。二是即使是相关的Z也可能无效。若一个基因的变种会影响多个特征🧜🏻‍♂️，那么该基因可能是无效的。现存的方法分为三个步骤：第一步🏌️，通过GWAS找到与X相关的Zj🦺；第二步🙏，用mode- finding算法识别有效工具变量;最后一步，使用这些识别出来的有效工具变量进行因果效应估计。随后他举出一个模拟例子对上述三步加以运用，并分析了模拟中存在的问题及解决方法🥍。

针对工具变量⏱🚵🏼‍♂️，孔德含介绍了用于分开无关和有效工具变量的两条理论⛹🏽‍♀️。第一条，如果无关工具变量被选进来，那么它们的因果效应的估计就在一个含参区间内；第二条，对有效的工具变量😑，若概率趋于1，其因果效应的估计就集中于β*，即若d小于|C*|或U尽可能大或ω尽可能大🔂，则伪变量与有效变量可以分开🪞。

在演讲最后🫅，孔德含对所述研究中使用的数据进行了说明与讨论，并作了简要总结。

在提问环节中，孔德含认真细致地解答了师生们的疑问📽，就本话题进行了更进一步的探讨。

“统计大讲堂”第193讲回顾：基于排列比较的动态损伤分类研究

“统计大讲堂”第197讲回顾：可微分视觉信息采集建模

教育部人文社会科学重点研究基地

学术交流

学术交流

“统计大讲堂”第196讲回顾：用噪声对抗噪声：多候选工具变量的因果推断

2022-07-18

上一篇

下一篇