金融科技系智慧金融系列讲座第四十三期

发布者:金融科技系发布时间:2021-12-21浏览次数:79

金融科技系智慧金融系列讲座第四十三期

本次讲座由谢富生老师带来《机器学习和因果推断》。机器学习是人工智能、计算机科学等领域的重要研究方向之一,近年来深受人们的关注和喜爱,尤其是自2006年美国卡内基梅隆大学(CMU)专门设立机器学习系以来,更是在全球产生了史无前例的推动作用。人们意识到在现代科学研究方法中,如果还停留在计算的技术层面上,那整个科学的研究进程可能会受到限制。如对物质特性的分析、分子结构的物理性质的分析等,这些仅凭计算是非常难以实现的。这些数据结构的深层关系和语义的不确定性使得仅凭计算技术来完成这些任务就显得远远不够了。从机器学习的进展来看,已经发展到了李群、动态模糊集合、动态模糊逻辑等相关领域。

谢富生老师带来的机器学习和因果推断主要分成四个部分,分别是机器学习概述、机器学习模型不稳定原因、RCM模型以及因果推断案例。谢老师将机器学习归结为一种实现人工智能的方法。本质是以数理模型为核心工具、结合控制论、认知心理学等其他学科的研究成果,最终由计算机系统模拟人类的感知、推理、学习、决策等功能。从机器学习的架构来看,机器学习分为数据获取、特征提取、数据转换、模型选择、模型训练和模型预测。从训练的角度来看,首先使用训练数据对函数进行训练,在训练的过程生成最优的函数,然后选择测试数据对函数进行测试,最终获得结果。从机器学习的方法来看,可以将机器学习分为监督学习和无监督学习,在监督学习下分为回归、分类和降维,无监督学习分为聚类和降维。如果进行细化可以分为线性回归、岭回归、Lasso回归、支持向量机、决策树、随机森林、梯度树提升、神经网络、逻辑回归、线性判别分析、二次判别分析、K聚类算法、主成分分析等相关方法。从风险角度来看,机器学习是一种“连接主义”方法,且不具备逻辑推理能力,机器学习的结果是历史经验的总结,存在失效的可能性。接下来,谢老师列举了两个例子,分别是选择性偏差和混淆变量问题,他进一步指出,选择性偏差是由于训练问题所导致的,而混淆变量的产生则是源自多元回归中可能存在的虚假关系。谈到机器学习中的不稳定原因,谢老师接着说到,机器学习中的不稳定源自数据问题和模型设置。从最终的评价标准来看,倾向性评分法的因果推断流程为计算倾向评分并估计因果效应、评估各倾向性评分方法的均衡性以及最终的反驳。谢老师于是就Logistic回归做了相应的说明。从最终反驳的角度来看,可以使用安慰剂数据法、添加随机混淆变量法以及子集数据法来对相关的回归进行稳健性检验。一个应用的例子是Lalonde数据集,这个数据集包含了年龄、教育年限、是否为黑人和西班牙人、是否已婚、实际收入等等,使用三种倾向性评分法对该问题进行倾向性分析,最终可以得到倾向性得分和评价标准。再在这种方法上使用基金重仓、质押等问题作为主自变量,以股价的涨跌作为因变量进行调整,再使用三种维度进行调整评价,最终可以得到相关的结论。





















(供稿 曹焕)