应数理学院孙鸿雁老师邀请,北京大学医学部梁宝生研究员来我校做学术报告。 题 目:统计案例系列之“分类方法(Classification)及R软件应用” 时 间:10月22日下午14:00-18:00 地 点:科研楼309 报告摘要:数据预测是基于对历史观测数据的分析,归纳、提炼其中的规律,并将这种规律体现于或应用于对未来的预测中。当实际关心的预测变量(或输出决策变量)为属性或分类变量时,我们把这种利用观测数据建立预测模型、训练参数,再用训练完成的预测模型对新观测进行分类预测的方法统称为分类方法。与连续型预测变量不同,一般属性变量的取值较少(信息量非常有限)且没有简单数值上的大小关系,因此,分类问题的研究与传统的回归方法有很大的区别,也更有难度和挑战。但是,现实中的分类问题却是比较常见的,甚至比回归问题还要多。在此报告中,我们将介绍一些最常用的,技术成熟且易于实现的分类方法:逻辑回归、线性判别、贝叶斯判别、分类树,随机森林以及支持向量机等,还将介绍一些用于比较或衡量不同分类方法效果优劣的评价指标。最后,将介绍R软件的使用,并结合具体案例,展示如何用该软件实现上述分类方法。 个人简介:梁宝生,北京大学公共卫生学院生物统计系,研究员。2016年博士毕业于北京师范大学概率论与数理统计专业,2013至2016年在读期间先后以联合培养博士生和助研身份分别在美国北卡罗来纳大学教堂山分校生物统计系和美国纽约哥伦比亚大学生物统计系学习生物统计学;博士毕业后,前往香港大学统计及精算系做博士后。出站后,受聘于北京大学医学部工作至今。研究领域为生物统计学、数理统计学和机器学习等,在震后PTSD、帕金森疾病、阿尔兹海默病和肺癌等疾病的临床复杂数据的建模方法等方面开展了系列研究。在Biometrika、Statistica Sinica等国际知名杂志上发表论文13篇, 参与完成译著1部。 主持国家自然科学基金1项(青年科学基金),主持北京市自然科学基金1项,以骨干成员参加国自然面上项目2项。 研究生记学术报告一次,欢迎广大师生参加! 数理学院 研究生院 2020年10月21日
|