数学学院、所2021年系列学术活动（第123场）：周丰丰教授吉林大学计算机学院

发表于： 2021-09-15 点击：

报告题目：生物大数据的特征优化算法

报告人：周丰丰教授吉林大学计算机学院

报告时间：2021年09月17日 14:30-15:30

报告地点：数学楼三楼天元数学东北中心研讨室六

校内联系人：张凯 zhangkaimath@jlu.edu.cn

报告摘要：近年来大量生物组学高通量技术产生的数据集被公开发布，为生命科学的分子机理研究提供了有力的数据支撑。包括转录组和甲基化组等组学数据，从不同研究视角描述了生命体的个体差异性和分子活动动态性。生物组学大数据具有“大特征小样本”的挑战，机器学习模型容易产生过拟合等建模问题。特征选择可以选择一部分特征，用来建立稳定可靠的模型。特征工程采用信息融合及浓缩的策略，也可以达到降低数据维度的效果。

生物组学数据存在复杂的相互关联性，而特征选择算法很难体现特征之间的定量化关系。通过经典的机器学习算法和最新的深度学习算法，可以有效提取出生物组学数据内在的定量相互关系，为生物组学数据的高通量分析提供了有益的新研究视角。

本工作采用经典机器学习的回归算法，定量刻画了一个转录特征与其多个转录调控因子（transcription factor，TF）的转录调控关系、以及基因层面的综合甲基化水平。构造出来的特征可以更好的描述差异性表达、特征选择、分类和聚类性能。

还研究了简单数学计算就可以构造出新型特征类型，并对甲基化预测年龄问题提出了性能更好的回归模型，跨数据集交叉验证结果也体现了更好的性能提升。

由于特征构造算法的时间复杂度较高，现有算法很难在合理时间内处理所有，所以通常需要对原始特征进行预筛选，来保证用于构造特征的原始特征数目在合理范围。未来将详细研究不同原始特征子集构造出阿里的特征，有什么性能上的提升。

报告人简介:周丰丰教授，吉林大学唐敖庆教授，博士生导师，中国科学院百人计划，IEEE（美国电气和电子工程师协会）高级会员。周丰丰博士的团队主要从事健康大数据挖掘核心算法的研究。

主持或参与包括863和中科院先导等各级别项目，主持金额合计近500万元。已发表学术论文70篇，其中包括SCI索引67篇。根据SCI数据库统计，总引用次数1279次，他引次数999次。学术成果多次在包括Nature Protocols、Nucleic Acids Research、和Bioinformatics等学术期刊上发表。相关成果连续荣获多次国际疾病预测竞赛较好排名。应邀担任多个SCI索引期刊的副主编或编委，并多次（每一类均超过20次）应邀评审国际和国内项目标书、国际学术期刊和会议的投稿论文。学术成果多次在包括Nature Protocols（IF: 9.924，1篇）、Nucleic Acids Research（IF: 8.026， 3篇）、Bioinformatics（IF: 5.468，3篇）、BMC Genomics（IF: 4.073， 2篇）和Genetics（IF: 4.007，1篇）等高水平SCI索引学术期刊上发表。相关成果连续荣获国际疾病预测竞赛2012年度第三名（共55个学术团队参加）和2013年度第四名（共28个学术团队参加）。应邀担任新杂志Frontiers in Bioinformatics and Computational Biology的副主编(associate editor，大陆唯一)，Interdisciplinary Sciences: Computational Life Sciences(SCI索引，新索引杂志，影响因子正在计算中) 副主编，Computers in Biology and Medicine (SCI索引，影响因子1.089)的编委，PLoS ONE (SCI索引，影响因子4.351)的编委，以及BioEnergy Research(SCI索引，影响因子3.562)的唯一生物信息学编委，并多次（每一类均超过20次）应邀评审国际和国内项目标书、国际学术期刊和会议的投稿论文。

曾经与正在承担相关项目500万。

上一篇：数学学院、所2021年系列学术活动（第124场）：刘锐教授南开大学

下一篇：数学学院、所2021年系列学术活动（第122场）：万由衷教授吉林大学中日联谊医院

科学研究

数学学院、所2021年系列学术活动（第123场）：周丰丰 教授 吉林大学计算机学院

数学学院、所2021年系列学术活动（第123场）：周丰丰教授吉林大学计算机学院