首页 >> 学术信息 >> 正文

于彬副教授团队在生物信息学研究领域取得重要进展

发布日期:2021/04/22   作者:李磊   点击:

随着后基因组时代的到来和高通量测序技术的发展,产生了大量实验鉴定的蛋白质-蛋白质相互作用 (protein-protein interactions, PPIs) 数据,许多PPIs数据库也涌现出来,包括DIPsBINDHPRD等。PPIs在细胞结构和功能中发挥着重要的作用,网络结构的混乱会造成细胞生命活动的异常。深入研究PPIs对理解细胞生命活动、阐明疾病发病机制、药物设计和人类疾病防治等方面具有非常重要的意义。传统实验方法鉴定和识别PPIs耗费资源且周期较长,并且存在着噪声数据。因此,基于人工智能方法预测PPIs显得尤为重要,不仅可以预测未知的PPIs,还能对实验方法起到一定辅助作用,已经成为生物信息学的研究前沿和热点。

近日,青岛科技大学数理学院人工智能与生物医学大数据研究团队于彬副教授,在计算机科学领域一区TOP期刊Expert Systems With Applications (IF=5.452) 上发表标题为“Prediction of protein-protein interactions based on elastic net and deep forest”的研究论文。报道了基于深度森林预测蛋白质-蛋白质相互作用的人工智能算法模型—GcForest-PPI。该模型表现出较强的泛化能力以及优异的计算稳定性。于彬副教授为论文的第一作者及通讯作者,研究生陈成并列一作,青岛科技大学为第一完成单位。

在蛋白质-蛋白质相互作用预测研究领域,本研究首次使用弹性网算法进行特征选择,剔除冗余特征和不相关的特征,降低了计算复杂度,提高运行效率。在该研究领域,我们首次使用深度森林预测PPIs,组合XGBoostRandom ForestExtra-Trees构建深度森林模型(GcForest-PPI),通过深层结构挖掘序列特征和类别标签的非线性关系。S. cerevisiaeH. pylori数据集的结果表明基于树的深度学习方法具有较好的模型泛化能力。C. elegansE. coliH. sapiens以及M. musculus的数据集取得较好的预测效果,说明我们构建的模型能够进行跨物种预测,而且阐明了物种之间具有同源性。在CD9-core网络、crossover网络和cancer-specific网络数据集上验证了该方法预测PPIs网络的有效性。本文提出的GcForest-PPI人工智能算法模型可以成为生物信息学的一个有效工具,将为信号通路研究、致病基因挖掘、相互作用网络拓扑研究和人类疾病预防提供借鉴和指导。

 

 

文章链接:https://doi.org/10.1016/j.eswa.2021.114876