日前,国际顶级(ji)学术期刊《Nature》子刊《Nature Machine Intelligence》在线发表了(le)百度在生物计(ji)算领域的最新研究成(cheng)果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,论文提出“基于(yu)空间结构的(de)化合物表征学习(xi)方法”,即“几(ji)何构象增(zeng)强AI算(suan)法”(Geometry Enhanced Molecular Representation Learning,GEM模(mo)型),将(jiang)化合物的几何结构信(xin)息引入自监督学习和(he)分子表示模型,对化合物进行(xing)“3D建模”,以预(yu)测化合物分(fen)子的性质属性(xing)。其在药物筛选上的(de)应用,可在数小(xiao)时内完成传(chuan)统仿真方法1年的工作(zuo)量,效率提升上千倍(bei),有望大幅(fu)降低药物研发的时(shi)间投入和成本投入(ru)。该工作为百(bai)度在AI赋能(neng)药物研发领域(yu)的又一项重磅成(cheng)果。
作为药物(wu)研发的关键一环,候选化合物的性(xing)质预测相当于(yu)为临床实验(yan)“排雷”,即提前筛选(xuan)掉毒副作用高、人(ren)体吸收代(dai)谢不好等具有(you)不良特性的化合物(wu)。这项任(ren)务以前只能通过传统(tong)仿真实验进(jin)行,成本(ben)高昂且耗时(shi)长。后来,研究(jiu)人员引入深度学习技(ji)术,但传统的深度(du)学习方法大多基于(yu)序列或者2D图结构建模,缺(que)乏化合物三维空间(jian)结构信息的利用(yong),这会丢失一部(bu)分空间信息,导致化合(he)物性质预(yu)测结果的偏差。
实际上,化合(he)物的性质和其三(san)维空间结构密(mi)切相关,为(wei)了更好地(di)预测化合物性质(zhi),亟需引入化(hua)合物的三维空(kong)间信息。百度(du)此次提出的“基(ji)于空间结构的化合(he)物表征学习(xi)方法”,即GEM模型,在这一点(dian)上实现了重大(da)突破,在全球范围(wei)内开创性地将化合物(wu)性质预测从“2D建(jian)模”推进到“3D建模”。同时,引入AI领域迅速(su)发展的预训练技术,利用大量无标注(zhu)的化合物数据(ju),通过自监督(du)学习,构(gou)建GEM模型的底层(ceng)能力,有望能成(cheng)为小分子(zi)药物研发领域的模(mo)型底座,解(jie)决小分子药物活性(xing)预测,成药性(xing)预测,药物设计(ji)等核心问题,真正加(jia)速药物,特别(bie)是全新药物(wu)(First In Class)的发现过程。
GEM模型(xing)已基于百度飞桨生物(wu)计算平台螺旋桨(jiang)PaddleHelix在GitHub开(kai)源:
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM
基于(yu)空间结构的化合物(wu)表征学习方法(GEM)的整体框(kuang)架
从(cong)实验效果看,百(bai)度GEM模型已在(zai)14个国际(ji)学术界公认(ren)的应用任务数(shu)据集上达到业(ye)界最佳,超越(yue)斯坦福等国际学术(shu)界、工业(ye)界的模型效(xiao)果(后附效果图)。这些数据集包括(kuo):抑制 HIV 艾滋病病(bing)毒复制能力的数据(ju)集、小分子(zi)的生物活性数据(ju)集、血脑屏(ping)障渗透数据集等。百(bai)度GEM模型在(zai)回归任务(wu)上相对现有方(fang)法指标提升8.8%,在分类任务(wu)上指标相对提升4.7%,并在自监(jian)督学习方法上的消融(rong)实验中证明了自(zi)身的有效性(xing)。
部分实验结(jie)果截图
在应用价值层(ceng)面,百度GEM模(mo)型可高效学习化合(he)物的空间结构知识,并自主推断出空(kong)间结构信息,从而准(zhun)确预测候(hou)选化合物的(de)吸收、代谢、毒(du)性等特性,帮助药(yao)物研发更快更准(zhun)地完成早期(qi)筛选,目前已经在多(duo)个合作伙(huo)伴的研发管线中(zhong)实现了商业化落地(di),有望通过AI技术探索双靶点(dian)抑制剂新(xin)的研发范式,为(wei)癌症病人和自身免疫(yi)性疾病病人提供更有(you)效的治疗药(yao)物。
此外,该方法还有助于(yu)高效测量(liang)药物-靶标相互(hu)作用,可加速新药研(yan)发,为老药发(fa)掘新用途,并探索多(duo)种药物联合使用(yong),进一步增(zeng)强疗效,降低抗药(yao)性和毒副作用(yong),甚至疗治新病症。
百度研究(jiu)院在其发布(bu)的2022科技趋势预(yu)测中指出,基于AI的生物计算(suan)仍将高速发(fa)展,基础研究和应(ying)用场景协(xie)同创新将(jiang)实现新突破。事实上,在生物(wu)计算领域,百度已全面布局并持(chi)续发力:推出业(ye)界首个mRNA疫苗(miao)序列设计算法(fa),可在10分钟(zhong)内找出稳定的疫苗序(xu)列,并与中国疾(ji)控中心开(kai)展合作;基于飞桨打(da)造生物计(ji)算平台“螺旋桨PaddleHelix”,为生物医(yi)药专家与学者提供AI+生物计(ji)算的模型工具(ju)和解决方案,服(fu)务于新药研发(fa)、疫苗设计、精准医疗等场景。
据悉,本(ben)次研究由百(bai)度螺旋桨PaddleHelix团队独(du)立完成。基(ji)于百度长期(qi)AI技术积累,团队成功实现(xian)了生物学与(yu)计算机科(ke)学的跨学科创新(xin)。百度此次提出(chu)的方法可为化合(he)物成药性预(yu)测、小分子药(yao)物筛选、药(yao)物联用等具体(ti)场景的应用(yong)研究带来裨(bi)益,而未来更(geng)有望扩展到蛋白领(ling)域,构建基于蛋白(bai)的表征模型(xing),服务于大分子的(de)药物研发。
注(zhu):《Nature Machine Intelligence》是Nature旗下专(zhuan)注于机器学习领域的(de)顶级期刊,主要(yao)刊发机器学习领域(yu)学术价值高并取(qu)得重大进(jin)展的研究论文。过去(qu)两年影响因子为(wei)16.649,一(yi)般计算机领域的(de)顶会影响因(yin)子在3~10,影响(xiang)因子值越高研究的影(ying)响力越大。