[论文翻译]Uni-Mol: 通用3D分子表征学习框架
分子表示学习 (Molecular Representation Learning, MRL) 因其在药物设计等应用中从有限监督数据学习的关键作用而备受关注。大多数MRL方法将分子视为1D序列Token或2D拓扑图,限制了其在下游任务中整合3D信息的能力,尤其使得3D几何预测或生成几乎无法实现。为此,我们提出Uni-Mol——一个通用MRL框架,显著扩展了MRL方案的表征能力和应用范围。Uni-Mol由两个具有相同SE(3)等变Transformer架构的模型组成:基于2.09亿个分子构象训练的分子预训练模型,以及基于300万个候选蛋白质口袋数据训练的口袋预训练模型。这两个模型可独立用于不同任务,并在蛋白质-配体结合任务中联合使用。通过合理整合3D信息,Uni-Mol在14/15的分子性质预测任务中超越SOTA。此外,该框架在3D空间任务(包括蛋白质-配体结合位姿预测、分子构象生成等)中表现出卓越性能。最后,我们证明Uni-Mol能成功应用于少样本数据任务(如口袋成药性预测)。模型与数据将在https://github.com/dptech-corp/Uni-Mol公开。