QSAR Models

简介

Forge可以建立多种不同类型的定量与定性模型以进行构效关系(SAR)解释以及活性预测。Forge的QSAR建模能力总结于下表。

QSAR models in Forge Quantitative model Qualitative model
3D Descriptor Field QSAR
Automatic Machine Learning
K-NN
Activity Atlas
Activity Miner
2D Descriptor k-NN Activity Miner

Field QSAR models

Cresset的Field QSAR方法用叠合过的分子形状和静电特征来建立描述活性的方程。与其他的方法不同,Field QSAR只用最小数量的基于不规则格点而不是规则格点的描述符,避免了与笛卡尔空间中分子取向相关的问题。完整的细节正在准备文章,如需详细的方法请联系我们。

Field QSAR模型提供了SAR数据的全局视图。在SAR视图平滑的地方工作得很好–分子中的小变化导致活性的小变化。在获得稳健模型的情况下,可以用于预测新设计分子的活性,帮助确定合成的优先次序。除了预测之外,可以研究特定化合物与模型的拟合情况,以理解设计的有利或不利之处。这些反馈不仅可以用于改进设计,还有助于解释模型和理解特定化合物高活性或非活性的原因。

AChE抑制剂QSAR模型

QSAR模型与化合物拟合

Figure 1. 上图:AChE抑制剂的Field QSAR模型; 下图:将一个活性分子与模型拟合以指导设计新化合物

自动机器学习(Automatic Machine Learning)

新版的Forge中引入了新的机器学习(ML)方法,包括支持向量机(Support Vector Machines, SVM)、关联向量机(Relevance Vector Machines, RVM)和随机森林(Random Forests, RF)。在新版Forge的Build Model选项框里不仅有之前的Field QSAR和kNN回归(k-Nearest Neighbors regression),还增加了SVM、RVM与RF等机器学习方法(Figure 2)。有了这些众所周知、健壮的统计工具,您可以更好地在项目工作中构建预测性模型。

Forge 10.6 机器学习

Figure 2. 新的机器学习方法显著地扩展了Forge V10.6中QSAR模型构建选项的范围

3D的静电(基于Cresset XED力场)与形状这两个描述符跟分子之间的识别直接相关,因此非常适用于化合物的活性与选择性的建模。Forge的Field QSAR以及新引入的机器学习方法正是使用这两种描述符进行建模;而kNN除了可以使用3D静电/形状描述符外,还可以使用2D指纹做为描述符。

多种QSAR模型构建方法的重点是:您可以选择在特定项目中性能表现最佳的方法/模型。如果你认为分别计算所有这些模型一定很无聊,那么我有一个好消息:你真的不会无聊。 Forge会默认自动运行所有ML模型并为您选择最佳模型(Figure 3)。

Automatic QSAR Model

Figure 3. Forge自动构建所有可用的机器学习方法,并给出最佳模型

没有高质量数据,但还想建立预测模型

有时,您拥有的数据并不像您希望的那样干净,不能用于QSAR建模的目的。 您可能有百分抑制率数据而不是pIC50或pKi; 数据来源于不同的测试实验; 或者仅仅是定性的数据。

Forge中的机器学习方法可以用分级数据建立用于将化合物排序、分类为一种类别(比如活性/非活性,活性低/中/高)的分类模型。 Forge还将提供可视化工具(例如混淆矩阵,Figure 4)和分类性能指标(比如精确度,召回率,知情度)以评估模型的性能并确定它是否足以用于项目工作。

机器学习分类模型

Figure 4. 分类模型的混淆矩阵与其它统计学指标

k-Nearest Neighbor (k-NN) Models

kNN是一种健壮的、众所周知的方法。当面与多个系列的化合物或者与来源于不同的生物学数据一起使用时特别有用。对于每个分子,它找到k个最相似的分子(邻居)并且使用这些分子来预测所研究的分子的活性。传统的k-NN模型使用2D相似性来测量到邻居的距离。在Forge中,k-NN模型可以使用:

  • 3D相似性:Cresset场相似性、Gaussian形状相似性、或静电场与形状组合的DD相似性。
  • 2D相似性:ECFP4, ECFP6, FCFP4以及FCFP6计算的指纹图谱相似性

Activity Atlas

Activity Atlas用3D等值图来总结系列化合物的构效关系,它采用贝叶斯来分析:

  • 活性化合物的平均形状与静电特征
  • 完整的活性悬崖矩阵
  • 已经探索到的形状与静电区域

Activity Atlas特别适合于数据不足以做出传统3D-QSAR模型,但又需要了解SAR的情况;与机器学习方法是好搭档:因为机器学习方法采用复杂的方程,不能轻易地转换回3D配体-蛋白质相互作用的信息,而Activity Atlas可以非常方便的解释SAR。

Field QSAR

Figure 5. 上图:Field QSAR静电场(左)和立体场(右)系数。 下图:活动悬崖静电场概要(左)和活动悬崖形状场概要(右)。 颜色编码:红色=增加正静电势有利活性; 蓝色=更多负静电势有利于活性; 绿色=有利的立体体积; 洋红色=不利的立体冲突。

Activity Miner

Activity Miner用于发现和了解SAR中的活性悬崖。 它可以在2D和3D相似性上运行。 与Field QSAR和机器学习模型不同,它在SAR图景特别锯齿状的地方很有效。 此处详细描述了Activity Miner

相关链接

香港天下彩开奖记录