我报名参与金石方案1期应战——瓜分10万奖池,这是我的第6篇文章,点击检查活动概况

AI医疗高精尖!基于AI的新药研发!
  • 作者:韩信子@ShowMeAI
  • 机器学习实战系列:www.showmeai.tech/tutorials/4…
  • 深度学习实战系列:www.showmeai.tech/tutorials/4…
  • 本文地址:www.showmeai.tech/article-det…
  • 声明:版权一切,转载请联系渠道与作者并注明出处
  • 保藏ShowMeAI检查更多精彩内容
AI医疗高精尖!基于AI的新药研发!

引言&背景

AI + 新药研制

人工智能作为一种新兴技能,是新药研制完成降本增效的重要方式之一,『人工智能+新药研制』成为国内外医药企业加快创新转型的重要驱动力,一个更快、更便宜、更有效的新药物研制年代已经到来。

一款新药从承认研制目标到完结临床试验,往往需要耗费数年时刻和数十亿美元,并伴随着超越 90% 的失利概率。昂扬的研制本钱、绵长的研制周期、高风险低回报率的特性,笼罩在药物研制范畴。而正在探究的各种 AI 使用,能够协助处理这些应战。

AI医疗高精尖!基于AI的新药研发!

最近发表的一项剖析表明,150 多种小分子药物处于研制阶段,超越 15 种药物已经在临床试验中,这条 AI 生物技能赛道以每年近 40% 的速度急速扩张种。为追赶这波浪潮,制药公司正在树立自己的内部人工智能团队,或与 IT 公司、AI新药研制创新公司进行投资和协作。

AI 药物分子结构剖析/检索

使用 AI 进行药物化合物分子结构剖析和检索等,是一个助力新药研制的可行思路。Zilliz 公司与全球顶尖制药研制企业共同开发的『MolSearch』化合物分子结构剖析软件是一个典型的例子。本篇咱们就一起来了解下这个进程是如何完结的。

AI医疗高精尖!基于AI的新药研发!

向量查找 & 医疗研制范畴的使用

AI医疗高精尖!基于AI的新药研发!

在万物皆可 embedding 的深度学习年代,『特征向量表征+向量检索』有巨大作用,在很多数据和业务范畴都发挥了巨大作用,例如机器视觉(图片视频检索)、自然语言处理(文本检索、问答)、语音识别等。相同的思路也能够用在医疗医药范畴。

AI医疗高精尖!基于AI的新药研发!

药物晶型猜测

比方新药研制进程药物晶型猜测,能够结合图像识别和检索的思路,有效地猜测出适宜的药物晶型。

AI医疗高精尖!基于AI的新药研发!

靶点挑选与患者招募

比方靶点挑选患者招募进程,能够抽象为对文本语义剖析问题,能够结合 NLP 表征与检索办法,快速剖析有关药物研制的文本数据等。

AI医疗高精尖!基于AI的新药研发!

虚拟药物挑选

AI 能够在新药研制进程中发挥巨大作用的另一个进程是『虚拟药物挑选』,经过模拟药物挑选的进程,猜测化合物可能的活性,比照较有可能成为药物的化合物进行针对性的实体挑选,这个进程能够大大下降药物研制的时刻和经济本钱。

有不少传统办法方案在测验,但受限于算法和算力,对千万等级的化合物分子进行类似性、子结构、超结构等剖析时,耗时较长(分钟等级),而在AI向量检索技能优化后,能大大加快这个进程(对十亿级的化学式数据极速剖析,仅秒等级)。

MolSearch 新药结构挑选

Zilliz 公司根据 Milvus 向量类似度检索引擎,研制了化合物剖析软件 MolSearch,大家能够在 这儿 检查中文阐明。

药物化学专家一般根据骨架跃迁对分子模块进行优化,并根据它规划出新药结构并做后续挑选。针对海量化合物的虚拟挑选是非常中心关键的一部,其作用很大程度决定了后期小白鼠试验以及临床试验能否成功,候选底库量级越大,挑选准确率越高,新药研制成功的概率也相应越高。

MolSearch 体系集成向量类似度检索引擎 Milvus ,构建分子检索功能,能够完成十亿级的化学分子结构秒级检索剖析才能。

MolSearch 作用&功能

现在 MolSearch 中集成了 8.2 亿 zinc 敞开化学式分子式数据集,这些化学式被转换为 2048 位的化学指纹(特征向量),在有表征特征向量之后,借助于高效向量检索引擎,能够完成对分子结构的类似性、子结构和超结构检索。

AI医疗高精尖!基于AI的新药研发!

MolSearch 端到端的检索功能数据如图所示(图中『呼应时刻(p99)』表明 99% 的检索能在多少时刻完结)。

AI 新药研制辅助体系

挑选流程 & 中心进程

具体展开 MolSearch 的虚拟化合物挑选技能如下图所示,包括以下进程:

AI医疗高精尖!基于AI的新药研发!
  • ① 经过 RDKit 东西将化合物分子的化学式转换为化学式指纹/Chemical Fingerprint(也即表征特征向量)。
  • ② 经过向量检索引擎,对化合物分子之间联系剖析:子结构检索、类似性检索、重复结构检索。

化学指纹生成

化学指纹一般用来做结构检索和类似度检索,如下图所示,终究的指纹向量表征为01串,每一位(0/1)代表化学结构中例如指定元素,分子片段等是否存在。

AI医疗高精尖!基于AI的新药研发!

MolSearch 中这个环节使用了东西 RDKit ,它会生成 RDKit fingerprint,底层的算法原始是:剖析从一个原子开端直至抵达指定数量键的途径(path,一般为线性)上一切的分子片段,然后对每一个途径进行哈希(hash)产生指纹(fingerprint)。

上图展现了从NH2(已圈出)开端一直到 6 个长度的一切途径,然后将每个途径 hash 映射为二进制位。

图例是一个单个开始原子动身的片段和比特位,终究的完好指纹生成,是对分子中的每个原子进行这个操作后的成果。能够指定 fpSize 调整生成的向量维度,这个进程对于每个分子都适用,咱们把终究生成的向量导入 Milvus 以完成后续检索,完好的指纹向量生成进程示例代码如下:

from rdkit import Chem
mols=Chem.MolFromSmiles(smiles)
fp=Chem.RDKFingerprint(mols,fpSize=VECTOR_DIMENSION)
bit_fp=DataStructs.BitVectToFPSText(fp)
vectors=bytes.fromhex(hex_fp)

化合物检索

咱们将生成的指纹向量导入 Milvus,即可使用不同核算方式完结对化合物的『类似度检索』、『子结构检索』和『超结构检索』。示例代码如下:

from milvus import *
milvus = Milvus()
milvus.insert(collection_name=MILVUS_TABLE, records=vectors)
milvus.search(collection_name=MILVUS_TABLE, query_records=query_list, top_k=topk, params={})
  • 类似度检索。用于寻找与输入的参考分子比较类似的分子。
  • 子结构检索。检测一个分子结构是否为另一个分子的子结构。
  • 超结构检索。检测一个分子结构是否为另一个分子的超结构。

指纹间隔衡量与类似度核算

Milvus东西本身支撑各种常用类似度核算指标,包括『欧氏间隔』、『内积』、『汉明间隔』和『Jaccard间隔』等。因为指纹是二值型数据向量,咱们能够挑选 Jaccard/Substructure(子结构)/Superstructure(超结构) 间隔核算类似度。咱们界说以下表明:

AI医疗高精尖!基于AI的新药研发!

根据以上界说,化学式指纹之间的间隔和类似度衡量核算,能够如下表中描述来核算:

AI医疗高精尖!基于AI的新药研发!

参考资料

  • AI in small-molecule drug discovery: a coming wave?:(https://www.nature.com/articles/d41573-022-00025-1
  • MolSearch 官方 GitHub:github.com/zilliztech/…
  • MolSearch 中文阐明:github.com/zilliztech/…
  • RDKit:www.rdkit.org/

AI医疗高精尖!基于AI的新药研发!