|
发表于 2023-4-10 04:50:33
|
显示全部楼层
我做了一个“保姆级”教程,教大家一个奇技淫巧,甚至你不用懂化学,不清楚什么是化学结构式,只要学了这一招,说不定还能唬住一些专业人士。
题主这个问题,我可以拆解成三个环节,保证你能查到任何已经注册过的化合物,甚至还可以预测一些未知化合物的性质。
1、提取化学结构式
2、提取化学结构式的InChI Key编码
3、根据化学结构式的InChI Key编码在PubChem等数据库查询
第一步:提取化学结构式
对于一些小白来说,他们接触到的化学结构式往往是图片格式的,当然你可以用一些诸如ChemDraw等化学结构式编辑器将它画出来,再用结构式编辑器相关功能查找性质啥的,但是这样子本身就需要你需要学习怎么把这个化学结构式绘制出来,这需要时间成本。往往很多人就只想找个化学结构式的性质,不用大费周章学什么画化学结构式(对化学生而言这是必备的技能),言归正传,我们拿到了一张带有化学结构式的图片该怎么办?
比如我随手在网上找了一张化学结构式的图片,我要知道这个结构式的信息,首先就需要提取这个结构。
一张带有化学结构式的图片
(1)用InDraw这个工具,直接截图识别这个化学结构式图片,结构就会被提取到InDraw的画布上。可以在鹰谷信息的官网上找这个工具,它是完全免费的。
InDraw-化学结构式编辑器-结构式搜索-结构式图像识别(2)用小剪刀图标截取图片上的化学结构式,稍等一下图片上的化学结构式就会被提取到InDraw的画布上。
用小剪刀图标截取图片上的化学结构式
第二步:提取化学结构式的InChI Key编码
框选画布上的结构,点击鼠标右键,选择复制为“InChI Key”
框选画布上的结构,点击鼠标右键,选择复制为“InChI Key”
第三步:根据结构的InChI Key编码在PubChem等数据库查询
(1)打开PubChem网站,该网站的地址如下:
PubChem(2)在PubChem数据库中的检索框中粘贴你此前复制的InChI Key,然后点击检索框旁边的"放大镜"图标,就可以查找这个InChI Key。
在PubChem数据库中的检索框中粘贴你此前复制的InChI Key
这个结构的InChI Key编码是:RYYVLZVUVIJVGH-UHFFFAOYSA-N
(3)点击待选结果,就可以进到这个化合物的详情页。
(4)进到详情页可以获取这个化学结构式更全面的信息。
(5)如果你看不懂英文没关系,在你的浏览器上面安装一个翻译插件就可以,把整个页面翻译成中文,推荐使用谷歌翻译插件,这样子对于一些学术词汇的翻译还算是比较准确的。
用翻译插件翻译页面
(6)得到该化学结构式的比较全面的中文信息,点击目录页可以跳转到相关的信息位置。
结果解读
可以看到PubChem提供的化学结构式的信息还是比较全面的。基本上这个化合物的所有被研究过的科研基础信息应有尽有,国内很多化合物的数据来源就是PubChem,算是比较全面的。
题主想找的化合物的基本性质可以看看“化学和物理信息”。我只截取了部分,如下。
计算化学属性、物理描述、颜色/形式、气味、味道、沸点、熔点、溶解度、密度、蒸气压、酸碱度、亨利常数等等应有尽有。最关键的是,它所提供的数据还列出了相关的文献来源,这样子可以追溯到最原始的数据,可信度十分高。
这个是那个图片上的结构式的信息,可以自行查看体验。
Caffeine这套操作的背后的原理是什么?
如果你能看到这里,说明对以上的操作很好奇,但是这并不是很值得炫耀的技能。
其实这个是化学信息学的基本操作,然而很多高校并没有特别重视这块工具的使用以及相关数据库的推荐,很多同学并不会,一问三不知,有同学甚至在百度上查找一些化合物数据,这其实相当的不可靠,因为是二手的数据来源。
当然一些同学甚至连一个最基本的化学结构式都画不清楚,还需要加强学习。
我经常会碰到有同学问帮忙找一个化学结构式的信息,这算是普遍的问题的,这当然不怪他们,因为很多老师,或者过了一定年龄的教授也并不知道还有很多新的工具可以运用到化合物数据的检索上。
考虑教程到要适用于最基本的小白,我希望是越简单越好,所以我就使用了OCSR工具,让他们能够点点鼠标,用三步操作就可以获取权威的数据。
1、什么是OCSR工具?
这个其实就是提取化学结构式的工具,我演示的InDraw其实就是一种OCSR工具,它可以将图片格式上的化学结构式转化为可以编辑形式的结构式文件,这个技术其实就是类似我们日常办公用的OCR工具,可以将图片上的文字转化为可以字符格式的文字信息,方便我们加工和编辑。这只不过是换了一种形式,我曾经写过一篇文章,介绍过这项技术,也测试过市面上的一些OCSR软件。如果你想了解更多,可以看看我这个回答。
有没有能识别化学结构式的ocr引擎?虽然现在基于深度学习的OCSR工具的识别正确率已经相当高了,但是它不能保证你提取到的化学结构式是完全正确的,有可能缺一个原子少一根化学键,所以就需要你后期去纠错。保证画布上的化学结构式和图片上的完全一样就行。
2、什么是InChI Key?
在聊InChI Key 之前要从InChI说起,而提到InChI又不得不提到化学线性表示符。对于计算机而言,它“精通”的是处理代码和字符串。在人类看来简单又直观的化学结构式对计算机而言,却不是那么简单,计算机需要把它转化为一定的图结构。最早期,一些化学家为了让电脑也能存储化学结构,就发明了化学线性表示符,比如SMILES式,只用一串代码就可以表示化学结构。
但是规范的SMILES存在无法自由使用的问题,因为其生成算法是商业性的。史蒂夫·海勒(Steve Heller)和史蒂夫·斯坦(Steve Stein)于1999年提出InChI,以开发可自由使用的化合物的规范表示法。后来,第一个版本在2005年与IUPAC合作宣布。自2009年以来,它一直由一个名为InChI Trust的组织进行管理和开发。
What on Earth is InChI? - IUPAC 100
InChI编码是国际纯粹与应用化学联合会International Union of Pure and Applied Chemistry (IUPAC) 给出的每种化合物化学结构的唯一识别码。
InChI是以人类可以理解的形式编写的分子信息。由于每种化合物都具有不同的InChI,因此可以认为它与化合物名称的IUPAC名称相似。如前所述,与Canonical SMILES的不同之处在于生成算法是非盈利性的,可以自由使用。
而涉及到一些分子比较复杂,所生成的InChI可能比较长,如果用来检索就比较麻烦,于是乎对InChI进行哈希运算会得到 InChI Key,这是固定长度为25个字符的分子表示形式,也称为哈希InChI。与InChI不同,很少会从不同的分子生成相同的InChIKey。在实际使用中,可以用 InChI Key 作为关键字检索出对应的 InChI,再做进一步的使用。
除了我在上面演示的PubChem这个数据库外还有很多数据库也采用InChI编码储存化学结构。
数据库名称 | 化学结构数量 | 网站 | PubChem | 9300万结构以上 | https://pubchem.ncbi.nlm.nih.gov/ | European Biometrics Institute UniChem | 1.51亿结构以上 | https://www.ebi.ac.uk/unichem/ucquery/stats | Royal Society of Chemistry – ChemSpider | 1.14亿结构以上 | https://www.chemspider.com/ | National Cancer Institute – Chemical Structure Lookup Service(NCI) | 7400万结构以上 | https://cactus.nci.nih.gov/cgi-bin/lookup/search | ChemNavigator iResearch Library | 3.71亿结构以上 | https://www.chemnavigator.com/cnc/products/irl.asp | Elsevier – Reaxys | 2900万结构以上 | https://www.elsevier.com/solutions/reaxys | ACS/CAS – Chemical Abstracts Service | 1.5亿结构以上 | https://www.cas.org/ | 3、除了查询这些数据库外,用结构式编辑器可以预测化合物性质
这个我就以InDraw为例,还是使用那个图片上的化学结构,可以来预测它的一些基本物性,其实很多物性都是基于一些方程编制的算法来计算的,有一些数据库所提供的的物性除了是实验实测值外,一些也可能是计算的,因为这个世界上的化合物实在太多,很难面面俱到。
当然你还可以用ChemDraw来预测,如果是画在化学结构式编辑器中的结构,那就太好了,因为可以不用OCSR来识别和转化,最万能的方式就是可以把它保存为.mol格式,这样子其他各种款式的化学结构式编辑器一般都能打开。
由于InDraw和ChemDraw可以直接双向通讯,你把InDraw画布上的化学结构粘贴到ChemDraw里面就可以正常的显示。让我们在ChemDraw里面来预测预测一下这个结构的一些性质。
用ChemDraw来预测性质
一些宝藏化学数据库
1、国外的化学数据库
PubChem https://pubchem.ncbi.nlm.nih.gov/
PubChem 检索可得到的结果包含了分子式、SMILES、2D和3D结构、InChI和InChIKey、相对分子质量、脂水分配系数、氢键受体和供体数目、可旋转键数目、互变异构体数目等基本的结构信息和物化性质,除此以外,还有该化合物作为药物的剂型和商品信息、药理性质、毒性、生物活性检测等信息,并通过文献分类副标题可以查看相关文献 NIST Chemistry WebBook https://webbook.nist.gov/chemistry/name-ser/
美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)直属美国商务部,从事物理、生物和工程方面的基础和应用研究,以及测量技术和测试方法方面的研究,提供标准、标准参考数据及有关服务,在国际上享有很高的声誉。NIST的科学家主要从事生物技术、化学、半导体电子学、陶瓷学、物理学、光电子学、防火、聚合物、信息技术、制造工程和计量科学。 ChemSpider http://www.chemspider.com/
ChemSpider是一个隶属于英国皇家化学会的汇总数据库,包含了来自不同资源提供的五千五百多个化合物信息。现在,该数据库含有的信息包括海洋天然产物数据、ACD实验室化学数据库、EPA的DSSTox数据库以及来自不同供应商的一系列化学物质信息。数据库拥有多种搜索工具,而且大多数化合物都有计算物理化学性质值。 Phenol-Explorer http://phenol-explorer.eu/
Phenol-Explorer是第一个专门为食品中多酚含量创建的综合数据库。数据库中含有400种食物中500个不同多酚类物质的35,000多个含量值。这些数据信息是从1,300多篇科学文献当中提及的60,000多种原始含量值中提取而来。 ZINC https://zinc.docking.org/
包含2000多万个化合物分子,适用于虚拟筛选。用户可以自行绘制或输入分子的SMILES字符串来上传待检索的分子,同时,还可以限定净电荷量、xLogP、可旋转键数、氢键供体和受体数等参数范围。库中的分子结构均可被免费下载,支持SMILES、mol2、3DSDF和DOCK flexibase格式,并且化合物的相关信息可以以表格形式下载,便于用户使用。 DrugBank https://go.drugbank.com/
药物信息包括了该药物的CAS号、商品名、分子式、分子量、SMILES、2D和3D结构、logP、logS、pKa、熔点、吸收性、Caco-2细胞穿透性、药物类别和临床使用、性质描述、剂型与给药途径、半衰期、体内的生物转化、毒性、作用于哪些生物体、食物对服用的影响、与其它药物的相互作用、作用机理、代谢途径、药理学特征、与蛋白质的结合情况、溶解度、物质形态、同义词、关于合成的相关文献等,还与ChEBI、GenBank、PubChem等外部数据库有链接。 Toxnet http://toxnet.nlm.nih.gov/
Toxnet是美国国家医学图书馆(nlm)的化合物毒性相关数据库,包括药品毒理学、危险化学品和其它相关领域的信息,从Toxnet可对下列子数据库进行检索:HSDB (危险化合物数据库):内含4500种毒性(或可能具有毒性的)化学药品,以及其毒性、对环境的影响、化学安全性、废弃物处置等相关领域的信息。TOXLINE 包括药物和其它化学物质的生物化学、药理学、生理学、毒理学的文献数据库。其中有300万条引文、几乎都有摘要和/或检索条、以及CAS登录号。 2、国内的化学数据库
Drug future www.drugfuture.com/toxic/
RTECS主要包括以下六大类化学物质的毒性数据:直接刺激性(Primary irritation);致突变性(Mutagenic effects);对生殖的影响(Reproductive effects,即致畸性);致肿瘤性(Tumorigenic effects);急性毒性(Acute toxicity);其他多剂量毒性。其中记录有该化学物质的数值毒性值,如半数致死量(LD50或LC50),最低中毒剂量(TDLo),最低中毒浓度(TCLo)等,以及实验所使用的物种和给药途径。最好通过不同方式如CAS号,通用名多次查询,因为有些化合物可能通用名查不到,CAS号却能查到。 ChemBlink https://www.chemblink.com/indexC.htm#opennewwindow/
首页检索(该数据库检索与Drug future-化学物质毒性数据库类似,需通过CAS号和化学名等多次检索,有时候CAS号搜不出来,化学名可以,如下面CAS号搜索没有结果,但是用化学名Tetrabutylammonium bromide就可以得到结果):提供化合物的安全技术说明书(MSDS),说明书中毒性一栏(Toxicological Information)会提供化合物的一些毒性数据。 Chemical Book www.chemicalbook.com/
ChemicalBook是一家致力于为化学行业用户提供最有价值信息的资源平台,平台可以使用使用中文名称,CAS号,英文名称,分子式,分子量,MDL号,EINECS号,结构式等多种方式检索,提供供化合物的安全技术说明书(MSDS),说明书中毒性一栏(Toxicological Information)会提供化合物的一些毒性数据。 物竞数据库 http://www.basechem.org/
物竞数据库是一个全面、专业、专注,并且免费的中文化学品信息库,为学生、学者、化学品研究机构、检测机构、化学品工作者提供专业的化学品平台进行交流。数据库采用全中文化服务,完全突破了中英文在化学物质命名、化学品俗名、学名等方面的差异,所提供的数据全部中文化,更方便国内从事化学、化工、材料、生物、环境等化学相关行业的工作人员查询使用。 盖得化工网 https://china.guidechem.com/
盖德化工网,诞生于2009年,提供基于互联网平台的专业性贸易撮合与促进服务,为化学品采购商和供应商提供服务,平台在以真实、精准、丰富为目标,建立了化工产品库、公司数据库,提供自动撮合匹配的采购通服务,可大大提高采购商找产品效率。为助力化工企业研发、安全管理,建立了盖德化工字典数据库,目前已收录了7000多万条化合物数据,包括结构式、物化属性、用途、安全数据、核磁图谱、合成路线等。 化源网 https://www.chemsrc.com/casindex/
化源网提供全方面的化合物搜索,包括常规搜索,官能团和结构式搜索,是国内仅有的一两个能提供全面搜索服务的网站之一。拥有自主产权的化合物搜索引擎。特点是速度快、结果准确、输入智能模糊容错。化源网的搜索即搜即得,最佳匹配您的需求。化合物数据库丰富。目前收录了500多万条唯一CAS编码的产品信息,产品信息全面涵盖产品的合成路线,文献索引,理化性质,上下游产品,MSDS,供应商信息。另外亿级化合物数据库产品陆续添加中。 化学加 http://data.huaxuejia.cn/
化学加搜索——全球三大化合物数据库之一,2018年11月获得国家级“大数据科技传播奖.优秀团体创新奖”。与化学加APP、微信小程序同步。超过4000万条CAS号,数据精准,且已关联上该产品的所有已入驻化学加网的供应商。CAS号:又称CAS NO.、 CAS Registry Number、CAS Number 、CAS登录号 。庞大的化合物名数据库,超过1.2亿条化合物数据,覆盖中文与英文。且已关联上该产品的所有已入驻化学加网的供应商。智能的化学式输入识别,最灵活的输入方式,精准的搜索结果。 |
|