主题:【第十三届原创】质谱定性:结构式和免费解析工具

浏览 |回复8 电梯直达
liufeilzu
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
该帖子已被新官人设置为精华; 奖励积分记录: liufeilzu(30分)
维权声明:本文为liufeilzu原创作品,本作者与仪器信息网是该作品合法使用者,该作品暂不对外授权转载。其他任何网站、组织、单位或个人等将该作品在本站以外的任何媒体任何形式出现均属侵权违法行为,我们将追究法律责任。

质谱定性:结构式和免费解析工具



在实际分析中,有机化合物的主要组成元素为CNOSP且化合价≥2,原子之间连接形式丰富多样,如何确定原子之间的连接方式,解析化合物结构并得出结构式是鉴定化合物的关键。分析化学通过光谱、波谱和质谱等多种技术手段确定化合物结构。对于质谱技术,在《质谱定性:分子式及免费资源和工具》我们谈到质谱通过测量分子量定性化合物,高分辨高精度质谱数据在一定条件下可以计算出分子式,对于结构式,质谱技术通过把化合物分子“碎片化”并测量这些碎片化的质量来鉴定物质或者推测化合物结构,这部分我们讨论质谱定性解析结构式和免费的解析工具,主要介绍免费的网络资源

限于篇幅,本文集中讨论论坛大家的关注热点,主要内容如下:1讨论大家比较关注的小分子,质谱技术主要指的是ESI/APCI(常规大气压电离)—MS/MS(串联质谱)技术;2讨论多级谱图(主要是二级谱图,但不讨论二级技术如:CIDHCDECD)的解析及未知物质的鉴定,对信号的处理及数据统计分析不讨论。

1多级质谱技术鉴定化合物策略

质谱主要测定的是质量,如果只能得到化合物的质量(即质谱图上的分子离子峰),在没有其它数据作支撑的情况下,即使提高测量的精度,符合分子量要求的化合物数量随着分子量增加急剧增加;现代化学认为化合物的分子结构(化学键和功能团)决定了化合物的性质和用途,对同一名义分子量化合物知道元素组成仅仅是完成最粗浅的测量(以上内容有兴趣了解的请参阅论坛帖子:质谱定性:分子式及免费资源和工具https://bbs.instrument.com.cn/topic/7560694)。因此,用质谱技术来分析化合物结构比测量分子量意义更加重大。

多亏了在质谱分析中,大家发现给化合物能量,会解离化合物结构,产生“碎片”。这些碎片信息和化合物结构直接相关。不同的碎片质量和信号强度组成了质“谱”,质谱和光谱一样成了化合物的指纹,具有结构特异性,解析指纹进一步通过指纹鉴定化合物(CompoundIdentification)成为质谱学的基本研究方向。

质谱产生“碎片”能力为质谱的多级质谱能力,现代串联质谱不论是时间串联和空间串联常用的技术为MS/MS(MS2二级质谱图),对于三级以上谱图因为仪器功能或者操作难度使用不普遍。电子攻击源(EI源)质谱一次给的能量要有些“富余”,除了分子离子峰,也会产生丰富的碎片信息,有的时候有些种类化合物甚至找不到分子离子峰。对于带碎片的质谱图(二级及以上质谱图),化合物的鉴定有以下策略:(1)基于碎片产生的规则解析。在对一系列纯的化合物进行质谱分析后,发现相似的化合物有相似的碎片模式,通过总结发现了一些规律:奇偶电子、N律、丢失重排还有不同化学功能团的碎裂等(这部分可以温习大学分析化学质谱课程),对于有经验的人员加上一定的目标化合物背景信息,可以对碎片进行比较好的解析,目前有些商品化软件如Mass Frontier才取类似基于碎片产生机制的软件专家系统辅助解析质谱。(2)基于数据库搜索。基于碎片产生的规则,需要很强的经验,工作量挺大的,而且犯错的可能性挺大,如果我有足够数量的化合物,而且化合物纯度足够,我把这些化合物都预先在固定的仪器种类固定的实验条件下实验获得谱图并整理成数据库,在后续质谱实验拿获得质谱图与前期数据库进行比对来鉴定确认化合物。数据库搜索比对的算法(即打分方法)最经典的是把谱图向量化,计算两个向量化谱图的cos值(参见论坛帖子:二极管阵列检测器与峰纯度分析https://bbs.instrument.com.cn/topic/4302951),分值越高,可能性越高。打分算法是质谱解析软件的重要组成,它关系着计算时间FDR,这些年新的打分算法发展很快。因为我不懂这里就不讨论了。目前大家使用最多的数据库有NISTWileyEI电离源数据库用于匹配GCMS实验数据搜索,NIST最新发布的2020数据库包含了350643EI谱图,有意思的是NIST谱图收费,而搜库软件免费。对MS/MS数据库,NIST收录了652000张谱图(很多事多肽),别的收录MS/MS谱图库信息资源有MassBank,METLIN, Madison,MetabolomicsConsortium Database (MMCD)等。

搜库是质谱鉴定化合物最便捷最有效的方式,但是这种策略在MS/MS分析小分子却遇到了极大困难。首先,高质量的可重复的谱图不容易获得,其主要原因是质谱仪器多样。以EI源为代表的GC-MS技术电离能量固定,质量分析器绝大部分是四级杆(近些年也有QQQQTOF,Orbitrap的高端GCMS),谱图在不同实验室的可重复性较好,与之对应的是ESI/APCI——MS/MS技术质量分析器种类丰富,串联质谱的不同质量分析器组合更是眼花缭乱,产生MS/MS碎片技术也是种类繁多,即使是同一种CID碎裂技术,各家仪器公司设计的碰撞池和不同的碰撞能量标定也千差万别,CID在不同质量分析器产生的碎片差别也会很大(如在QQQ和离子阱同一化合物碎片离子差别较大;其次,相比蛋白质组学主要分析对象——多肽,小分子的结构预测和谱图预测非常困难,因为可以死磕蛋白质的基本结构肽键及氨基酸残基,加上有基因组学对蛋白质序列有很强的指导标定,所以搜库对以MS/MS技术为基础的蛋白质组学也是很方便实用的,小分子结构千变万化,也没有什么资料可以预判结构,在没有相关背景信息时候,解析谱图,鉴定小分子基本上是连蒙带猜,可信度自己把握。

解决以上问题的方案是把搜库和结构解析结合发展信息学工具。扩大搜索化合物数据库(不是质谱图库)范围,如PubChemKEGG等数据库,检索的主要参数是分子量;对于结构解析,化学信息学发展让直接计算(in silico)碎片成为可能,通过计算的碎片与实际质谱数据匹配打分,解析鉴定化合物。在处理计算化合物MS/MS碎片过程中,不同研究者和课题组有不同的处理方案,有的采用人工智能和机器学习方案对既有数据进行挖掘总结,形成算法解析匹配碎片离子,有的对既有化合物结构采用图论的方式,结合化学键能理论,把化合物分解成理论上碎片,有的从特征中性丢失片段(MS/MS中性丢失信息比EI质谱丰富)、大碎片产生模式等把小分子进行分类,预测谱图,交叉验证。在这些信息学工具发展过程中,提出了碎片树(Fragmentation trees,不同于基于多级质谱的碎片树)力求对所有碎片精心解析,同时也要发展具有特色的打分系统,提高鉴定成功率。

化学信息学在MS/MS解析方面发展多年,有多重商业或者免费的软件,基于使用方便,我向大家推荐几款基于WEB的信息学工具。

2基于WEB的免费MS/MS分析工具

2.1 MetFrg 发布于2010年,是第一个结合搜库和串联质谱碎片预测技术鉴定小分子的软件,有WEB版本和程序版本,WEB网页地址:https://msbi.ipb-halle.de/MetFragBeta/2016更新了新的版本。我们以诺氟沙星和诺美沙星(二者MS/MS谱图见图1)为例简单介绍使用过程,主要界面见图2,第一部分是化合物数据库搜索(Database Setting),一般建议选择比较大的数据库如Pubchem,增加搜索范围,也可以搜索自己比较熟悉的数据库,如LipidMaps,减少搜索范围,数据库越大,搜索计算时间越长。在Parent Ion输入一级质谱分子量(诺氟沙星320.140429),选择加和离子形式([M+H]+),点击Calculate,页面会自动就算Neutral Mass,输入质量准确度(默认为5ppm,建议不要低于10ppm),点击Retrieve Candidates,后台搜索选择的数据库,如果只有1个选项,化学式Formula会出现,在我们例子中共有9795个候选化合物。点击DownloadCandiate可以下载结果。


1. 诺氟沙星和诺美沙星MS/MSZ质谱图。仪器LTQ-Orbitrap XL ESI电离源,HCD碎裂模式。

完成第一部分后,进入网页的第二部分碎片匹配注释(FragmentationSetting & Processing)。左边的搜索条件同第一部分,其中Tree Depth是碎片树(Fragmentation trees)的层级,默认2,碎片离子较少可以选择1。右边输入MS/MS Peak list,最多可以输入40个碎片,一般选择S/N大于3的峰(诺氟沙星输入6个碎片峰,其中一个为分子离子峰),可以excel数据直接复制进框,点击Process Candidates。后台开始计算,第一部分候选结果越多计算时间越久,计算完毕,显示结果,共匹配到9469个候选化合物。下拉WEB页面,显示结果(图3),结构式,命名等信息列表,其中倒数第二列FinalScore显示打分情况,最高分为1,分数越高,可信度越高。在最后一列Details点击Fragments,会弹出窗口显示碎片峰的归属注释,按照分子量从小到大排列,断裂片段显示为绿色(图4)。




2 MetFrg WEB使用界面(已经输入诺氟沙星质谱结果数据)



3 MetFrg WEB诺氟沙星质谱图计算结果



4 MetFrg WEB 质谱图碎片峰注释结果

从输出结果显示测定分子是第29个候选化合物,打分也很高,说明MetFrg工具需要进一步优化。在诺美沙星的分析中,我们设定相同的分析参数,但是MS/MS碎片更丰富,9个碎片峰,候选化合物从8875减少到8707(图5A),但是目标候选化合物在第16位,所以提高碎片的种类对鉴定结果具有重要意义。



5 诺美沙星MetFrg分析结果



2.2CFM-ID相比MetFrg,CFMMS/MS谱图数据要求更高,要求提供低中高碎裂电压的MS/MS谱图WEB地址为http://cfmid.wishartlab.com/,目前版本为3.0(新版本强化了对脂类的谱图计算和鉴定),主要功能分三大部分(图6: Spectra Prediction(谱图预测)PeakAssignment(峰注释)和CompoundIdentification(化合物鉴定),点击页面功能区Utilities,可以到达各个功能应用模块。CFM-IDMetFrg在质谱图处理更加专业,区分EIESI源,对MS/MS质谱图获得、模拟计算和比对更加侧重实际实验,在物质鉴定模块,它所应用的数据库如HDMBNISTDrugBank等都是质谱图数据库,做的有“图”可依,鉴定过程更加接近商业化GCMS过程,对于有准确度要求,更专业的用户,我更加推荐CFM-ID






6 CFM-ID WEB界面。

以双硬脂酸磷脂酰乙醇胺(DSPE)为例,获取不同碎裂能量谱图后计算,对碎片峰注释,结果如图7,输入不同碎裂能量的MS/MS碎片峰(图7A),点击运行后,输出重新绘制的MS/MS图,点击峰,弹窗会碎片峰的结构信息(图7B,后续会有碎片峰(质量从小到大)的列表代码信息及打分(图7C),最后是代码所指的结构式列表(图7D)。如果把图7A检索的质量误差缩小,检索的碎片匹配会更少,打分越高(对比图7C和图7E)。



7 CFM-ID MS/MS谱图注释功能。

2.3 质量测定的精度提高了搜索与计算碎片的匹配度,CSI: FingerID对质量精度要求更高,与前两个免费资源相比,在输入分子离子峰时,还要求输入所有同位素峰的质量即相对强度(图8红框部分),从而更加精确的计算分子式(fourmula),力求做到元素精确。CSI: FingerIDWEB网址为https://www.csi-fingerid.uni-jena.de/,界面逻辑性很好数据输入,分子式到结构式,值得一提的是CSI: FingerID支持多级质谱(MSn)输入(图8绿框部分),算法是以QTOF的数据为基本数据采用机器学习获得,鉴定比较精准,但是有局限性。值得一提的是软件版本是SIRIUS,功能非常强大,提供多种模式计算分子式,保证了结构鉴定的准确度。



8 CSI: FingerID WEB界面。

3总结

    1)分子式是结构式的前提,在使用信息学工具时候,分子离子峰的质量峰是第一要输入的参数,要求质谱数据高准确度高分辨率(详细请参阅论坛帖子:质谱定性:分子式及免费资源和工具https://bbs.instrument.com.cn/topic/7560694)。

2MetFrg使用简便,数据库全,功能多,界面友好(我的最爱),鉴定准确度略低;CFM-ID 功能强大,EIESI-MS/MS谱图都可以运行,专业性强,在使用中对QTOF数据有一定的偏好性,因为没有软件版,在使用中尤其是是有质谱图数据库检测常会抽风;CSI: FingerID同样偏向QTOF数据,页面设计逻辑性好,只奔着未知物鉴定的终极方向而去,功能稍显单一。

3)不怕麻烦最好安装软件版本,WEB因为浏览器和网络的原因,不是很稳定。

4)条件允许最好自己建立数据库,三个都支持自建数据库,搜索效率更高,建立的数据库也是一笔宝贵资源。

5)对立体异构的化合物,信息学工具目前没有好的解决方案,因为质谱鉴定立体异构体成功实验不够多(偶尔有成功的都发文章了),解析理论也不够充分。

写在最后:
疫情期间,有疫情发论文之争,我们测出来的病毒核酸序列是按照指定格式上传到国外生物信息学网站,也有美国对我们技术封锁新闻,华为的芯片设计软件是国外公司的,哈工大竟然被禁止使用MATLAB……;个人,因为不能去公司上班,通过通信工具和同事交流并辅助“鉴定物质”,在使用国外数据库时,尤其是Pubmed突然想到如果老美禁止我们登录他们的网站怎么办(奥巴马时期,因为美国政府停摆,有些公共服务网站服务器停摆了一周)。遂写了质谱定性系列帖子,期望可以引起对实验技术人员对数据整理及相关信息学研究的重视。

帖子的内容大部分来自和同事的问答,限于篇幅,也为了增加可读性,删减了大量内容,在四月中旬上班补充了谱图,质谱定性-分子式及免费资源在5月底完成,剩下的准备10月底之前完成,6月底看到回帖有网友想看到谱图解析及鉴定的后续,在努力赶工完成疫情加班落下的工作间隙,匆忙在7月份尾巴把第二部分写完。

大数据时代,数据就是知识,数据就是财富,我们有丰富的物质基础,期望我们有自己的数据库,有自己的信息学工具。
为您推荐
0
liufeilzu
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
因为时间匆忙,同时考虑控制图片大小,贴的图片质量不太好,清晰度不够,会影响大家阅读,请各位见谅。鼓励有兴趣的网友登陆帖子提供的网址用web工具试一下,经过实践才能出真知。
welewolf
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 liufeilzu(liufeilzu) 发表:
因为时间匆忙,同时考虑控制图片大小,贴的图片质量不太好,清晰度不够,会影响大家阅读,请各位见谅。鼓励有兴趣的网友登陆帖子提供的网址用web工具试一下,经过实践才能出真知。
如果想让大家更清楚的看到文章的图片,也可以上传文档
welewolf
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
liufeilzu
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 welewolf(v2823651) 发表: 如果想让大家更清楚的看到文章的图片,也可以上传文档
好的,谢谢提议。但是原创通过审查后,帖子我已经不能编辑,不能上传附件。等有时间我把质谱定性两部分整理成文档,上传。就怕整理成文档变成附件,没有网页阅读方便。
symmacros
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
详细介绍质谱分析工具,有示例,非常感谢分享好资源。
Insm_70608740
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
楼主棒棒!担忧也是高瞻远瞩,希望所有的科研人员都有这份情怀
freespace
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
认真学习了,请问如何将Thermo Raw Data倒入SIRIUS中?尝试了proteowizard将Thermo Raw Data转换成任何格式SIRIUS都无法导入识别。
liufeilzu
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 freespace(freespace) 发表:认真学习了,请问如何将Thermo Raw Data倒入SIRIUS中?尝试了proteowizard将Thermo Raw Data转换成任何格式SIRIUS都无法导入识别。
支持mgf和txt格式输入,要是txt的把数据上面的仪器和分析信息删掉试一下