图谱中峰的漂移建议
首先引进一个辅助向量E,其每个分量E(i)表示当前点的集合V中所找到的从起始点v1到每个终止点vi的最短路径的长度。初态为:E(i)=min{E(i)|vi∈V}。具体算法如下:
()对于表示含有m个点的有向图的距离矩阵D,S为已找到从v1出发的最短路径的终点的集合,S的初始值为空集,E(i)的初始值为:E(i)=D(1,i) vi∈V。
()选择vj,使得E(i)=min{E(i)|vi∈VS}, vj就是当前求得的一条从v1出发的最短路径的终点。令S=S∪{j}。
()修改从v1出发到集合VS上任一顶点vk的最短路径长度。如果E(i)+D(j,k)<E(k),则使 E(k)=D(j,k)+E(j)。
()重复步骤()和()共m-1次,即可求得从起始点v1到图上其余各顶点的最短路径。
3 结果与讨论
通过如下两例对本研究提出的色谱指纹图谱匹配算法进行验证。
算例1:对同一厂家、不同时间生产的40批珍菊降压片的HPLC色谱指纹图谱进行匹配(色谱数据由上海中药研究所提供),考察各匹配参数对匹配结果的影响,确定匹配参数的适宜值。
算例2:对本实验室在工业模式中药自控制备平台上所得的不同批次的丹参提取物(3批)、柴胡提取物(5批)在HP公司的Aglient 1100 HPLC上测定图谱(色谱条件略),根据优化的匹配参数,分别采用本研究提出的算法和色谱指纹图谱分析软件对同一药材提取物的色谱图、20组随机抽取的珍菊降压片HPLC谱图进行匹配并比较匹配结果。对匹配结果进行检验,统计谱图所匹配的峰组总数N、根据谱图直观特征判定的明显匹配错误的峰组总数n,以及应匹配而程序未能将其匹配的峰组总数L。
3.1 峰面积参数对匹配结果的影响
固定保留时间参数与权重比在一个较大的范围内,即tm=0.5,τm=0.05,wt/wA=100,调整峰面积参数Am和am,根据匹配结果确定本算法中的最优峰面积参数。从40张珍菊降压片谱图中随机抽取10对图谱进行匹配。10组图谱匹配的统计结果见表1。
从表1可知,无论am处在何种水平,匹配峰的个数随Am逐渐增加。应匹配而未匹配的峰组数目与Am,am的设置密切相关:当二者中有0值出现且均取得偏小时易造成应匹配的峰未被匹配,尤其是am=0时,匹配峰的约束条件退化为As-Am<A<As+Am,遗漏峰非常多。当am2且Am10时,可使L为0。当Am=30,am=3时,匹配峰组总数达到极大值,再增大Am与am,各项匹配统计数据不再改变。
3.2 保留时间参数对匹配结果的影响考察
将峰面积参数与权重比例固定在一个较大的范围内,即Am=30,am=3,wt/wA=100, 改变tm和τm的值,随机抽取10对珍菊降压片谱图进行匹配,结果见表2。表1 不同峰面积参数下珍菊降压片HPLC谱图匹配结果(略)表2 不同保留时间参数下珍菊降压片HPLC谱图匹配结果(略)
表2具有与表1相类似的规律:无论τm处在何种水平,匹配峰组总数随着保留时间参数 tm的增长而加大,且漏配峰组数目L不断下降。当tm=0.5,τm=0.05时,匹配峰组总数N达到最大,不再随τm、tm的增长而发生变化,且L与错误率保持为0。当τm或tm为0时,易造成应匹配而未被匹配的峰组出现。
3.3 权重比值对匹配结果的影响
把峰面积参数与保留时间参数固定在一个较大的范围内,即tm=0.5,τm=0.05,Am=30,am=3,进行权重比例的调整。对随机抽取的10组珍菊降压片HPLC谱图进行匹配,发现权重比例的值对最后的结果影响不大,可以将其设置为任一大于1的数值。最终确定以下优化的匹配参数作为色谱图匹配算法中的默认值:tm=0.5,τm=0.05;Am=30,am=3,wt/wA=10。
3.4 两种方法对中药色谱指纹图谱匹配结果的比较
采用本研究提出的算法(有关匹配参数采用上面建议的默认值)与中药指纹图谱软件的自动匹配方法分别对40批珍菊降压片谱图(随机抽取20组)、5批柴胡提取物谱图(随机抽取5组)、3批丹参提取物谱图(随机抽取3组)、15批人参提取物A、17批人参提取物B、C色谱图(均随机抽取10组)进行色谱峰的匹配,有关结果列于表3。表3 2种方法对各中药色谱指纹图谱匹配的结果对比(略)
从表3可知本算法所匹配的峰组总数均高于或等于软件算法的结果。除人参提取物A的色谱图匹配时,本算法有一个不明显的漏配峰组外,其余谱图均无漏配峰组。而软件给出的结果中,除柴胡皂苷提取物的色谱图无漏配峰组外,其余谱图均有数目不等的漏配峰组(数目在9~87之间)且有部分图谱出现明显与直观特征不符的错配峰组。
3.5 特殊情况下有关参数的设置
上面讨论的色谱图均是在同一台
液相色谱仪、同一根色谱柱下所取得的,一般保留时间不会有太大漂移。但在实际应用中,由于色谱数据可能来自不同测试单位,虽然色谱条件相同但所用色谱柱可能不同,会造成同一物质保留时间的巨大差异。为此,实验取某珍菊降压片HPLC谱图(见图2最上面的谱图),对其保留时间作一非线形转换,构造了两个最大保留差在10 min以上的图谱(见图2下面两张图谱)。显然,取默认参数tm=0.5,τm=0.05时图2中的图谱无法满足式(1)的匹配约束。根据图2的图谱特征,取 tm=3,τm=0.4,可使20~50 min内的各谱峰的保留时间波动范围大于10 min,最终对图2中的3张图谱100%匹配正确(见图3)。
由此可见,在图谱特征有比较明显的对应关系的情况下,本方法可根据直观图谱特征合理设置匹配参数,克服了保留时间的漂移,对图谱进行正确匹配。而文献[6]中的方法对于伸缩参数t的设置虽然提出了一个不宜过大或过小的原则,但未提出具体的t值选择方法和范围,在具体应用时,不易把握合适的t值。对于图2所示的情况很容易出现匹配错误。
总之,本研究提出的基于图论原理的色谱指纹图谱谱峰匹配方法具有较大的灵活性,在保留时间漂移小于3.5 min(60 min内)的情况下,可以取本方法提供的默认参数进行色谱峰的匹配。当保留时间漂移大于3.5 min时,可参照谱图特征设置适当的tm与τm使(1)式得以满足,即可获得良好匹配结果。但对于因色谱柱厂家不同而造成同类样品色谱分离度有明显不同的情况,仅仅依靠色谱信息无法实现正确匹配,本文及文献[5,6]的算法并不适用,需要进一步完善和改进。
致 谢 感谢上海中药研究所中药室张国明先生提供珍菊降压片色谱指纹图谱数据。
References
1 Editorial Committee of the Pharmacopoeia of the People′s Republic of China(中华人民共和国药典委员会).Research Guide of Chromatographic Fingerprints Experiment of TCM (Protocol) (中药注射剂色谱指纹图谱实验研究技术指南(试行)). 2002
2 Li Boyan(李博岩),Liang Yizeng(梁逸曾),Hu Yu(胡 芸). Chinese J. Anal. Chem.(分析化学), 2004, 32(3): 313~316
3 Gonga F, Liang Y Z, Fung Y S, Chauc F T. J. Chromatogr. A, 2004, 1029: 173~183
4 Xie Peishan(谢培山).The Treatises Collection of International Symposium of TCM Quality Assessment by HPLC Fingerprints (国际色谱指纹图评价中药质量研讨会学术报告论文集).Guangzhou(广州), 2001: i3l,i327
5 Chen Minjun (陈闽军),Chen Yiyu(程翼宇). Chinese J. Anal. Chem.(分析化学), 2003, 31(5): 513~517
6 Nielsen P V, Carstensen J M, Smedsgaard J. J. Chromatogr. A, 1998, 805: 17~35
7 Edward Minieka ,Marcel Dekker,translated by Li Jiaying(李家滢),Zhao Guanqi(赵关旗). Optimization Algorithms for Network and Graphs (网络和图的最优化算法). Beijing(北京):China Railway Publishing House (中国铁道出版社), 1984: 36~46
8 Dijkstra E W. A Note on Two Problems in Connection with Graphs.Numerische Mathematik, 1959, 1: 269~276