旁门左道:批量下载化合物结构式
图1 结果实例
图2
图3
图4
图5
图6
图7
旁门左道系列:
《旁门左道:如何一键提取PDF文档中全部表格》https://bbs.instrument.com.cn/topic/8245597
《旁门左道:如何批量提取坛墨质检标准物质证书》https://bbs.instrument.com.cn/topic/8246943_1_3_1_1_2
原文由 许之秦(xianshijiyi) 发表:
有的化合物会有两个CAS号,这个在命名图片时候有处理方法么
图1
图2
图3
原文由 姜川(Insm_2319aa93) 发表:不错不错,期待楼主更多优秀想法
目前已登记的化合物和cas编号是一一对应的。不过在日常的工作中经常会出现多个物质共出的情况,比如间二甲苯+对二甲苯, 对应的cas号码分别108-38-3,106-42-3。可以用正则匹配进行判断。图1
这个函数的返回一个列表,通过遍历cas列,通过列表长度可以判断该行的化合物对应几个cas号码,如果是1个,则按照正常处理。其他则按照异常处理。在异常处理中,可以下载第一个cas的结构式,并以此命名。在导入到excel的过程中,可以通过isin()函数确定cas是否在对应的单元格的行。图2
图3
通过新增观察列,即新增列表长度列,再结合pandas的筛选功能,即可将异常列的数据筛选出来。不过如果这种异常值不多的话,只要代码能跑通。不处理也没关系。