基于高通量的质谱技术方法,目前,各种疾病相关的差异蛋白质组数据高速增长。但是要从这些数据中发现生物学规律,挖掘得到疾病相关的生物标记物,以及发现潜在的疾病药物靶标,还有很艰难的数据分析任务需要完成。需要借助生物信息学的工具,去综合现有数据库数据及文献数据的知识,对这些蛋白质进行综合分析。
发表于蛋白质组学杂志上的一篇综述From proteome lists to biological impact-tools and strategies for the analysis of large MS data sets. (Rainer et.al,. Proteomics 2010,10.1270-1283)很好地概括了面对海量的
蛋白质组数据这个艰巨的任务时,生物学家和生物信息学家共同发展的数据
分析策略和方法,从而数据中挖掘出隐藏的生物学知识。文章介绍了数据预处理过程(如ID转换)、功能富集分析、网络分析及蛋白质性质分析(如PTM, domain,motif)等工具;另外,还介绍了随着实验数据增长起来的文献数据的文本挖掘方法。