主题:【分享】人类基因组单核苷酸多态性的研究进展与动态 【转贴】

浏览0 回复1 电梯直达
省部重点实验室
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
人类基因组单核苷酸多态性的研究进展与动态
The research development of single nucleotide polymorphisms in human genome
摘要:第一张人类基因组序列草图已经公布,正式图预计也将于2003年4月完成。但序列图只基于少数个体,它反映了基因组稳定的一面,并未反映其变异或多态的一面,而正是这种多态性,即基因组序列的差异构成了不同个体与群体对疾病的易感性、对药物与环境因子不同反应的遗传学基础。人类基因组中存在广泛的多态性,最简单的多态形式是发生在基因组中的单个核苷酸的替代,即单核苷酸多态性(single nucleotide polymorphisms, SNPs)。SNP通常是一种二等位基因的(biallelic),即二态的遗传变异,在CG序列上出现最为频繁。在转录序列上的SNP称为cSNP。SNP的数量大、分布广。按照1%的频率估计,在人类基因组中每100~300个核苷酸就有一个SNP。因此,整个人类基因组(3.2 X 109bp)中至少有1,100万以上的SNPs,在任何已知或未知基因内和附近都可能找到数量不等的SNP 目前普遍认为,作为数量最多且易于批量检测的多态标记,SNP在连锁分析与基因定位,包括复杂疾病的基因定位、关联分析、个体和群体对环境致病因子与药物的易感性研究中将发挥愈来愈重要的作用。迄今,对多基因疾病候选基因的SNPs研究已积累了丰富的数据,基于这些SNPs的关联分析也正方兴未艾。本文阐述了SNP的特征、不同研究者对基于SNP进行关联分析的观点以及SNP的研究进展与动态。

关键词: SNP;遗传标记;关联研究

中图分类号:Q75

随着分子遗传学的进展,疾病遗传学研究从简单的单基因疾病转向于复杂的多基因疾病(如骨质疏松症、糖尿病、心血管疾病、精神性紊乱、各种肿瘤等)与药物基因组学的研究中。与前者相比,多基因性状或遗传病的形成,受许多对微效加性基因作用,即其中每种基因的作用相对较微弱。这些不同基因构成的遗传背景中,可能有易感性主基因(major gene)起着重要作用。它们同时还受环境因素的制约,彼此间相互作用错综复杂,所以任一基因的多态性对疾病发生仅起微弱的作用。鉴于此,需要在人类基因组中找到一种数目多、分布广泛且相对稳定的遗传标记,单核苷酸多态性(single nucleotide polymorphisms, SNPs)正是代表了这样一种标记,所以它成为继第一代限制性片段长度的多态性标记、第二代微卫星即简单的串联重复标记后,第三代基因遗传标记[1]。

1. SNP作为遗传标记的优势

SNP自身的特性决定了它比其它两类多态标记更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究。

(1)SNP数量多,分布广泛。据估计,人类基因组中每1000个核苷酸就有一个SNP,人类30亿碱基中共有300万以上的SNPs。SNP 遍布于整个人类基因组中,根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-region SNPs,cSNPs)、基因周边SNPs(Perigenic SNPs,pSNPs)以及基因间SNPs(Intergenic SNPs,iSNPs)等三类。

(2)SNP适于快速、规模化筛查。组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic)。 由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。主要的技术方法包括单链构象多态性(single strand conformation polymorphisms, SSCPs)法、异源双链分析(heteroduplex analysis, HA)、DNA直接测序分析、变异检测阵列(variant detector arrays, VDA)法以及基质辅助激光解吸附电离飞行时间(MALDI-TOF)质谱法等。

(3)SNP等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。

(4)易于基因分型。SNPs 的二态性,也有利于对其进行基因分型。对SNP进行基因分型包括三方面的内容:(1)鉴别基因型所采用的化学反应,常用的技术手段包括:DNA分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术;(2)完成这些化学反应所采用的模式,包括液相反应、固相支持物上进行的反应以及二者皆有的反应。(3)化学反应结束后,需要应用生物技术系统检测反应结果。目前许多生物技术公司发展出高通量检测SNP的技术系统,如荧光微阵列系统(Affymetrix)、荧光磁珠技术(Luminex,Illumina, Q-dot)、自动酶联免疫(ELISA)试验(Orchid Biocomputer)、焦磷酸的荧光检测(Pyrosequencing)、荧光共振能量转移(FRET)(Third Wave Technologies)以及质谱检测技术(Rapigene, Sequenom)。

2. 基于SNP的关联研究

如果某一因素可增加某种疾病的发生风险,即与正常对照人群相比,该因素在疾病人群中的频率较高,此时就认为该因素与疾病相关联。如非遗传因素吸烟与肺癌相关;在遗传因素中,如APOE4与Alzheimer`s相关。对疾病进行关联分析需要在年龄与种族相匹配的患者和对照人群中确定待测因素(环境的或遗传的)的频率分布,患者和对照人群的选择是否恰当直接影响结果的可靠性。对常见的由高频率、低风险等位基因导致的疾病,采用致病等位基因的关联分析比连锁分析更有效[2]。

应用SNP进行关联研究,首先需明确多少SNPs才可满足在全基因组范围内的分析。Kruglyak[3]应用计算机模拟法预测人类基因组中超过3Kb就不存在连锁不平衡,据此推出完成全基因组扫描将需要500,000个SNPs。而Collins等[4]收集通过家系研究得到的常染色体单倍型的信息发现,在染色体上相距0.2cM到0.4cM(约200-400kb)之间的标记仍存在连锁不平衡,如按每100kb需要一个SNP计算,那么完成全基因组扫描仅需约30,000个SNPs,平均每3-4个基因用一个SNP就可识别出整个基因组内任何位置上的具表型活性的变异。最近发现SNP与SNP之间的连锁不平衡甚至可延伸到更远的区域(0.35cM-0.45cM),那么进行基因组扫描需要的SNP数量就更少。导致上述估算SNP 数量差异的主要原因是Kruglyak进行模拟计算时,假设现在的人群在5000年前起源于共同的祖先,且人群规模的有效大小保持在10,000左右,然后经过连续的指数扩增,直至达到现在的50亿左右。Collins认为这种假设是不现实的,在人类发展的历史过程中,人群数目的增长是迂回曲折的,经历扩张与萎缩的周期性变化。

Weiss等[5]认为Collins及其同事的结果可能低估了问题的复杂性。因为他们的结果或是基于小样本资料推断出来的,就会使连锁不平衡(LD)程度的估算偏高;或是从理论上预测LD的水平,而忽略了基因组中大量的随机变异。如大多数位点的信息是来源于小样本中测序得到的资料,据此得到的单倍型结构不可靠。目前的研究集中于基因组中LD相对广泛存在的区域,在此区域内,基因相对容易作图。如基于这些经验来进行基因组其它区域的LD分析,就可能发生偏离。如两个相距较远的SNPs 之间具有强的LD性质,就认为它们之间的SNPs及该SNP侧翼的SNPs也存在强烈的LD,这种假设仅适合于其中一些多态位点,但它并不是通则。当然,在一些罕见人群中,如Saami,在较长的区域内广泛存在大量的LD,但对Fihland人群,则在较长区域内几乎不存在LD,对全球整个复杂人群而言,LD肯定变得更复杂一些。

Gray等[6]认为随着人类基因组测序计划的进展,人类基因组的结构逐渐被阐明,因此就可在那些富含基因的区域选择SNP进行全基因组扫描,这样所需的SNP数量还会减少。Halushka等[7]根据他们对75个基因检测的实验结果推测,SNPs在单个基因或整个基因组中的分布是不均匀的,在非转录序列中要多于转录序列,而且在转录区也是非同义突变的频率比其它方式突变的频率低得多。Templeton 等[8]对LPL基因突变与重组热点的研究结果提示,SNP集中分布于基因组的CG二核苷酸处或单核苷酸重复区或αDNA聚合酶的识别位点(TG{A/G}{A/G}GA)处。将人类基因组不同区域物理图谱与遗传图谱的进行比较,发现遗传距离和物理距离的比值有很大的差异,提示基因组不同区域的重组水平存在差异。如Dunham等[9]将22号染色体STR的物理位置与遗传位置进行了对比,发现该染色体的重组率差异很大,提示存在重组热点。根据基因组内不同区域重组频率的高低可进一步选择SNP的数量,重组热点需要的标记数量就多,相反就少。这种设计也可能会进一步减少基因组扫描所需的SNP标记。

使用SNP进行关联分析面临的另一个问题是如何选择SNP。如果对每一个SNP都进行独立研究,那么对几百万SNPs 的研究就会导致成千上万次的假关联,结果就掩盖真实的关联性,所以,进行关联分析前,一定要对所研究的SNP进行选择。集中对那些从生物功能上定义的候选基因、或通过差异显示找到的基因、或通过连锁研究发现的在位置上候选的基因中的SNP进行研究,被选择的SNP很可能有功能效应,如那些非同义cSNP或启动子区的SNPs。应用致病等位基因与其周围SNP的连锁不平衡性提高关联分析的效果。理论上,如果某一SNP与其附近的致病等位基因呈现较强的连锁不平衡性,那么二者应该与疾病表现出相似的关联性。可应用一系列随机SNPs扫描其周围的DNA序列以期发现能指示起病效应的关联信号。

由于基于连锁不平衡进行的关联分析是依赖于致病位点本身与其邻近的标记具有足够的连锁不平衡性,所以这种方法在隔离人群中非常有效。因为隔离人群可能起源于同一远祖,群体的建立时间及建立群体的大小都是确定的,隔离可以排除混杂群体因素。群体的建立时间可以提供与疾病相关基因突变形成的界限,而一个小的群体也增加了疾病是由某一个体产生的可能性,从而增强了疾病与现在群体中的一个特异单倍型的关联。如Lann等[10]发现小群体具强烈的不平衡性;而在其它人群中,即使仅相距几个kb,连锁不平衡性与预测值的偏差都很大。但最近的研究[11]发现,隔离的小群体与较大的杂交人群中连锁不平衡的程度相同。Lonjou等[12]甚至提出,在某种程度上,隔离人群反而不利于关联分析。所以疾病位点周围的连锁不平衡性似乎取决于人群发展的历史、规模的大小等因素。为了更有效地应用基于连锁不平衡进行的关联分析,就必须仔细地选择那些具有相同病因起源的人群作为研究对象。

总之,进行关联分析,应从以下方面加以考虑:(1)对照与患者人群的起源应相同,他们的各项性状特征应有很好的对应关系;(2)将连锁与关联结合起来分析,效果更佳;(3)采用任何一个或少数标记得到的阴性关联分析结果并不能排除其周围序列对疾病的风险性;(4)与疾病相关联的阳性标记未必可确定其周围的致病序列。

3. SNP的最新研究进展

随着高通量检测SNP 的技术方法的出现,如DHPLC、MALDI-TOF、DNA Chip以及DNA测序、动态特异等位基因杂交(dynamic allele-specific hybridization)等,不同基因的详细SNP图谱逐渐被完成。目前通过上述技术手段,已完成近300个基因的SNPs图谱:如Nickerson等[13]在71个非亲缘关系的个体中研究了LPL基因的第4-9外显子共约9.7kb长的DNA片段,发现了79个SNPs,平均每500bp约一个SNP;在APOE基因中,平均每1,100bp约一个SNP;Reider等[14]通过在6个欧洲人和5个非洲人中对血管紧张素转换酶(DCP1)基因的26个外显子、25个内含子以及部分5'和3'侧翼序列跨度约24,070bp的测序发现了78个SNPs,约每1,075bp有一个SNP,其中15个SNPs为cSNPs;这些SNPs构成13个单倍型;采用DNA Chip与DHPLC技术,Cargill等[15]在114个独立的等位基因中检测了与心血管、内分泌以及神经精神病相关的106个基因的SNPs,在跨度约196.2 kb的区域中发现了560个SNPs,其中392个为cSNPs。Halushka等[7]在74个欧洲和非洲后代中研究了高血压候选基因(约28Mb)的SNPs,发现了874个候选SNPs,其中387个位于编码区;Cambien[16]等研究了36个与心血管紊乱相关的基因的SNPs;Yamada等[17]在48个日本人群中研究了类风湿性关节炎的41个候选基因,覆盖了104 kb DNA区域,其中30 kb为编码区,74 kb位于非编码区,共发现了142个SNPs;Ohnishi等[18]在48个患心肌梗塞的日本人群中研究了41个与心肌病相关基因的SNPs,包含约120 kb的DNA区域,发现了187个SNPs,其中52个位于编码区。Geraghty等[19]对6号染色体包含所有HLA class I 区域的2.2 Mbp 的DNA序列进行筛查,检测出10,000 SNPs。

国内SNP的研究正初见端倪,我们应用变性高效液相色谱(DHPLC)技术对冠心病患者的脂蛋白脂酶基因的SNP进行了筛查[20],复旦大学遗传所报道了汉族人群中?2-肾上腺素能受体基因的SNP[21],上海人类基因组研究中心将DHPLC与直接测序法在SNP 检测中的应用进行了比较研究,证明前者可有效地筛检人类基因组中的SNP[22]。

最近,国际SNP研究组织TSC (The SNP Consortium) 与国际人类基因组测序组织(the International Human Genome Sequencing Consortium)共同报道了人类因组中1.42 百万个SNPs ,使SNP的密度达到1/1.9 kb[23],Sachidanandam等估计约60,000 SNPs位于外显子区域,这张高密度的SNP图谱将有助于发现那些对疾病诊断与治疗有益的重要基因。截止2001年5月,已有2.84 百万存放在NCBI的数据库dbSNP 中 (http://www.ncbi.nlm.nih.gov/SNP/),Marth 等[24]将这些 SNPs归为1.65百万个非冗余的SNPs。

4.SNP的网上资源

目前,可供利用的公开SNP网上资源主要包括:

I. 由美国国立卫生研究院(National Institutes of Health, NIH)提供的主要是与癌症和肿瘤相关的候选SNP数据库: http://cgap.nci.nih.gov/GAI

II. 由NIH开辟的适于生物医学研究的dbSNP多态数据库: http://www.ncbi.nlm.nih.gov/SNP

III. 由人类基因组组织机构(Human Genome Organization, HUGO)维持的突变数据库: http://ariel.ucs.unimelb.edu.au/~cotton/mdi.htm

IV. 由美国白头研究所(Whitehead Institute for Biomedical Research Genome Institute)建立的人类SNP数据库: http://www-genome.wi.mit.edu/SNP/human/index.html

V. 由华盛顿大学(Washington University)支助的按染色体位置组织的SNP数据库: http://www.ibc.wustl.edu/SNP

VI. 由瑞典卡尔林斯卡研究院(Karolinska Institute of Sweden)建立的HGBase数据库:http://hgbase.cgr.ki.se/

VII. 由国际医药与信息加工公司联合组成的SNP 研究联盟(The SNP Consortium, TSC)建立的SNP 数据库:http://snp.cshl.org/db/snp/map

VIII. 由美国国立环境健康科学研究院(National Institute of Environmental Health Science)资助的犹他州大学SNP数据库: http://www.genome.utah.edu/genesnps/

参考文献:

1. 张思仲(ZHANG SZ). 中华医学遗传学杂志(Chin J Med Genet),1999,16(2):119-122

2 Risch N, et al. Science. 1996 , 273(5281):1516-7.

3. Kruglyak L. Nat Genet, 1999, 22:139-144

4. Collins A, et al. Proc Natl Acad Sci U S A, 1999 , 96(26):15173-7

5. Weiss KM, et al. Nat Genet, 2000, 26(2):151-7.

6. Gray IC, et al. Hum Mol Genet, 2000 , 9(16):2403-8.

7. Halushka MK, et al. Nat Genet, 1999, 22(3):239-47

8. Templeton AR, et al. Am J Hum Genet, 2000 , 66(1):69-83

9. Dunham I, et al. Nature, 1999 , 402(6761):489-95

10. Laan M, et al. Nat Genet, 1997 , 17(4):435-8

11. Jorde LB, et al. Hum Hered, 2000 , 50(1):57-65

12. Lonjou C, et al. Proc Natl Acad Sci U S A, 1999, 96(4):1621-6

13. Nickerson DA, et al. Nat Genet, 1998 , 19(3):233-40

14. Rieder MJ, et al. Nat Genet, 1999 , 22(1):59-62

15. Cambien F, et al. Am J Hum Genet, 1999 , 65(1):183-91.

16. Cargill M, et al. Nat Genet, 1999, 22(3):231-8

17. Yamada R, et al. Hum Genet, 2000 ,106(3):293-7.

18. Ohnishi Y, et al. Hum Genet, 2000, 106(3):288-92

19. Geraghty DE, et al. Rev Immunogenet, 1999,1(2):231-8

20. 苏智广等(SU ZG et al). 中华医学遗传学杂志(Chin J Med Genet), 2000,17(3):157-160.

21. 吴弘等(WU H et al). 中华医学遗传学杂志(Chin J Med Genet), 2001,18(1):1-3.

22. 施锦绣等(SHI JX et al). 中华医学遗传学杂志(Chin J Med Genet), 2001,18(3):198-201.

23. Sachidanandam R, et al. Nature, 2001, 409(6822):928-33.

24. Marth G, et al. Nat Genet, 2001 ,27(4):371-2
该帖子作者被版主 zhang88268573积分, 2经验,加分理由:虽是转帖,但是也很好^_^
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
可能感兴趣
dong3626
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴