摘要
【目的】 研究赤水凤仙花的叶绿体基因组结构特征与系统发育位置,以期为赤水凤仙花植物种质资源保护、遗传多样性和系统发育研究提供科学依据。【方法】以中国特有种——赤水凤仙花为材料,基于赤水凤仙花叶绿体基因组序列,利用生物信息学软件对叶绿体基因组进行组装,注释,基因特征、序列重复和系统发育分析。【结果】(1)赤水凤仙花叶绿体基因组呈典型的四分体结构,总GC含量为37%,长152892 bp;共编码120个基因,包括95个蛋白质编码基因、8个rRNA基因和17个tRNA基因。(2)共检测到87个SSR序列,以A、T组成为主;检测到20327个密码子,其中亮氨酸(Leu)最多,色氨酸(Trp)最少。(3)凤仙花属分为2个亚属,为棒凤仙花亚属与凤仙花亚属,赤水凤仙花为棒凤仙花亚属,且与太子凤仙花亲缘关系最近。【结论】赤水凤仙花为典型的四分体结构,SSR序列以A/T单碱基为主;系统发育分析结果将其归为棒凤仙花亚属。
Abstract
[Objective] The chloroplast genome structure and phylogenetic location of Impatiens chishuiensis were studied in order to provide scientific basis for the conservation of plant germplasm resources, genetic diversity, and phylogeny of I. chishuiensis. [Methods] Based on the chloroplast genome sequence of I. chishuiensis, an endemic species in China, the assembly, annotation, gene characterization, sequence repetition and phylogenetic analysis of chloroplast genome were performed by bioinformatic softwares. [Results] (1) The chloroplast genome of I. chishuiensis has a typical tetrameric structure with a total GC content of 37% and a length of 152892 bp. It encodes a total of 120 genes, including 95 protein-coding genes, 8 rRNA genes, and 17 tRNA genes. (2) A total of 87 SSR sequences was detected. 20327 codons were detected, with leucine (Leu) being the most abundant and tryptophan (Trp) being the least. (3) Impatiens was divided into two subgenera, including subg. Clavicarpa and subg. Impatiens. I. chishuiensis is a species of subg. Clavicarpa and is the closest with I. alpicola. [Conclusion] I. chishuiensis has a typical tetrad structure, and the SSR sequence is mainly formed by A/T single base. Phylogenetic analyses place it in the subg. Clavicarpa.
叶绿体是植物进行光合作用的主要场所,具有相对独立遗传物质的半自主性细胞器。植物的叶绿体基因组大小一般为140~160 kb,呈现为四部分组成的环状双链结构[1-2]。与核基因组相比,叶绿体基因组具有基因组较小、拷贝数高及进化速率适中等优点,常被用于不同分类等级的系统发育研究[3]。随着测序技术的发展,实现了很多植物叶绿体基因组的测序,在NCBI中收录的叶绿体基因组数据正逐年增加,利用其完整的叶绿体基因组数据进行亲缘关系研究的报道不断增多[4-7]。余潇等[8]基于锈毛两型豆叶绿体基因组探究了两型豆属的叶绿体基因组特征及密码子偏好性;陈晓颖等[9]基于茜草叶绿体基因组进行了特征比较与系统发育分析;Chen等[10]利用叶绿体基因组作为鉴别物种的超级条形码,对6种橐吾属植物进行了有效识别。在凤仙花属中,Qiu等[11]分析了7种凤仙花属植物的叶绿体基因组特征,并探讨了27种凤仙花属植物的亲缘关系,研究结果很好地解决了棒凤仙花亚属和凤仙花亚属分化关系;Luo等[12]对3种观赏植物凤仙花叶绿体基因组结构进行分析,确定了分化热点,并确定了系统发育的位置。由此说明叶绿体基因组在研究植物进化、物种鉴定、资源开发与分子标记等方面可作为有利技术手段[13]。
赤水凤仙花(Impatiens chishuiensis)是凤仙花科(Balsaminaceae)凤仙花属(Impatiens)多年生草本植物,中国特有种,并被世界自然保护联盟列为濒危物种,产自中国贵州(赤水)[14]。赤水凤仙花可用于花境营造、花坛装饰或植物专类园等,同时其全株均可入药,具有很好的开发和利用价值[15]。有关赤水凤仙花叶绿体基因组的研究鲜见报道,该研究通过对赤水凤仙花的叶绿体基因组测序、叶绿体基因组基本特征、密码子偏好性、简单重复序列分析,并与其他凤仙花属植物进行比较分析,探讨赤水凤仙花的系统发育位置与其他凤仙花属植物的亲缘关系,以期为赤水凤仙花植物种质资源保护、遗传多样性和系统发育研究提供科学依据。
1 材料和方法
1.1 DNA提取及叶绿体基因组测序注释
以赤水凤仙花叶片为材料,采用百泰克生物技术有限公司试剂盒提取植物叶片总DNA,将其随机打断、末端修复和接头连接构建500 bp的测序文库,交由安诺优达基因科技有限公司进行测序,并对原始数据进行加工处理,最终获得质控后的完整数据(clean data)。利用GetOrganelle1.7.5.0[16]进行赤水仙花叶绿体基因组的组装,生成的完整叶绿体基因组的组装由Bandage v.0.8.1[17]进行验证;再使用CPGAVAS2(https://www.herbalgenomics.org/cpgavas2)[18]进行基因注释,最终注释的叶绿体基因组提交至NCBI,获得登录号PP724655;最后利用Chloroplot(https://irscope.shinyapps.io/Chloroplot/)[19]绘制赤水凤仙花的叶绿体基因图谱。
1.2 密码子偏好性使用分析
通过CodonW1.4.2[20]计算同义密码子使用频率(relative synonymous codon usage,RSCU),参数为默认值。
1.3 重复序列分析
用vmatch完成赤水凤仙花cpDNA的长重复序列的查找。赤水凤仙花的cpDNA的SSR筛选则用MISA软件[21],该软件的检测参数为:单核苷酸大于8时被检测,二核苷酸和三核苷酸大于4时被检测。
1.4 赤水凤仙花叶绿体基因组比较分析
通过NCBI数据库下载绿萼凤仙花、山地凤仙花、贵州凤仙花和路南凤仙的叶绿体基因组序列,用IRscope软件[22],对5种凤仙花属物种的叶绿体基因组IR边界收缩与扩张进行比较分析。用mVISTA在线软件(https://genome.lbl.gov/vista/index.shtml),以绿萼凤仙花的叶绿体基因组为参考,对这些物种的叶绿体基因组进行序列比较分析。
1.5 系统进化分析
用29种凤仙花属植物的叶绿体基因组序列,以同科单种属植物水角为外类群,用在线网站MAFFT[23](https://www.ebi.ac.uk/Tools/msa/mafft/)进行叶绿体基因组序列比对;基于最大似然法用MEGAX软件[24]构建系统发育树,参数自展值为1 000。
2 结果与分析
2.1 赤水凤仙花叶绿体基因组序列特征
赤水凤仙花叶绿体基因组的总长度为152 892 bp,总GC含量为37%;呈典型的四分体结构(图1),分别为LSC(83 428 bp),GC含量为34.8%;SSC(17 722 bp),GC含量为29.77%和1对IR区(25 872 bp),GC含量为42.98%。
研究发现赤水凤仙花的叶绿体基因组编码有120个不同的基因(表1),包括蛋白编码基因、tRNA基因和rRNA基因,其数量分别为95、17和8;其基因功能主要为与自我复制有关、与光合作用有关、其他功能和未知功能有关4种。其中自我复制相关基因共60个,包括tRNA编码基因17个、rRNA编码基因8个、核糖体小亚基蛋白编码基因16个、核糖体大亚基蛋白编码基因13个、RNA聚合酶亚基编码基因6个。
2.2 赤水凤仙花叶绿体基因组密码子使用分析
通过对赤水凤仙花的叶绿体基因组密码子研究,结果表明(图2、表2):在赤水凤仙花cpDNA密码子中,共检测了20327个密码子,编码了20种氨基酸。其中最多的是亮氨酸(Leu),共编码了2123 个,占密码子总数的10.44%; 其次是丝氨酸(Ser)及异亮氨酸(Ile),分别有1514个(占7.45%)和 1797个(占8.84%); 最少的是色氨酸(Trp),共编码362个,占密码子总数的1.78%。RSCU值最大的密码子是编码亮氨酸(Leu)的UUA,为2.04,其次是编码精氨酸(Arg)的AGA,为1.82,最小的是编码亮氨酸(Leu)的CUG,为0.31。
此外,RSCU≤1的密码子有34个,而RSCU>1的有30个。在RSCU>1的密码子中,有29个密码子以A/U结尾,仅1个以G结尾,分别占96.66%、0.33%。

图1赤水凤仙花叶绿体基因组环形图谱
Fig.1Chloroplast genome map of I. chishuiensis
表1赤水凤仙花叶绿体基因组基因信息
Table1Information of the chloroplast genome of I. chishuiensis

注:(2)表示在IR区域双拷贝;(4)表示在IR区域四拷贝;*表示含有1个内含子;**表示含有2个内含子。
Note: (2) indicates two gene copies in the IRs. (4) indicates four gene copies in the IRs. * indicates one intron. ** indicates two introns.

图2赤水凤仙花叶绿体基因组密码子偏好性
Fig.2Codon usage bias of the chloroplast genome of I. chishuiensis
表2赤水凤仙花叶绿体基因组密码子的使用频率
Table2Frequency of synonymous codons in chloroplasts genome of I. chishuiensis

2.3 赤水凤仙花叶绿体基因组长重复序列和SSR分析
在赤水凤仙花的叶绿体基因组中,共检测到48个散在重复序列,包含15个F型重复序列和21个P型重复序列,以及12个R型,但并未发现C型重复序列(表3)。多数的重复序列集的长度集中在18 bp、19 bp、20 bp和21 bp,分别占36%、12%、20%和12%;部分重复序列仅有1种重复类型,如:25 bp、30 bp的重复序列只有P型,而28 bp的重复序列只有F型。在赤水凤仙花叶绿体基因组中共检测到87个SSR位点,其中有73个为单核苷酸重复,并且100% SSR由A或T组成,表明SSR位点有使用A/T碱基的偏好(表4)。同时研究表明SSR位点在赤水凤仙花上分布不均,在LSC区、SSC区以及IR区分别分布了67,10,10个SSR位点。
2.4 赤水凤仙花基因组比较分析
叶绿体基因组IR边界收缩与扩张结果(图3)表明,5种凤仙花的JLB边界(LSC/IRb边界)均位于rpl22基因和rpl19基因之间;在JSB边界中除赤水凤仙花以外其他4种凤仙花属植物的ycfl基因均位于IRb区的上方,而赤水凤仙花ycfl基因位于IR区和SSC区的下方,同时赤水凤仙花在IRb区存在1个完整的trnN基因,其他4个物种IRb则没有完整的基因;5种凤仙花属植物在JSA(SSC/IRa)边界均存在trnN基因,在JLA(IRa/LSC)边界均存在rpsl9基因;根据以上分析可知,5种凤仙花属植物的叶绿体基因组长度无明显差异,但赤水凤仙花和其他4种凤仙花属植物边界基因的类型和位置存在差异,部分基因的扩张程度差异较大。
表3赤水凤仙花叶绿体基因组散在重复序列统计
Table3Statistics of scattered repeat sequences in the chloroplast genome of I. chishuiensis

为了研究赤水凤仙花和其他凤仙花物种叶绿体基因组序列分化水平,通过mVISTA软件检测高变区,用赤水凤仙花作为参考基因组,并通过序列同源图分析整个叶绿体基因组之间的序列同源性。结果(图4)显示赤水凤仙花与其他4个物种叶绿体基因组属内之间保守性很强,共线性很高,同源性很明显,高度相似,但存在一定的差异。IR区、SSC区和LSC区域突变率也不尽相同,前者更加保守,编码区比非编码区保守性更强。但是在基因间隔区和编码基因中检测到一定程度的高度分化的区域。
表4赤水凤仙花叶绿体基因组SSR信息统计
Table4Statistics of SSR information of the chloroplast genome of I. chishuiensis


图35个凤仙花属物种叶绿体基因组IR边界的比较分析
Fig.3Comparative analysis of IR boundary of the chloroplast genomes in five species of Impatiens

图45个凤仙花属物种叶绿体基因组的序列比较
Fig.4Sequence comparison of chloroplast genomes in five species of Impatiens
2.5 赤水凤仙花系统发育分析
通过从NCBI下载的28个凤仙花属以及同科单种属植物水角的完整叶绿体基因组序列,加上本研究所获得的赤水凤仙花叶绿体基因组,共30个物种,其中以水角属为凤仙花属的外类群,基于最大似然法(ML)构建系统发育树。发育树分析(图5)表明,水角外类群处于分支的基部,依次为棒凤仙亚属、凤仙花亚属,所有凤仙花属物种自成一大枝,形成1个单系分支,且将凤仙花属29个物种分为4个分支。

图5基于叶绿体基因组构建的凤仙花属30个物种系统发育树
Fig.5A phylogenetic tree based on the chloroplast genomes of 30 species of Impatiens
分支Ⅰ棒凤仙花亚属最先从凤仙花属物种中分化出来,并与凤仙花属其他组物种形成姊妹组关系,并进一步分支,形成2个分支,赤水凤仙花与太子凤仙花为一支,峨嵋凤仙花与其余2种为一支;分支Ⅱ分为2个分支,锐齿凤仙花单独为1个分支并位于顶部,第2个分支又分为6个亚支;分支Ⅲ分为2个分支,2个分支又分别分为2个亚支;分支Ⅳ分为2个分支,第一分支为单独的1个分支,第二分支又分为2个亚支。
3 讨论
赤水凤仙花的叶绿体基因组呈典型的四分体结构,包括1个大单拷贝区(LSC)、小单拷贝区(SSC)以及2个IR区,符合被子植物的基本特征[24];共注释到120个基因,包括95个蛋白质编码基因、8个rRNA基因和17个tRNA基因,基因总数与已发表的凤仙花属植物总数[9-10]基本一致;但是tRNA基因数量明显减少,大多数植物在进化过程出现了叶绿体tRNA基因丢失的情况,且tRNA基因丢失大于基因复制,这可能是赤水凤仙花tRNA基因数量减少的原因[25];反向重复区(42.98%)的GC含量明显的高于大单拷贝区(34.8%)和小单拷贝区(29.77%),可能是由于rRNA基因在该区域的具有较高GC值的水平表达,而nadh基因可能是SSC区GC含量表达低的重要原因[26]。总的来说,赤水凤仙花与其他凤仙花属植物叶绿体基因组基本特征基本一致,说明凤仙花属物种的叶绿体基因组大小、结构及基因组成高度保守。
密码子使用偏好性与不同因素相关,与基因表达水平、GC含量、氨基酸保护以及转录选择等都密切相关[27],赤水凤仙花的GC含量小于50%,这说明赤水凤仙花植物的叶绿体基因组倾向于使用A与U作为末尾碱基。这与已报道的紫花苜蓿等[28]表现出一致性。重复序列(repetitive sequence)是指在整个基因组中以多个拷贝出现的单个相同或者对称的核酸序列[29]。又分为串联重复序列(tandem repeated sequences)和散在重复序列(dispersed repeated sequences)。串联重复序列是在基因组中较短且呈簇状排列,分为SSR和小卫星等;而散在重复序列在基因组中较短且散布在整个基因组中。通过对赤水凤仙花叶绿体的重复序列进行分析,发现赤水凤仙花含有48个散在重复序列,包含15个F型重复序列和21个P型重复序列,与已发表的凤仙花属植物(16~27个)相比赤水凤仙花的散在重复序列数量明显大于前者,这可能是导致赤水凤仙花tRNA基因数量减少的原因,苔属植物中就出现长重复序列引发基因组结构变异[30]。在本研究中共检测到87个SSR序列,单核苷酸最多,双核苷酸次之,与多数被子植物的研究结果[31-32]一致,检测到的SSR位点可为后续赤水凤仙花的物种鉴别、亲缘关系分析和分子标记提供理论依据。
IR边界的扩展与收缩是导致叶绿体基因组的长度和结构存在差异的重要原因[33]。IR边界与序列比对的结果表明,赤水凤仙花与其他4种凤仙花属植物长度无明显差异,但边界基因的类型和位置存在着差异,SSC/IR边界区域差异性较大,LSC/IR区域差异变化小,但总体来说,整个基因组仍然较为保守;存在部分差异的区域,可为凤仙花属不同物种鉴定和系统发育分析提供分子依据。
系统发育基因组学是利用分子数据研究生物间发育关系。叶绿体基因组的具有序列保守,结构稳定,易测序等优点,因此基于叶绿体基因组进行的系统发育研究得到很好的发展[34]。本研究选取了29个凤仙花属植物以及同科单种属植物水角作为外类群构建系统发育树,结果显示以100%支持率赤水凤仙花为棒凤仙花亚属,与太子凤仙花关系较为亲近,与Luo等[12]构建的系统发育树相吻合,并与Yu等[35]基于2个质体atpB-rbcL和trnL-F及夏常英[36]基于4个叶绿体片段得到的凤仙花属系统发育树的结果一致。此外进一步确定了凤仙花属分化为棒凤仙花亚属和凤仙花亚属,前一个亚属为单组棒果组,后一个亚属的7个组都有较高的支持率为单独的组,这与Qiu等[11]基于27种凤仙花属植物叶绿体基因组构建的系统发育树相一致。
4 结论
研究通过高通量测序技术获得了赤水凤仙花完整的叶绿体全基因组序列,进一步丰富了凤仙花属植物叶绿体基因组资料,并对其基因组基本特征、密码偏好性、重复序列以及与其他4种凤仙花属植物进行比较和分析。发现其具有典型的四分体结构,在大小、GC含量和功能上与其他凤仙花属植物具有高度的相似性,而赤水凤仙花表现出tRNA基因数量减少,可能与散在重复序列有关。此外,通过对29种凤仙花属植物叶绿体基因组系统发育的分析,进一步确定了凤仙花属分为棒凤仙花亚属和凤仙花亚属,而凤仙花亚属又分为7个组。上述结果对进一步探讨凤仙花属植物的叶绿体基因组结果和系统发育提供了一定的理论依据。