利用第三代纳米孔长读段测序技术构建和注释蜜蜂球囊菌的全长转录组
[目的]利用第三代纳米孔(nanopore)长读段测序技术对蜜蜂球囊菌(Ascosphaera apis,简称球囊菌)的纯化菌丝(Aam)和孢子(Aas)进行测序,构建和注释球囊菌的高质量全长转录组.[方法]通过Oxford Nanopore PromethION平台对Aam和Aas进行测序.利用Guppy软件对原始读段(raw reads)进行碱基识别(base calling),通过过滤短片段和低质量原始读段得到有效读段(clean reads).通过识别两端引物鉴定全长转录本序列.通过比对Nr、Swissprot、KOG、eggNOG、Pfam、GO和KEGG数据库获得全长转录本的注释信...
Gespeichert in:
Veröffentlicht in: | 中国农业科学 2021, Vol.54 (4), p.864-876 |
---|---|
Hauptverfasser: | , , , , , , , , , , , , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | [目的]利用第三代纳米孔(nanopore)长读段测序技术对蜜蜂球囊菌(Ascosphaera apis,简称球囊菌)的纯化菌丝(Aam)和孢子(Aas)进行测序,构建和注释球囊菌的高质量全长转录组.[方法]通过Oxford Nanopore PromethION平台对Aam和Aas进行测序.利用Guppy软件对原始读段(raw reads)进行碱基识别(base calling),通过过滤短片段和低质量原始读段得到有效读段(clean reads).通过识别两端引物鉴定全长转录本序列.通过比对Nr、Swissprot、KOG、eggNOG、Pfam、GO和KEGG数据库获得全长转录本的注释信息.分别利用CPC、CNCI、CPAT、Pfam 4种方法对长链非编码RNA(long non-coding RNA,lncRNA)进行预测,取四者的交集作为高可信度的lncRNA.[结果]Aam和Aas的纳米孔测序分别测得6321704和6259727条原始读段,经质控得到5669436和6233159条有效读段,其中包含的全长有效读段分别为4497102(79.32%)和4963101(79.62%)条.共鉴定到9859和16795条非冗余全长转录本,N50分别为1482和1658 bp,平均长度分别为1187和1303 bp,最大长度分别为6472和6815 bp.Venn分析结果显示有6512条非冗余全长转录本为菌丝和孢子所共有,分别有3347和10283个非冗余全长转录本为二者特有.此外,在球囊菌菌丝和孢子中共鉴定到20142条全长转录本,其中分别有20809、11151、17723、12164、11340和9833条全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库.注释全长转录本数量最多的物种是球囊菌、Polytolypa hystricis和荚膜组织胞浆菌(Histoplasma capsulatum).GO数据库注释结果显示,上述全长转录本可注释到45个功能条目,涉及细胞组件、细胞和细胞器等细胞组分相关条目;催化活性、结合和转运器活性等分子功能相关条目;以及细胞进程、代谢进程和单一组织进程等生物学进程相关条目.KEGG数据库注释结果显示,上述全长转录本还可注释到抗生素的生物合成、核糖体、氨基酸的生物合成、碳代谢和剪接体等49条通路.此外,鉴定到648条高可信度的lncRNA,包含4 |
---|---|
ISSN: | 0578-1752 |
DOI: | 10.3864/j.issn.0578-1752.2021.04.017 |