|
随着高通量测序技术的进步和测序成本的降低,使得全基因组测序的物种的数量和种类不断增加。然而,全基因组测序仅仅是解决问题的开始,从序列数据到生物本体,基因组测序的最终价值体现在其基因组功能注释上,而传统的基因组注释方法(例如生物信息学预测和同源信息比对等)在鉴定精度和深度上受到了较大的限制。相对于基因组学和转录组学,基于质谱技术的蛋白质组学直接研究编码基因翻译出的蛋白质产物,比转录组学注释基因组获得的结果更直接,而且可以发现由于知识不足导致的基因从头预测算法遗漏的基因和基因结构注释的错误。因此,为了完善基因组注释,使用蛋白质组学数据注释基因组,即蛋白基因组学(Proteogenomics),是继基因组学和转录组学之后发展起来的又一项新兴高通量基因组注释技术。”蛋白质基因组学“一词由Jaffe等于2004年首次提出,作者采用串联质谱数据匹配DNA翻译得到氨基酸序列的研究方法成功应用于运动型支原体(Mycoplasmamobile)基因组的注释过程中。后来这种分析方法被应用到注释病毒基因组,原核生物基因组以及真核生物基因组。 蛋白基因组学直接对编码基因的表达产物--蛋白质进行研究,不仅能在蛋白质水平上验证基因表达和基因精细模式,还能提供蛋白质组层面特有的信息,如翻译后修饰、信号肽等。该方法有别于基因组学、转录组学和功能基因组学,对解释基因组注释结果和理解生命现象来说是非常重要的。在无法获得转录组数据的研究内容中,比如动物的血液和其他组织液中,蛋白质基因组学更是起到了不可替代的作用。另外,基于蛋白质基因组学的策略还可以被用在通过分析蛋白质水平来鉴定一些基于个体的序列变异导致的癌症,并确定其中最相关的变异上。2011年国际人类蛋白质研究组织(HUPO)启动人类蛋白质组计划,通过整合多组学数据对可变剪接、SNP以及三类主要翻译后修饰(磷酸化、乙酰化、糖基化)进行注释以加深人们对蛋白质(基因)功能的理解,从而指导疾病的研究,这是蛋白质基因组学一个重要的尝试和应用。而2014年在Nature杂志上发布的人类蛋白质组草图的工作标志着蛋白基因组学已成为目前基因组注释和功能研究的有力工具。越来越多的研究人员提倡在基因组注释工程中加入标准蛋白质组分析作为互补,甚至直接采用蛋白质基因组学的方法对完成测序的基因组进行注释,体现了蛋白质基因组学在蛋白质组层面上注释基因组特有的优势。 自2004年蛋白基因组学的概念被首次提出,10多年的时间已经过去了。这些年间,得益于质谱技术的重大突破及蛋白质分离和富集方法的进步和RNA-Seq等转录组学研究的飞速发展,使得蛋白质组学研究中的关键问题灵敏性和准确性得到很大的解决。这也推动蛋白基因组学分析方法、流程设计的发展,以及各种流程化和系统化分析软件的产生。这些方法流程已被应用于一些物种基因组的重注释。尽管能从这些方法流程的建立中获益,但目前蛋白基因组学分析方法的研究尚处于起步阶段,其分析方法在计算上仍具有挑战,不可避免的存在一些问题:A.数据搜索的局限性:直接使用基因组构建真核生物蛋白基因组数据库,加上其他搜索条件带来的搜索空间的迅速膨胀,不可避免的会拉长搜索时间并降低质谱匹配的敏感性(鉴定数目)和特异性(正确鉴定数目)。面对真核生物庞大的基因组数据,通过何种方法构建蛋白基因组搜索数据库,才能应对数据膨胀带来的负面效应?B.精准鉴定:数据分析后端缺乏可靠而深入的信息学分析和评估策略,错误注释没有被有效地过滤,直接影响了基因组注释质量。尤其对于真核蛋白基因组分析,关注重点在新肽段的鉴定,搜索结果混合有已注释肽段和新肽段,传统的全局发现错误率评估未考虑新肽段类别错误率问题,致使研究结果带有较高的假阳性。虽然考虑了新肽段类别错误率问题,但数据分析端仍缺少准确评估新肽段类别错误率的策略。因此,如何正确的评估新肽段与已注释肽段的发现错误率、提高鉴定结果的精准度仍然是一个具有挑战性的问题。C.深度分析:目前的蛋白基因组学研究主要集中在核酸层(即编码基因注释和基因结构注释),而更深入的、对蛋白功能研究更重要的蛋白组层面特有的现象却很少触及。比如翻译后修饰-对基因组功能注释具有重要的作用。翻译后修饰的分析能开启蛋白基因组学研究新的方向吗?如何实现翻译后修饰的大规模鉴定?D.标准化的应用:除了过高的新肽段发现错误率,数据分析端鉴定结果筛选标准的宽松性,也会使研究结果中混入过多的错误注释。同时,由于筛选标准的多样化,使得同一种分析手段确得到不同的研究结果。因此,建立蛋白质组基因学研究共同的数据分析的标准是极其有必要的。标准的蛋白基因组分析流程能提升研究结果的准确性和一致性,然而研究人员常常需要手动综合多种工具来完成整个流程的数据分析,极大加重了研究人员的工作负担。自动化的流程处理能为新物种的蛋白基因组分析带来便利,如何将理论和实际分析的经验想结合,开发一套完整而标准的适用于真核生物的蛋白基因组分析软件来支持分析工作,是目前从事相关分析的研究人员急切希望解决的。此外,该领域内还存在着一些亟待解决的问题,比如,哪些新的剪切变异体片段可以被翻译成稳定的有功能的蛋白质?DNA变异的数据如何在蛋白质组水平调控发挥提供有价值的信息? 针对以上科学问题,湖北普罗金科技有限公司采用开放型复合式数据库搜索策略、类别发现错误率评估方法、严苛的过滤体系、肽段水平的点突变和可变剪接鉴定策略以及非限制性翻译后修饰鉴定等方法,结合构建高覆盖度和低冗余的多组学序列数据库,来提高真核生物蛋白质组鉴定的覆盖度和准确度。并整合以上多项创新性方法技术,开发首个完整而标准、具有自主知识产权的适用于真核生物的蛋白基因组分析软件pgiseek™,建立新一代蛋白质基因组精准鉴定技术体系,解决目前蛋白基因组研究中的技术瓶颈,实现针对真核生物的蛋白基因组的精准鉴定和深度分析。
*需详细填写样品来源、含量、状态和其他信息
|