现在的TargetScan程序可以主要分三部分组成:
1.主要思想是说在multiple alignment file 上寻找保守的seed match 序列可以找到functional miRNA target. 参考文献:Conserved Seed Pairing, Often Flanked by Adenosines, Indicates that Thousands of Human Genes are MicroRNA Targets
seed match: reverse complimentary to miRNA Seed region, 2-7nt in miRNA 5' end, TargetScan 用multiple alignment file作为input, 寻找保守的seed match 序列, 主要考虑三种seed match的类型:7mer-1a(match seed, 而且UTR上与miRNA 1nt match的位置是A),7mer-m8(match miRNA 2-8nt), 8mer(match miRNA 2-8, 而且UTR上与miRNA 1nt match的位置是A). 2.很多1.找到的target不一定会有功能,而且有很多不保守的seed match区域找到了一些有功能的miRNA target site.TargetScan根据这个想法,提出seed match周围的序列会对miRNA target的功能产生影响,所以引入了context score这个概念,主要包括site type contribution(8mer>7mer-m8>7mer-1a),3'paring contribution (有文献报道除了与miRNA seed 区域配对,与miRNA12-16nt的配对也有可能对miRNA target的功能产生影响),local AU contribution(AU rich 的区域更有可能有功能),position contribution(他们认为miRNA target的位置需要和stop coden至少有15nt的距离,而且有功能的site更有可能位于UTR的两端而不是中间,可能是因为较长UTR的中间区域有可能会形成较复杂的二级结 构,影响target site accessibility, 从而影响其功能).具体cutoff参考: MicroRNA Targeting Specificity in Mammals: Determinants beyond Seed Pairing,考虑context以后,对于很多不保守的seed match region,同样可以计算相应的context score, 对保守和不保守的位点分别进行context的排序,排名靠前的(比如context score percentile > 90)是他们认为比较有可能具有功能的miRNA靶点
3.Pct值的引入,参考文献:Most Mammalian mRNAs Are Conserved Targets of MicroRNAs。 主要是细化了保守型的计算,对不同的 UTR分别计算其保守性undefined, content, loaded, function, multiple
miRNA预测原则和软件介绍
通过实验方法确定miRNAs的作用靶标非常耗时,尚无高通量的靶标鉴定方法。因此,虽然靶基因鉴定存在上述多种困难,通过理论方法预测miRNAs的作用靶标依旧是当前筛选和识别miRNAs靶标的较为理想的途径。一般情况下,用于miRNA靶基因预测的软件遵循如下几个原理:1 序列互补性:位于miRNA 5’端所谓种子序列(第2-7nt)与靶基因3’UTR可形成Watson-Crick配对是所有miRNA靶基因预测的最重要因素。配对包括如下几种形式:多数情况下为7nt匹配:第2-7nt与靶基因呈互补配对,外加在靶基因对应miRNA第一位核苷酸处为A(7mer-1A site),或是miRNA第2-8nt与靶基因完全配对(7mer-m8 site);而对于miRNA第2-8nt与靶基因完全配对,且外加靶基因对应miRNA第一位核苷酸处为A(8mer site)这种类型,其特异性更高;对于仅miRNA第2-7核苷酸与靶基因完全配对(6mer site)这种方式,其用于搜索靶基因的敏感性更高,特异性相应下降。另外,还有种子序列外的3’ supplementary site和3’ complementary site两种形式。2 序列保守性及其它因素:除了序列互补性外,靶基因预测较关注的还包括序列保守性、热动力学因素、位点的可结合性(accessibility)和UTR碱基分布等多个因素。序列保守性:miRNA结合位点在多个物种之间如果具有保守性,则该位点更可能为miRNA的靶位点。热动力学因素:miRNA:target对形成的自由能,自由能越低,其可能性越大。位点的可结合性(accessibility):mRNA的二级结构影响与miRNA的结合形成双链结构的能力。UTR碱基分布:miRNA结合位点在UTR区的位置和相应位置的碱基分布同样影响miRNA与靶基因位点的结合和RISC的效率。另外,诸如miRNA的分布与靶基因组
织分布的相关性也是在做靶基因预测时要考虑的重要因素。用于miRNA靶基因预测的软件种类很多,包括miRanda, EMBL, PicTar, TargetScan(S), DIANA-microT 3.0, PITA, ElMMo, rna22, GenMiR++, TarBase, miRBase, miRGen-Targets等。虽然现有的几种预测程序在技术细节上有所不同,但它们预测的基本原理相似,都是基于miRNAs与靶标的结合机制。2003年,Stark和同事通过程序对黑腹果蝇全基因组搜寻鉴定潜在的miRNA靶标首先得到成功。因为黑腹果蝇全基因组序列提供了丰富而且精确的3 ’UTRs的信息。把果蝇的3’ UTRs与拟南芥、果蝇和冈比亚按蚊的3’ UTRs比对找出保守3’ UTRs的序列组成一个保守的3’ UTRs数据库,然后用HMMer比对搜寻工具搜寻该数据库与已知miRNA第2-8个核苷酸完全互补配对的3’ UTRs序列,再用mfold软件判断miRNA靶标复合体的热力学稳定性。此方法预测出果蝇许多未知的靶标,其中有6个靶标得到实验验证。Enright等建立的miRanda法是第二个公布的miRNAs靶标预测法。其编程原理依据主要是:通过得分矩阵计算出互补程度大小,寻找互补性最高的3’ UTRs;利用vien-naRNA计算miRNAs和靶标复合体热力学稳定性,并淘汰不能形成双连体的假阳性靶标。TargetScan为了在预测的开始过程排除假阳性,首先要求seed严格配对,延伸序列直到不配对的区域,然后根据保守性原则,淘汰不具有3’ UTRs保守序列的分子,最后运用RNAFold进行热力学稳定性筛选。根据miRNA-靶标复合体热力学稳定性这一特性建立的预测法有PicTar、RNAHybrid等。