有参考基因组的转录组生物信息分析模板 下载本文

图3.3 Reads在染色体上的密度分布图

上图:横坐标为染色体的长度信息(以百万碱基为单位),纵坐标为log2(reads的密度的中位数),绿色为正链,红色为负链 下图:横坐标为染色体的长度信息(单位为Mb),纵

坐标为mapped到染色体上的reads数(单位为M)

3.4 Reads比对结果可视化

我们提供RNA-seq Reads在基因组上比对结果的bam格式文件,部分物种还提供相应的参考基因组和注释文件,并推荐使用IGV (Integrative Genomics Viewer) 浏览器对bam文件进行可视化浏览。IGV浏览器具有以下特点:(1)能在不同尺度下显示单个或多个读段在基因组上的位置,包括读段在各个染色体上的分布情况和在注释的外显子、内含子、剪接接合区、基因间区的分布情况等;(2)能在不同尺度下显示不同区域的读段丰度,以反映不同区域的转录水平;(3)能显示基因及其剪接异构体的注释信息;(4)能显示其他注释信息;(5)既可以从远程服务器端下载各种注释信息,又可以从本地加载注释信息。IGV浏览器使用方法可参考我们提供的使用说明文档(IGVQuickStart.pdf)。

图3.4 IGV浏览器界面

4 可变剪切分析

用ASprofile软件对Cufflinks (Trapnell et al.)预测出的基因模对每个样品的可变剪切事件分别进行分类和表达量统计。分析流程及ASprofile中的可变剪切事件分类如下图所示:

12类可变剪切事件定义如下:

(1) TSS: Alternative 5' first exon (transcription start site) 第一个外显子可变剪切

(2) TTS: Alternative 3' last exon (transcription terminal site) 最后一个外显子可变剪切

(3) SKIP: Skipped exon (SKIP_ON,SKIP_OFF pair) 单外显子跳跃 (4) XSKIP: Approximate SKIP (XSKIP_ON,XSKIP_OFF pair) 单外显子跳跃(模糊边界)

(5) MSKIP: Multi-exon SKIP (MSKIP_ON,MSKIP_OFF pair) 多外显子跳跃 (6) XMSKIP: Approximate MSKIP (XMSKIP_ON,XMSKIP_OFF pair) 多外显子跳跃(模糊边界)

(7) IR: Intron retention (IR_ON, IR_OFF pair) 单内含子滞留

(8) XIR: Approximate IR (XIR_ON, XIR_OFF pair) 单内含子滞留(模糊边界)

(9) MIR: Multi-IR (MIR_ON, MIR_OFF pair) 多内含子滞留

(10) XMIR: Approximate MIR (XMIR_ON, XMIR_OFF pair) 多内含子滞留(模糊边界)

(11) AE: Alternative exon ends (5', 3', or both) 可变 5'或3'端剪切

(12) XAE: Approximate AE 可变 5'或3'端剪切(模糊边界) 4.1 可变剪切事件分类和数量统计

图4.1 AS分类和数量统计

纵轴为可变剪切事件的分类缩写,横轴为该种事件下可变剪切的数量,不同样品用不同子

图和颜色区分

4.2 可变剪切事件结构和表达量统计

表4.2 AS结构和表达量统计

event_ievent_tyd 1000001 100000pe TSS TSS chroevent_staevent_enevent_pattestranm 1 1 rt d rn d + + gene_id CUFF.100 CUFF.10fpkm ref_id 3438277 3438330 3438330 3450218 3450253 3450253 1.00000000ENSGALT0000001000 225 3.00000000ENSGALT00000010