SNP Calling (二)后续分析

        做完SNP/SNV Calling后会输出如下带有坐标信息及突变信息的文件

SNP Calling (二)后续分析

上图中第二列是SNP/SNV在参考基因组上对应的位置,第五列是突变的情况。这部分推文所讲的分析关注于突变发生后对基因组或者基因的影响。比如这个突变是否发生在编码基因的CDS区或者UTR区,如果发生在CDS区域,这个突变是否会导致氨基酸的改变?最后这个改变能否影响蛋白质的活性?所以后续的分析目的更清晰,方向更细化。

        另外要分析SNV或SNP发生的位置是否为CDS,还需要对参考基因组进行分析。如果没有参考基因组的gff文件,通常用Prodigal进行预测CDS。例如我的参考基因组并没有人研究过,没有注释信息。所以我用Prodigal预测结果如下

SNP Calling (二)后续分析

        根据文件中CDS的起始结束位置可以通过编程手段采用二分法判断SNP/SNV是否在CDS内。大体思路为:1.首先根据预测的CDS文件,将预测的所有CDS坐标信息读入,上表中CDS后面的数字代表CDS的起始与结束位置。2.读入组装的参考基因组,和SNV/SNP文件。3.根据CDS坐标信息提取CDS序列,并根据SNV文件将SNV写入。4.统计因为SNV/SNP的写入导致的氨基酸突变。5.将所有的SNV/SNP写入参考基因组。最后可视化。具体代码如下

最后上传一份我完成可视化后再用AI组合成的图

蓝色条框是我的参考基因组CDS区域,红色十字点代表我的SNP/SNV的变异位置,每一行代表每个样本。由于本人AI操作水平很烂,这个图制作效果不高。以后还得提升自己作图能力!

SNP Calling (二)后续分析》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:http://www.hashtobe.com/2568.html