热点新闻
基因数据格式
2023-09-17 21:02  浏览:2776  搜索引擎搜索“手机低淘网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在手机低淘网看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

fastq


@HU8V1:01332:11594

CCTTAGAGTTCGATTGCAGCCTCTTCATGACCACGGCGTTCACCGTGTCCTTGGTCTGACTCGACAGCATAAGCGCCACCAGTGTGTGGAATCTCTGGTCTTTGGGCGATGCACTTCGATCCGCCAGCCGCTCGCAACCCATTGTGTCCACAGCTGCGCCATGTGCTCGTCCGCC

+

:5;6;<;;;355::25899:59;<7>=;<;>5<<<5<<?5;;;6;;:::18182:;<<==<==<<<<<BBD6<<;;4;>7>=;;<<;;4;6;::<<<6<97808<2<<A?;;<;;5;>;::5;<6:69+//99:;:5:<18805597:3:;::;566995:76688:<=<>6;;<

FASTQ是储存原始测序数据的一种文本文件格式,包含核酸序列以及对应的质量值。

每个read有四行:第一行记录测序所用仪器以及read测序时所在通道坐标信息;第二行是ATGC碱基序列,缺省时用N表示;第三行+号;第四行是对应碱基的质量值。

第四行这个质量值(Phred或者Q-score),是用一个整数表示碱基的错误率,P是错误率,

 

在序列中Q值用ASCII字符表示. ASCII字符与对应的整数转换如下:






sam文件格式


SAM文件全程Sequence Alignment Map,是储存生物序列比对到参考基因组的一种数据格式。

samtools view -H命令可以浏览带有@的header的信息;不带-H直接是read alignment的信息。

1. A00516:110:H5NCVDSXY:4:2348:32823:4382

This is the first read. The key fields we're interested in:

Flag: 147.  

Reference name: Scaffold10000. 

Position: 1054. 

CIGAR string: 45M1D98M8S.                  

Sequence: TATGAAGGCTTGCAAAAAATGTAATAAAATTTCAAAGGTTGCATTAAAAAAATGAAGTTGATGATGGTTCTGGAGAGGCGAAACGTTACATATAAAAACTGATTATGCCATTCGATAGAGGACAAAAAGTTGCCATGAGAAGTGTTCTTGT    

The flag 147 indicates that this is the second read in a pair, and that it's reverse complemented. This read starts aligning at position 1054 of Scaffold10000 with 45 matching bases. Then, there's a deletion (D) of 1 base in the read relative to the reference. After that, it matches for another 98 bases. Finally, there are 8 bases in the read that do not align to the reference (soft-clipped, represented by the S in the CIGAR string).

2. A00516:110:H5NCVDSXY:4:2471:21314:6120

This is the second read. 

The key fields:

Flag: 2179

Reference name: Scaffold10000

Position: 1055CIGAR 

string: 114H37M

Sequence: ATGAAGGCTTGCAAAAAATGTAATAAAATTTCAAGTG

The flag 2179 can be decomposed to reveal that this read is a supplementary alignment, and it's reverse complemented. This read starts aligning at position 1055 of Scaffold10000. However, before the alignment starts, 114 bases are hard-clipped (H in the CIGAR string), meaning they are not present in this SAM entry. After that, 37 bases match the reference.







vcf文件格式


vcf文件是一种储存DNA多态性(SNP、插入、缺失、结构变异)的一种数据格式。






跟SAM文件类似的存储结构,也是header+body。不同软件提供的vcf文件INFO大同小异,主体都是一样:

前八列是必须项,包括染色体CHROM, 变异在染色体上的位置信息POS, 变异的标识符ID, 参考等位基因REF, 逗号分割的其他非参考等位基因ALT, 质量值QUAL, 位点过滤信息FILTER以及变异注释信息INFO。

如果有样本信息,第九列则为FORMAT,从第十列开始则是每个样本的信息。

Reserved Keywords

在FORMAT中的一些关键字,INFO里有时也会有。一般header里都会存储FORMAT出现的所有缩写的解释,但也有时拿到数据时header里没有找到对应的解释,可能是由于在数据过滤的过程中没有保留所有的header信息。

GT:GL:GOF:GQ:DP:NV(FORMAT)

GT:PL:DP:ADF:ADR:AD:GQ (FORMAT)

AC=217,159;AF=0.543,0.398;AN=400;baseQRankSum=-0.714;ClippingRankSum=0.000;DP=642;FS=0.000;MLEAC=126,126;MLEAF=0.315,0.315;MQ=60.00;MQRankSum=0.000;QD=25.09;ReadPosRankSum=0.379;SOR=0.606 (INFO)

以上是遇到过的一些vcf出现的关键字,也有只含有GT基因型信息的, 它以数字编译等位基因,0是ref,1是alt, 2是第二个ALT... 等位基因的数量表示该生物样本的染色体倍数,分隔符表示等位基因是否分型过phased (‘|’)或者unphased (‘/’)。根据不同分析可能依赖侧重的信息不同,就不一一列举了,有文已经解释的比较清楚,可以按需查询。

参考

Quality (Phred) scores

NGS数据格式02-SAM/BAM最详细解读 - 知乎

variant call format and VCFtools | Bioinformatics | Oxford Academic

vcf文件与vcftools(一) - 简书

VCF (Variant Call Format) version 4.0 | 1000 Genomes

发布人:dfdd****    IP:117.173.23.***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发