fastq
@HU8V1:01332:11594
CCTTAGAGTTCGATTGCAGCCTCTTCATGACCACGGCGTTCACCGTGTCCTTGGTCTGACTCGACAGCATAAGCGCCACCAGTGTGTGGAATCTCTGGTCTTTGGGCGATGCACTTCGATCCGCCAGCCGCTCGCAACCCATTGTGTCCACAGCTGCGCCATGTGCTCGTCCGCC
+
:5;6;<;;;355::25899:59;<7>=;<;>5<<<5<<?5;;;6;;:::18182:;<<==<==<<<<<BBD6<<;;4;>7>=;;<<;;4;6;::<<<6<97808<2<<A?;;<;;5;>;::5;<6:69+//99:;:5:<18805597:3:;::;566995:76688:<=<>6;;<
FASTQ是储存原始测序数据的一种文本文件格式,包含核酸序列以及对应的质量值。
每个read有四行:第一行记录测序所用仪器以及read测序时所在通道坐标信息;第二行是ATGC碱基序列,缺省时用N表示;第三行+号;第四行是对应碱基的质量值。
第四行这个质量值(Phred或者Q-score),是用一个整数表示碱基的错误率,P是错误率,
在序列中Q值用ASCII字符表示. ASCII字符与对应的整数转换如下:
sam文件格式
SAM文件全程Sequence Alignment Map,是储存生物序列比对到参考基因组的一种数据格式。
samtools view -H命令可以浏览带有@的header的信息;不带-H直接是read alignment的信息。
1. A00516:110:H5NCVDSXY:4:2348:32823:4382
This is the first read. The key fields we're interested in:
Flag: 147.
Reference name: Scaffold10000.
Position: 1054.
CIGAR string: 45M1D98M8S.
Sequence: TATGAAGGCTTGCAAAAAATGTAATAAAATTTCAAAGGTTGCATTAAAAAAATGAAGTTGATGATGGTTCTGGAGAGGCGAAACGTTACATATAAAAACTGATTATGCCATTCGATAGAGGACAAAAAGTTGCCATGAGAAGTGTTCTTGT
The flag 147 indicates that this is the second read in a pair, and that it's reverse complemented. This read starts aligning at position 1054 of Scaffold10000 with 45 matching bases. Then, there's a deletion (D) of 1 base in the read relative to the reference. After that, it matches for another 98 bases. Finally, there are 8 bases in the read that do not align to the reference (soft-clipped, represented by the S in the CIGAR string).
2. A00516:110:H5NCVDSXY:4:2471:21314:6120
This is the second read.
The key fields:
Flag: 2179
Reference name: Scaffold10000
Position: 1055CIGAR
string: 114H37M
Sequence: ATGAAGGCTTGCAAAAAATGTAATAAAATTTCAAGTG
The flag 2179 can be decomposed to reveal that this read is a supplementary alignment, and it's reverse complemented. This read starts aligning at position 1055 of Scaffold10000. However, before the alignment starts, 114 bases are hard-clipped (H in the CIGAR string), meaning they are not present in this SAM entry. After that, 37 bases match the reference.
vcf文件格式
vcf文件是一种储存DNA多态性(SNP、插入、缺失、结构变异)的一种数据格式。
跟SAM文件类似的存储结构,也是header+body。不同软件提供的vcf文件INFO大同小异,主体都是一样:
前八列是必须项,包括染色体CHROM, 变异在染色体上的位置信息POS, 变异的标识符ID, 参考等位基因REF, 逗号分割的其他非参考等位基因ALT, 质量值QUAL, 位点过滤信息FILTER以及变异注释信息INFO。
如果有样本信息,第九列则为FORMAT,从第十列开始则是每个样本的信息。
Reserved Keywords
在FORMAT中的一些关键字,INFO里有时也会有。一般header里都会存储FORMAT出现的所有缩写的解释,但也有时拿到数据时header里没有找到对应的解释,可能是由于在数据过滤的过程中没有保留所有的header信息。
GT:GL:GOF:GQ:DP:NV(FORMAT)
GT:PL:DP:ADF:ADR:AD:GQ (FORMAT)
AC=217,159;AF=0.543,0.398;AN=400;baseQRankSum=-0.714;ClippingRankSum=0.000;DP=642;FS=0.000;MLEAC=126,126;MLEAF=0.315,0.315;MQ=60.00;MQRankSum=0.000;QD=25.09;ReadPosRankSum=0.379;SOR=0.606 (INFO)
以上是遇到过的一些vcf出现的关键字,也有只含有GT基因型信息的, 它以数字编译等位基因,0是ref,1是alt, 2是第二个ALT... 等位基因的数量表示该生物样本的染色体倍数,分隔符表示等位基因是否分型过phased (‘|’)或者unphased (‘/’)。根据不同分析可能依赖侧重的信息不同,就不一一列举了,有文已经解释的比较清楚,可以按需查询。
参考
Quality (Phred) scores
NGS数据格式02-SAM/BAM最详细解读 - 知乎
variant call format and VCFtools | Bioinformatics | Oxford Academic
vcf文件与vcftools(一) - 简书
VCF (Variant Call Format) version 4.0 | 1000 Genomes