生物信息学——常见的四种文件格式(fasta,fastq,sam,vcf)
生物信息学
生物信息学——常见的四种文件格式(fasta,fastq,sam,vcf)
概述
每一种生物软件都有固定的文件格式要求。了解文件格式才能快速分辨文件的功能。从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。
一、fasta文件格式
- 概述:FASTA(Fast All Sequences in A)文件格式是一种常用于存储生物序列信息(如DNA、RNA或蛋白质序列)的文本格式(主要是把序列储存到数据库中的一种形式)。FASTA文件通常用于存储和共享生物学数据,如基因序列或蛋白质序列。
- 后缀:fa,fasta,fna
- 格式:
- FASTA文件可以包含一个或多个序列,每个序列都以一个描述行和一个或多个序列数据行组成。多个序列可以依次排列在FASTA文件中。
-
描述行(Header Line):FASTA文件的每个序列都以一个描述行开始,以大于号(“>”)开头,用于序列标记,主要储存序列的描述信息。后面跟着该序列的名称或标识符(为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的)。描述行通常是单行文本,用于标识序列的来源或其他相关信息,序列ID部分可以包含注释信息。
示例:
>Sequence1
-
序列数据行(Sequence Data Line):紧接着描述行的是实际的序列数据行,序列信息,既为序列本身。序列数据行包含序列的碱基(DNA或RNA)或氨基酸(蛋白质)的字符序列。序列数据行可以跨越多行,但通常为了方便起见,会将序列分为80到120个字符的行。
示例:
ATCGATCGATCGATCG...
- 示例:
以下是一个包含两个DNA序列的FASTA文件的示例:
>Sequence1
ATCGATCGATCGATCG...
>Sequence2
GCTAGCTAGCTAGCTA...
- 适用情况:FASTA文件是广泛使用的生物信息学数据格式之一,因为它简单易读,并且适用于存储各种生物学序列的信息。这使得FASTA文件在分析和比对生物序列数据时非常有用。
二、fastq文件格式
- 概述:FASTQ(Fast Quality Score)文件格式是一种用于存储测序数据的文本格式,通常用于存储DNA或RNA测序结果。FASTQ文件包括序列数据和与每个碱基相关的质量分数信息,以便在测序数据分析中进行质量控制和序列比对。
- 后缀:fastq, fq
- 格式:
- FASTQ文件中的每个序列通常由一个描述行、一个序列数据行、一个分隔行和一个质量分数行组成,这些行按顺序重复出现,以表示不同的测序读取。FASTQ文件可以包含一个或多个序列,每个序列之间以相同的格式分隔。
-
描述行(Header Line):FASTQ文件的每个序列都以一个描述行开始,以"@"字符开头,后面跟着该序列的名称或标识符,通常包含有关测序样本的信息。
示例:
@Sample_1
-
序列数据行(Sequence Data Line):序列数据行包含DNA或RNA序列的字符序列,由A、T、C、G等表示碱基。这些字符表示测序得到的碱基序列。
示例:
ACGTACGTACGT...
-
分隔行(Separator Line):分隔行通常由一个加号(“+”)开头,后面跟着与序列数据行对应的描述符。尽管分隔行中的内容与描述行相同,但分隔行的存在有助于区分不同部分。
示例:
+
-
质量分数行(Quality Score Line):质量分数行包含与序列数据行中的每个碱基相关的质量分数。质量分数通常以ASCII字符表示,表示测序仪器对每个碱基的测序质量。较高的ASCII值表示更高的质量。
示例:
BCCDFFFFFGGGG...
- 示例:
以下是一个包含两个测序序列的FASTQ文件的示例:
@Sample_1
ACGTACGTACGT...
+
BCCDFFFFFGGGG...
@Sample_2
GCTAGCTAGCTA...
+
DDDDDEEEEEE...
- 适用情况:FASTQ文件广泛用于存储和共享测序数据,以便进行生物信息学分析、基因组学研究和生物学研究。
三、sam(/bam)文件格式
- 概述:SAM(Sequence Alignment/Map)文件格式是一种常用于存储DNA或RNA序列比对(alignment)结果的文本格式,通常用于描述测序数据与参考基因组的比对信息。SAM文件通常包括序列的位置、碱基配对、质量分数等信息。
- 在SAM文件之后,通常还会生成一个二进制的BAM文件,以节省存储空间和提高数据处理速度。
- 后缀:sam(/bam)
- 格式:
- 文件头(Header):SAM文件的开头通常包括文件头部分,以"@“字符开头。文件头部分包含与比对信息和文件本身相关的元数据(metadata),如测序平台、参考基因组信息、比对软件等。文件头部分以”@“字符开始,后跟标识符(如"PG”、"SQ"等),然后是元数据的具体内容。
示例:
@HD VN:1.6 SO:coordinate
@SQ SN:chr1 LN:248956422
@RG ID:Sample1 PL:illumina SM:Sample1
-
比对记录行(Alignment Records):SAM文件的主体部分包括比对记录,每一行代表一个测序序列的比对结果。比对记录包括多个字段,这些字段之间使用制表符(“\t”)分隔。比对记录的字段包括:
- 序列名称(QNAME):测序序列的名称或标识符。
- 比对标志(FLAG):描述比对的一些特征,如是否匹配、是否是原始测序序列等。
- 参考序列名(RNAME):比对到的参考基因组上的染色体或序列名称。
- 参考序列位置(POS):比对序列在参考基因组上的起始位置。
- 映射质量(MAPQ):表示比对的质量得分。
- CIGAR字符串(CIGAR):描述序列与参考基因组的对齐方式。
- 参考序列下游位置(RNEXT):下游比对的参考序列名称。
- 下游位置(PNEXT):下游比对的起始位置。
- 序列数据(SEQ):比对到参考基因组上的序列数据。
- 质量字符串(QUAL):序列的质量分数。
示例:
read001 16 chr1 1000 30M * = 1000 0 ATCG... BCCC...
- 适用情况:SAM文件用于存储比对结果,通常由测序数据分析软件生成。它是生物信息学和基因组学研究中常用的数据格式,用于存储和共享测序数据的比对信息,以便后续分析和解释测序数据。
四、vcf文件格式
- 概述:VCF(Variant Call Format)文件是一种用于存储基因组变异数据的文本格式,通常用于描述DNA或RNA测序数据中的单核苷酸变异和结构变异。VCF文件包括了各种类型的变异信息,如单核苷酸多态性(SNP)、插入/删除(Indel)、复合杂变异等。
- 后缀:vcf
- 格式:
-
文件元数据(File Metadata):VCF文件的开头通常包括一些元数据信息,用于描述文件的属性和来源,以及变异数据的版本等。元数据行以"##"开头,可以包括信息字段、格式字段和样本信息字段等。
示例:
##fileformat=VCFv4.3 ##fileDate=20210920 ##source=MyVariantCaller ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2
-
列名(Column Headers):VCF文件的列名行包括了各个字段的名称,通常以"#“开头,后跟字段名称,包括"CHROM”(染色体名称)、“POS”(变异位置)、“ID”(变异标识符)、“REF”(参考碱基)、“ALT”(变异碱基)、“QUAL”(质量分数)、“FILTER”(过滤信息)、“INFO”(变异信息)和"FORMAT"(样本格式)等。
示例:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2
-
变异记录行(Variant Records):VCF文件的主体部分包括一行行的变异记录,每一行描述一个变异事件。变异记录行包括了各种字段,这些字段用制表符(“\t”)分隔,包括:
- CHROM:变异位点所在的染色体名称。
- POS:变异位点在染色体上的位置。
- ID:变异的唯一标识符。
- REF:参考碱基。
- ALT:变异碱基。
- QUAL:质量分数,表示变异的质量估计。
- FILTER:过滤信息,描述变异是否通过了一些质量过滤。
- INFO:包含有关变异的详细信息的字段。
- FORMAT:描述每个样本中的数据格式。
- 样本数据:每个样本的具体数据,包括基因型信息、深度信息、质量信息等。
示例:
1 1001 rs123 A G 20.4 PASS AF=0.25;DP=30 GT:AD:GQ:PL 0/1:10,20:30:50,0,60
- 适用情况:VCF文件是用于存储和共享基因组变异信息的标准格式,在基因组学研究和生物信息学分析中广泛使用。它允许研究人员记录和交换关于基因组中的变异的重要信息,以便进一步的研究和解释。VCF文件的格式规范有不同的版本,因此要确保正确解析和处理VCF文件,最好查阅文件的元数据信息以了解其格式版本。
更多推荐
所有评论(0)