生物信息学

生物信息学——常见的四种文件格式(fasta,fastq,sam,vcf)



概述

每一种生物软件都有固定的文件格式要求。了解文件格式才能快速分辨文件的功能。从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。

一、fasta文件格式

  • 概述:FASTA(Fast All Sequences in A)文件格式是一种常用于存储生物序列信息(如DNA、RNA或蛋白质序列)的文本格式(主要是把序列储存到数据库中的一种形式)。FASTA文件通常用于存储和共享生物学数据,如基因序列或蛋白质序列。
  • 后缀fa,fasta,fna
  • 格式
    • FASTA文件可以包含一个或多个序列,每个序列都以一个描述行和一个或多个序列数据行组成。多个序列可以依次排列在FASTA文件中。
  1. 描述行(Header Line):FASTA文件的每个序列都以一个描述行开始,以大于号(“>”)开头,用于序列标记,主要储存序列的描述信息。后面跟着该序列的名称或标识符(为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的)。描述行通常是单行文本,用于标识序列的来源或其他相关信息,序列ID部分可以包含注释信息。

    示例:

    >Sequence1
    
  2. 序列数据行(Sequence Data Line):紧接着描述行的是实际的序列数据行,序列信息,既为序列本身。序列数据行包含序列的碱基(DNA或RNA)或氨基酸(蛋白质)的字符序列。序列数据行可以跨越多行,但通常为了方便起见,会将序列分为80到120个字符的行。

    示例:

    ATCGATCGATCGATCG...
    
  • 示例

以下是一个包含两个DNA序列的FASTA文件的示例:

>Sequence1
ATCGATCGATCGATCG...
>Sequence2
GCTAGCTAGCTAGCTA...
  • 适用情况:FASTA文件是广泛使用的生物信息学数据格式之一,因为它简单易读,并且适用于存储各种生物学序列的信息。这使得FASTA文件在分析和比对生物序列数据时非常有用。

二、fastq文件格式

  • 概述:FASTQ(Fast Quality Score)文件格式是一种用于存储测序数据的文本格式,通常用于存储DNA或RNA测序结果。FASTQ文件包括序列数据和与每个碱基相关的质量分数信息,以便在测序数据分析中进行质量控制和序列比对。
  • 后缀fastq, fq
  • 格式
    • FASTQ文件中的每个序列通常由一个描述行、一个序列数据行、一个分隔行和一个质量分数行组成,这些行按顺序重复出现,以表示不同的测序读取。FASTQ文件可以包含一个或多个序列,每个序列之间以相同的格式分隔。
  1. 描述行(Header Line):FASTQ文件的每个序列都以一个描述行开始,以"@"字符开头,后面跟着该序列的名称或标识符,通常包含有关测序样本的信息。

    示例:

    @Sample_1
    
  2. 序列数据行(Sequence Data Line):序列数据行包含DNA或RNA序列的字符序列,由A、T、C、G等表示碱基。这些字符表示测序得到的碱基序列。

    示例:

    ACGTACGTACGT...
    
  3. 分隔行(Separator Line):分隔行通常由一个加号(“+”)开头,后面跟着与序列数据行对应的描述符。尽管分隔行中的内容与描述行相同,但分隔行的存在有助于区分不同部分。

    示例:

    +
    
  4. 质量分数行(Quality Score Line):质量分数行包含与序列数据行中的每个碱基相关的质量分数。质量分数通常以ASCII字符表示,表示测序仪器对每个碱基的测序质量。较高的ASCII值表示更高的质量。

    示例:

    BCCDFFFFFGGGG...
    
  • 示例
    以下是一个包含两个测序序列的FASTQ文件的示例:
@Sample_1
ACGTACGTACGT...
+
BCCDFFFFFGGGG...
@Sample_2
GCTAGCTAGCTA...
+
DDDDDEEEEEE...
  • 适用情况:FASTQ文件广泛用于存储和共享测序数据,以便进行生物信息学分析、基因组学研究和生物学研究。

三、sam(/bam)文件格式

  • 概述:SAM(Sequence Alignment/Map)文件格式是一种常用于存储DNA或RNA序列比对(alignment)结果的文本格式,通常用于描述测序数据与参考基因组的比对信息。SAM文件通常包括序列的位置、碱基配对、质量分数等信息。
    • 在SAM文件之后,通常还会生成一个二进制的BAM文件,以节省存储空间和提高数据处理速度。
  • 后缀sam(/bam)
  • 格式
  1. 文件头(Header):SAM文件的开头通常包括文件头部分,以"@“字符开头。文件头部分包含与比对信息和文件本身相关的元数据(metadata),如测序平台、参考基因组信息、比对软件等。文件头部分以”@“字符开始,后跟标识符(如"PG”、"SQ"等),然后是元数据的具体内容。

示例:

@HD     VN:1.6  SO:coordinate
@SQ     SN:chr1 LN:248956422
@RG     ID:Sample1     PL:illumina     SM:Sample1
  1. 比对记录行(Alignment Records):SAM文件的主体部分包括比对记录,每一行代表一个测序序列的比对结果。比对记录包括多个字段,这些字段之间使用制表符(“\t”)分隔。比对记录的字段包括:

    • 序列名称(QNAME):测序序列的名称或标识符。
    • 比对标志(FLAG):描述比对的一些特征,如是否匹配、是否是原始测序序列等。
    • 参考序列名(RNAME):比对到的参考基因组上的染色体或序列名称。
    • 参考序列位置(POS):比对序列在参考基因组上的起始位置。
    • 映射质量(MAPQ):表示比对的质量得分。
    • CIGAR字符串(CIGAR):描述序列与参考基因组的对齐方式。
    • 参考序列下游位置(RNEXT):下游比对的参考序列名称。
    • 下游位置(PNEXT):下游比对的起始位置。
    • 序列数据(SEQ):比对到参考基因组上的序列数据。
    • 质量字符串(QUAL):序列的质量分数。

    示例:

    read001  16  chr1  1000  30M  *  =  1000  0  ATCG...  BCCC...
    
  • 适用情况:SAM文件用于存储比对结果,通常由测序数据分析软件生成。它是生物信息学和基因组学研究中常用的数据格式,用于存储和共享测序数据的比对信息,以便后续分析和解释测序数据。

四、vcf文件格式

  • 概述:VCF(Variant Call Format)文件是一种用于存储基因组变异数据的文本格式,通常用于描述DNA或RNA测序数据中的单核苷酸变异和结构变异。VCF文件包括了各种类型的变异信息,如单核苷酸多态性(SNP)、插入/删除(Indel)、复合杂变异等。
  • 后缀vcf
  • 格式
  1. 文件元数据(File Metadata):VCF文件的开头通常包括一些元数据信息,用于描述文件的属性和来源,以及变异数据的版本等。元数据行以"##"开头,可以包括信息字段、格式字段和样本信息字段等。

    示例:

    ##fileformat=VCFv4.3
    ##fileDate=20210920
    ##source=MyVariantCaller
    ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
    ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
    #CHROM  POS     ID       REF  ALT     QUAL  FILTER  INFO  FORMAT  Sample1  Sample2
    
  2. 列名(Column Headers):VCF文件的列名行包括了各个字段的名称,通常以"#“开头,后跟字段名称,包括"CHROM”(染色体名称)、“POS”(变异位置)、“ID”(变异标识符)、“REF”(参考碱基)、“ALT”(变异碱基)、“QUAL”(质量分数)、“FILTER”(过滤信息)、“INFO”(变异信息)和"FORMAT"(样本格式)等。

    示例:

    #CHROM  POS     ID       REF  ALT     QUAL  FILTER  INFO  FORMAT  Sample1  Sample2
    
  3. 变异记录行(Variant Records):VCF文件的主体部分包括一行行的变异记录,每一行描述一个变异事件。变异记录行包括了各种字段,这些字段用制表符(“\t”)分隔,包括:

    • CHROM:变异位点所在的染色体名称。
    • POS:变异位点在染色体上的位置。
    • ID:变异的唯一标识符。
    • REF:参考碱基。
    • ALT:变异碱基。
    • QUAL:质量分数,表示变异的质量估计。
    • FILTER:过滤信息,描述变异是否通过了一些质量过滤。
    • INFO:包含有关变异的详细信息的字段。
    • FORMAT:描述每个样本中的数据格式。
    • 样本数据:每个样本的具体数据,包括基因型信息、深度信息、质量信息等。

    示例:

    1       1001    rs123    A    G    20.4   PASS   AF=0.25;DP=30   GT:AD:GQ:PL  0/1:10,20:30:50,0,60
    
  • 适用情况:VCF文件是用于存储和共享基因组变异信息的标准格式,在基因组学研究和生物信息学分析中广泛使用。它允许研究人员记录和交换关于基因组中的变异的重要信息,以便进一步的研究和解释。VCF文件的格式规范有不同的版本,因此要确保正确解析和处理VCF文件,最好查阅文件的元数据信息以了解其格式版本。
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐