공부하면서 정리하는 Bioinformatics
본 포스팅은 genomics를 공부하며 작성하는 포스팅이기 때문에 잘못된 부분이 있을수 있습니다.
또한, 범문에듀케이션에 출판된 유전체 데이터 분석2 (NGS편, 암과 질병 유전체) 서적을 기반으로 공부하여 작성하였음을 미리 알립니다.
오늘은 NGS데이터 분석의 기초인 데이터 포맷을 정리한다.
1. FASTA 포맷(.fasta or .fa)
실험을 통해 얻은 서열 정보, sequence를 표현하는 가장 기본적인 포맷.
DNA sequence 뿐만 아니라 Protein sequence도 저장한다.
'>'로 주석을 표현하고 한줄당 50개의 sequence가 표현된다.
2. FASTQ 포맷(.fastq or .fq)
FASTA이외에 실험을 통해서 얻는 서열 정보형식
FASTA 포맷의 각 염기에 QV(quality Value)가 추가된 형태이다.
첫행은 기계적인 서열의 주석정보(@장비번호 : lane 번호 : x좌표 : y좌표 : multiplexing indexing: paired-end)
두번째행은 sequence
세번째행은 +
네번째행은 sequencing quality
sequencing quality 표현법.
오른쪽으로 갈수록 높은 질.
phred score
3.BAM 포맷 (.bam)
BAM은 SAM(sequancing Alignment/MAP)의 이진형태이다. 컴퓨터만 읽을 수 있으며 연산이빠르고 크기가 작아진다.
BAM 파일의 내용을 보기 위해서는 SAM 파일로 변환해야한다.
samtools vieew -h file.bam > file.sam
-h 옵션으로 헤더정보를 볼 수 있다.
3-1.SAM 포맷(.sam)
'@'는 헤더정보 (프로그램, 샘플 정보, 실험장비 등)
열 순서대로 'ID' '리드 정렬 결과 FLAG' 'align된 reference 서열 이름' '시작위치' '매핑 점수' 'CIGAR 문자열' '퀄리티' 등이 있다.
빨간색 표시가 CIGAR 문자열 -> 100M은 100개다 매칭됨./ 76M2D24M은 76개는 매칭, 2개 deletion, 24개 매칭됨.
3-2 BAM -> SAM
samtools view -bS file.sam > out.bam
3-3 BAM -> pileup
samtools mpileup -f ../path/file.fa file.bam > out.pileup
pileup data는 정렬된 서열을 각각의 염기에 대해 볼수 있음.
45206355위치에 reference 서열은 T이고 이 locus에 35개의 read 매핑, 그값은 C
45208636위치에 reference 서열은 G이고 이 locus에 29개의 read 매핑, A/G모두 나타남. 즉, Heterozygous A/G인것.
3-4 BAM -> BED
BED포맷은 화면표시를 위한 포맷.(UCSC Genome Browser에서 열어볼 수 있음. tablec 등의 visualization tool의 input)
samtools mpileup -uf ../path/file.fa file.bam | bcftools view -> out.bcf
3-5 BAM -> BCF
VCF의 이진파일 형식.
pileup 포맷을 거쳐감. 즉, locus별로 어떤 염기가 삭제되었는지를 보고해줌.
samtools mpileup -uf ../path/file.fa aligned.bam | bcftools view -> out.bcf
3-6 BCF-> VCF
bcftools view out.bcf > out.vcf
4.VCF(Variant Call Format)
유전체 변이정보를 담은 텍스트 파일.
4-1.VCF 압축
크기가 크기때문에 효율적으로 다루기위해 압축한다. 압축상태에서도 열람이 가능하다.
bgzip -c data.vcf > data.vcf.gz
#열람하는법
#indexing
tabix -p vcf data.vcf.gz
#열람
tabix data.vcf.gz chr:44000000-44000100
4-2 VCF에서 Allele frequency 구하기
#1000genome data중에서..
>tabix -fh ftp://ftp/100genomes......./genotypes.vcf.gz 16:57000000-57001000 > genotypes.vcf
>vcftools --vcf genotypes.vcf --freq --out allelefrequencies
4-3 VCF에서 원하는 sample data추출
VCF -subset -c HG00098 genotypes.vcf > HG00098.vcf
4-4 VCF파일 비교
#bgzip 으로 압축, tabix -p로 인덱싱한 sample 두개의 vcf비교
vcf-compare sample1.vcf.gz sample2.vcf.gz
'BI' 카테고리의 다른 글
NGS 분석 기초 3 - NGS데이터 분석. Variants calling(GATK3.8활용) (0) | 2020.10.31 |
---|---|
NGS 분석 기초 2 - NGS데이터 분석. Variants calling, Annotation 이전.(BWA, Picard, GATK,) (0) | 2020.10.30 |
바이오 빅데이터 정리2 ( dbSNP, geo, dbnsfp, GIAB등..) (0) | 2020.10.28 |
바이오 빅데이터 정리 ( 1000genome, TCGA, COSMIC, CCLE 등..) (0) | 2020.10.27 |
Variants allele frequency (VAF) 와 minor allele frequency(MAF)의 차이 (0) | 2020.06.25 |