Somatic variants calling 과 Germline variants calling을 비교해 보자
먼저 Germline variants는 생식세포 돌연변이로서 부모에게 유전받아 전체 genome에서 발견되는 변이 이다.
이에반해 Somatic variants는 체세포 돌연변이이며 살면서 다양한 이유로 발생하는 변이이다.
유전체 분석에서 variants를 찾아내는 과정을 variants calling 이라고 칭한다.
germ-line mutation을 target으로 변이를 검출할때 한 site에서 A가 10번 T가 90번 읽혔으면 이 변이는 somatic mutation또는 sequencing error일 가능성이 높다. germline mutation은 부모로부터 물려받았기 떄문에 homozygote하거나 heterogygote 둘중 하나 이기 때문이다. 때문에 읽었을때 반반 읽히거나 100%동일하게 읽혀야 한다.
만약 20번 T로 읽히고 80번 G로 읽히면 애매해진다. 하지만, 대부분의 caller는 애매한건 버리게 되어있다.
이러한 방식으로 reference와 다른 haplotype을 calling 한다.
reference에 매핑
haplotypecaller를 사용해 variants를 calling한다.
somatic variants calling
germline VS somatic
알고리즘은 같지만 filtering과정이 다름
germline은 diploid (human)를 고려하지만 이지만 somatic은 고려를 하지않음
germline은 normal data가 input으로, somatic은 Tumor 와 Normal, germline source 가 들어간다.
이때의 Normal은 somatic calling할때 germline source로 제거되지 않은 germline을 제거하는 용도이다.
germline VAF는 0.5, 1을 call한다. somatic은 0.5이하 로 calling한다. VAF 0.1이하이면 error를 의심할만하다.
somatic calling과정에 PON이 들어가는데 이는 artifact를 제거하는 용도이다.
Normal이 없을땐 Tumor와 PON만으로 tumor only mode(mutect2 한정)를 진행한다. 이렇게 되면 germ line variants가 포함될수도 있지만 VAF 필터링으로 걸러질 수도 있다. 부정확해서 추천 안함.
strand bias 제거 : foward 에서만 나와? 이상한데? 이런거 제거해줌
'BI' 카테고리의 다른 글
NGS 분석 기초 1 - 데이터형식 (FASTA, FASTQ, BAM, VCF) (2) | 2020.10.28 |
---|---|
바이오 빅데이터 정리2 ( dbSNP, geo, dbnsfp, GIAB등..) (0) | 2020.10.28 |
바이오 빅데이터 정리 ( 1000genome, TCGA, COSMIC, CCLE 등..) (0) | 2020.10.27 |
Variants allele frequency (VAF) 와 minor allele frequency(MAF)의 차이 (0) | 2020.06.25 |
NGS - Whole genome, Whole exome, Target sequencing 정리 (0) | 2020.06.10 |