본문 바로가기

BI

바이오 빅데이터 정리 ( 1000genome, TCGA, COSMIC, CCLE 등..)

공부하면서 정리하는 Bioinformatics

 

본 포스팅은 genomics를 공부하며 작성하는 포스팅이기 때문에 잘못된 부분이 있을수 있습니다.

또한, 범문에듀케이션에 출판된 유전체 데이터 분석2 (NGS편, 암과 질병 유전체) 서적을 기반으로 공부하여 작성하였음을 미리 알립니다.

 

오늘은 바이오 빅데이터를 정리한다. 

 

1. The 1000 genome project

인종별로 다양하게 나타나는 변이에 대한 정보를 모으기위해 시작된 사업. 

2008년에 미국,영국,중국이 참여함.

5개의 인종과 26개의 아인종으로 구분된 2504명의 유전체 염기서열을 공개,

인종간의 다양성을 설명할 수 있는 대표적인 유전체 서열 데이터,

 

data 접근

sample별이 아니라 염색체별로 24개의 파일 제공.

NCBI에서 제공하는 1000 Genomes Browser 사이트에 잘정리되어 샘플별로도 열람 가능.

HapMap Project 데이터 등을 이용해 imputation하였으므로 거의 모든영역에개한 분석이 이루어짐.

www.internationalgenome.org/home

 

1000 Genomes | A Deep Catalog of Human Genetic Variation

Latest Announcements Friday August 14, 2020 Earlier this year, the New York Genome Center (NYGC) released high-coverage (30x) data for an additional 698 samples from the 1000 Genomes Project sample collections. These 698 samples are related to the original

www.internationalgenome.org

2. TCGA (The Cancer Genome Atlas)

TCGA사업은 암에관한 모든 유전체 데이터를 총 망라하여 암을 정복하겠다고 시작한 사업.

2015년 기준 33종의 암, 11041명의 데이터가 공개되있음.

모든 암환자에 대해서 암세포의 염기서열과 정상세포의 염기서열을 얻을수 있음.

mRNA expression, micro-RNA expression, DNA methylation분석 데이터등 다양한 데이터 제공

 

data 접근

1단계 raw 

2단계 processed -분석을 수행한 후 정규화된 데이터

3단계 segmented - 2단계 데이터를 요약한 데이터(summarized data) 간결한 분석결과, 결과 확인용

4단계 summary - 해석이 가미된 결과 

한계, 데이터 질에대한 이슈/ 하나의 sample에서도 여러 암세포의 특징이 다름.

 

www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

 

The Cancer Genome Atlas Program

The Cancer Genome Atlas (TCGA) is a landmark cancer genomics program that sequenced and molecularly characterized over 11,000 cases of primary cancer samples. Learn more about how the program transformed the cancer research community and beyond.

www.cancer.gov

3. COSMIC (Catalogue of Somatic Mutations in Cancer)

 

기본적으로는 과학 문헌을 통해서 암 조직이나 암 세포주에서 발견되는 체세포 돌연변이를 총 망라한 데이터 베이스.

최근에는 체세포 변이 뿐만아니라 암환자의 생식세포 변이도 보고되고 있음.

등록된 유전자는 2020기준 572개.

최근 TCGA, CGP와 같은 방대한 암 연구결과를 추가하여 somatic variation, CNV, fusion gene등 많은 데이터를 포괄.

somatic variation와 해당 변이의 서열 위치, 관련 gene, sample, 문헌정보가 제공됨.

 

cancer.sanger.ac.uk/cosmic

 

COSMIC - Catalogue of Somatic Mutations in Cancer

COSMIC, the Catalogue Of Somatic Mutations In Cancer, is the world's largest and most comprehensive resource for exploring the impact of somatic mutations in human cancer.

cancer.sanger.ac.uk

4. CCLE (Cancer Cell Line Encyclopedia )

Broad Institute와 영국 노바티스가 공동으로 추진하는 암 세포주에 대한 약물학적 실험결과 수록.

39개의 암종, 1074개의 암세포주에 대한 염기서열 변이, 유전체 발현, CNV등을 분석, 각각의 암세포주에 대해 24종의 약물에 대한 민감도를 EC50, IC50 값으로 정량화 하여 제공.

 

인종별로 두드러지게 나타나는 암종이 다르므로 세포주의 인종확인하고 분석 진행 요망.

 

portals.broadinstitute.org/ccle

 

Broad Institute Cancer Cell Line Encyclopedia (CCLE)

 

portals.broadinstitute.org

5. ClinVar

 인구집단에서 2%이상에서 발견되는 변이를 SNP로 정의하고 변이정보를 모아둠.

최근에는 SNP의 기준이 모호해지고 인종마다 다르게 분포하기 때문에 기준을 1% 혹은 0.5% 이상으로 낮춤.

거의 모든 변이에 대한 정보를 저장하는 DB로 바뀜.

 

dbSNP에 존재하는 변이 중 질병과 관계가 있거나, 없다고 명시되어 제공.

HGMD에 잘정리되어있지만 유료임.

 

6.ENCODE

유전체 상에 존재하는 모든 기능적 단위를 발견하고 규명.

코딩영역 이외에 DNA에대한 정보를 총 망라한 백과사전

 

7. 이외에 DB들

ESP - expne 부분만 염기서열 분석 

ToMMo - 일본에서 진행된 1070명 염기서열 분석

illumina body map - 48명의 RNA-seq데이터

DGV - 단일 염기서열 변화, short INDEL에대한 정부는 dbSNP에 잘정리됨. CNV나 structure variation은 DGV가 제공