본문 바로가기

BI

reference build version 바꾸기(hg38 to hg19, hg19 to hg38)

public data를 사용하다 보면 내가 가진 데이터와 다른 reference genome에 mapping된 데이터들을 사용해야 할때가 많다.

 

hg38에 mapping된 결과와 hg19에 mapping된 결과는 coordinate가 다르기때문에 문제가 될 수있으니, 이를 보정해 주어야한다.

 

hg38 to hg19 혹은 hg19 to hg38 둘다 input만 달라지고 나머지는 같다.

 

1. liftOver download

우선 UCSC에서 제공하는 liftover tool을 받는다.

 

 

wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver
chmod a+x liftOver

 

 

2. liftOver chain file을 받는다.

 

http://hgdownload.soe.ucsc.edu/downloads.html#human

 

UCSC Genome Browser Downloads

Sequence and Annotation Downloads This page contains links to sequence and annotation downloads for the genome assemblies featured in the UCSC Genome Browser. Downloads are also available via the Genome Browser FTP server. For access to the most recent ass

hgdownload.soe.ucsc.edu

 

여기서

hg38tohg19가 하고 싶으면 hg38의 LiftOver files로 들어가면 다음과같이 주루룩 나온다.

그중에 위와같은 chain file을 다운받는다!

이러면 준비과정이 끝난다.

 

3. 실행

./liftOver input.bed hg38ToHg19.over.chain.gz output.bed unlifted.bed

그뒤 위의 명령어로 lifftover를 진행하면된다.

 

결과를 살펴보니, 생각보다 unlifted.bed 양이 많다.

이래서 다시 mapping 하는것을 권장하나보다. 

 

reference

1. https://genome.sph.umich.edu/wiki