public data를 사용하다 보면 내가 가진 데이터와 다른 reference genome에 mapping된 데이터들을 사용해야 할때가 많다.
hg38에 mapping된 결과와 hg19에 mapping된 결과는 coordinate가 다르기때문에 문제가 될 수있으니, 이를 보정해 주어야한다.
hg38 to hg19 혹은 hg19 to hg38 둘다 input만 달라지고 나머지는 같다.
1. liftOver download
우선 UCSC에서 제공하는 liftover tool을 받는다.
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver
chmod a+x liftOver
2. liftOver chain file을 받는다.
http://hgdownload.soe.ucsc.edu/downloads.html#human
여기서
hg38tohg19가 하고 싶으면 hg38의 LiftOver files로 들어가면 다음과같이 주루룩 나온다.
그중에 위와같은 chain file을 다운받는다!
이러면 준비과정이 끝난다.
3. 실행
./liftOver input.bed hg38ToHg19.over.chain.gz output.bed unlifted.bed
그뒤 위의 명령어로 lifftover를 진행하면된다.
결과를 살펴보니, 생각보다 unlifted.bed 양이 많다.
이래서 다시 mapping 하는것을 권장하나보다.
reference
1. https://genome.sph.umich.edu/wiki