본문 바로가기

BI

(17)
bedtools error 해결-file has non positional records, which are only valid for the groupBy tool. bedtools intersection 을 사용하다 아래와 같은 에러를 만났다.. file {bedfile} has non positional records, which are only valid for the groupBy tool. file {bedfile} has non positional records, which are only valid for the groupBy tool. 구글링해본 결과 윈도우에서(엑셀) 생성한 파일을 사용했기 때문으로 밝혀졌다. window에서 생성하면 끝문자가 유닉스에서 생성된 파일과 다르다. 해결법 1. window에서 생성된 file 끝문자 확인 cat -e bedfile.bed 위의 명령어로 확인해 보면 줄 끝마다 ^M$가 추가되어있는것을 확인할수있다. 유닉스에서..
reference build version 바꾸기(hg38 to hg19, hg19 to hg38) public data를 사용하다 보면 내가 가진 데이터와 다른 reference genome에 mapping된 데이터들을 사용해야 할때가 많다. hg38에 mapping된 결과와 hg19에 mapping된 결과는 coordinate가 다르기때문에 문제가 될 수있으니, 이를 보정해 주어야한다. hg38 to hg19 혹은 hg19 to hg38 둘다 input만 달라지고 나머지는 같다. 1. liftOver download 우선 UCSC에서 제공하는 liftover tool을 받는다. wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver chmod a+x liftOver 2. liftOver chain file을 받는다. http://hg..
바이오, 제약 산업군에서 AI의 위치. 바이오업계에서 AI를 접목시키려고하는 시도가 많아지고 있다. 하지만 아직 바이오업계는 제약업계와 비교해서 작은 산업군에 속한다. 따라서 바이오 업계에서의 대우자체가 제약 업계와 차이가난다. 이때문에 AI인력이 바이오 업계에 많이 부족한 현실이며, 그마저도 대우가 좋지 않다. 그래서 항상 인재가 부족한 실정이다. 다음은 내가 일하면서 느끼고 배운것들을 기록한것 이다. 앞으로 추가할 예정이다. 1. data split할때 중요한것은 일관성(homogeneous). 2. 제약 bigdata를 모으기 힘듬. -> small data 분석에 우선은 초점을 맞추는것이 필요 3. 빅데이터를 모으기는 힘들지만 결국엔 바이오,제약 사업에서 AI는 큰 영향을 줄것. 4. genome data와 임상정보(phenotype)..
논문리뷰 - Cell-free DNA TAPS provides multimodal information for early cancer detection 본 리뷰는 지극히 개인적으로 읽고 요약한것이며, 잘못된정보가 포함할수 있습니다. 또한, 출처를 명확히 밝히며, 문제가 있을경우 삭제하겠습니다. 첫번째 리뷰논문은 Cell-free DNA TAPS provides multimodal information for early cancer detection https://www.science.org/doi/10.1126/sciadv.abh0534 Cell-free DNA TAPS provides multimodal information for early cancer detection Novel cell-free DNA whole-genome methylome sequencing method enables accurate cancer detection. www.s..
bedtools error해결 : ERROR: Received illegal bin number 4294967295 from getBin call. bedtools subtract -a -b command를 썻는데 다음과 같은 에러를 만났다. ERROR: Received illegal bin number 4294967295 from getBin call. ERROR: Unable to add record to tree. 이유는 정말 단순했다. MS office로 만진 파일을 Unix에서 쓰려니까 문제가 발생한것.. 해결법. dos2unix file.txt 위의 명령어를 진행하면 해당 파일이 Unix format으로 converting이 진행된다. 이후 bedtools를 돌리면 해결 완료!!!
에러해결 KeyError : get_loc error / pandas._libs.index.IndexEngine.get_loc() CODE ERROR pandas를 이용하여 data parsing을 하던 도중 에러를 만났다. 뭔가 pandas에서 데이터 접근하는방식이 맘에 안들었나보다. 잘 될때가 있고 안될때가 있어서 pipeline화 시켜 여러sample을 돌리면 에러로인해 진행이 되지 않았다. 결국 index location어쩌구 하는걸 보니 iloc을 사용해야 하나? 라는 생각이들었고 iloc을 사용하니 해결되었다. vcf_pos=df_vcf_chr1.POS[x] >> vcf_pos=df_vcf_chr1.iloc[x].POS
bedtools 에러해결 Error: unable to open file or unable to determine types for file.(부제 - bedtools에서 사용할 수 있는 파일 포맷) vcf 를 bedtools를 사용하여 작업하려고 하는데 다음과 같은 에러가 났다. Error: unable to open file or unable to determine types for file TAB관련 issue인줄 알고 tab을 맞춰 주었다. 하지만 똑같은 에러 계속 발생 결론 fileformat을 vcf로 지정해줘야 한다. bedtools가 이 파일이 무슨 파일인지 인식하기 위해서는 주석처리된 fileformat이 있어야 한다. 나같은 경우에는 파싱전의 VCF에서 주석처리된 format내용을 가져왔다.
NGS 데이터분석 1 -예제 데이터로 분석해보기(SRR8241280~1) 데이터분석 공부도 하고 GATK pipeline도 만들겸 public data로 분석해보기로 한다. 포스팅 1편에서는 GATK를 사용하기 전 단계인 전처리 단계를 진행한다. SAMPLE 내가 사용한 데이터는 project ID PRJNA505117의 두개의 sample이다. Study Title은 Whole exome sequencing of Colorectal Cancer Liver Metastases이다. SRR8241280~SRR8241309 의 많은 sample들이 있지만 전부 돌려보기엔 시간과 컴퓨터 자원의 한계로 인해 SRR8241280,SRR8241281 두개의 sample을 분석해본다. SRR8241280: TUMOR sample SRR8241281: NORMAL sample 본격적으로 분..