본문 바로가기

바이오스펙테이터

기사본문

쓰리빌리언, '질병유발 유전변이 해석 AI' 논문 게재

입력 2021-07-21 12:19 수정 2021-07-21 12:19

바이오스펙테이터 윤소영 기자

딥러닝 모델 '3Cnet', 기존 유전변이 해석 vs 인공지능과 효능 비교한 연구 결과 Bioinformatics에 게재

쓰리빌리언(3billion)은 21일 희귀유전질병 진단을 위한 유전변이 해석 딥러닝 모델 ‘3Cnet’개발에 대한 연구 결과가 국제학술지 ‘Bioinformatics’에 게재됐다고 밝혔다.

3Cnet은 순환신경망(recurrent neural networks, RNN)이 적용된 유전변이 해석 인공지능 모델로, 환자 질병의 원인이 되는 유전변이를 효율적으로 찾아내기 위해 쓰리빌리언 연구팀이 개발중인 모델이다.

연구결과에 따르면 3Cnet은 기존에 개발된 인공지능(AI) 모델(REVEL, VEST4, SIFT, PolyPhen, PrimateAI, CADD, FATHMM, DANN 등)에 비해 환자 질병 유발 유전변이를 찾아낼 확률이 2.2배 높았다(DOI: 10.1093/bioinformatics/btab529). 또한 유전변이 중 미스센스 변이만 해석할 수 있던 기존의 모델들에 비해 프레임시프트(frameshift), 삽입/결실(Indel), 정지(Stop), 기능획득/손실(gain/loss) 변이 등 해석 가능 유전변이 종류를 증가시켰다는 것을 확인했다.

이번 연구를 주도한 이경열 쓰리빌리언 박사는 “3Cnet은 상용화된 병원성 예측기 가운데 최고수준의 성능을 달성했으며, 최신 자연어 처리기법 적용과 유전변이의 병원성을 일으킨 원인까지 분석할 수 있는 고차원 인공지능 개발로 고도화해 나갈 계획”이라고 말했다.

논문에 따르면 하나의 뉴클레오타이드(nucleotide) 변이로 아미노산을 바꾸는 미스센스 돌연변이(missense mutation)는 유전자의 서열이 바뀌는(nonsynonymous) 변이 중 83%를 차지한다. 하지만 미스센스 돌연변이는 단백질수준, 세포수준, 심지어는 환자 몸 전체 수준에서 종합적으로 고려해 찾아야 하며 환자의 다양한 미스센스 돌연변이 중 질병을 유발하는 돌연변이를 구분하는 것도 중요하다. 따라서 질병의 원인이 되는 미스센스 돌연변이를 예측 및 진단하는 것은 쉽지 않으며 많은 시간과 노력이 요구된다.

이에 빠르게 증가하는 유전체 데이터를 기반으로 질병유발 변이 유전자를 예측할 수 있는 AI기반 알고리즘이 개발되고 있다. 하지만 이러한 알고리즘은 중복 데이터, 부족한 임상 데이터 등으로 과적합(overfitting) 문제를 가지고 있다. 과적합은 알고리즘이 학습된 데이터에 치우쳐 있어 일반성 예측이 떨어지는 현상을 의미한다.

쓰리빌리언 연구팀은 이러한 문제를 해결하기 위해 가상유전변이 데이터를 생성해 학습 데이터 숫자를 늘리고, 유전자의 진화적 보존(evolutionary conservation) 데이터를 학습에 활용할 수 있도록한 인공지능 유전변이 해석 모델 3Cnet을 개발했다.