본문 바로가기

바이오스펙테이터

기사본문

디어젠, 약물-단백질 상호작용 예측모델 성능 공개

입력 2019-08-12 17:42 수정 2019-08-12 17:42

바이오스펙테이터 조정민 기자

MLHC 2019에서 발표… “9700만개 화합물 빅데이터 사용해 FDA 승인된 EGFR 항암제 8개 모두 예측”

▲신봉근 디어젠 최고인공지능책임자가 MLHC에서 포스터 발표를 진행하고 있다(디어젠 제공)

▲신봉근 디어젠 최고인공지능책임자가 MLHC에서 포스터 발표를 진행하고 있다(디어젠 제공)

인공지능 기반 신약발굴 벤처기업 디어젠이 개발한 ‘약물-단백질 상호작용 예측 알고리즘(Molecule Transformer Drug Target Interaction; MT-DTI)’의 성능을 공개했다. 디어젠은 지난 8일부터 10일까지 미국 미시간에서 개최된 MLHC(Machine Learning for Healthcare) 2019 학회에서 개발 성과를 발표했다고 12일 밝혔다.

DTI(Drug target interaction)는 질병을 유도하는 것으로 예측되는 타깃 물질과 약물 후보물질의 상호작용을 예측해 신약후보물질을 도출하는 것이다. 그러나 전통적인 실험실 기반(in vitro)의 DTI는 비용과 시간이 많이 소모될 뿐 아니라 DTI로 도출된 후보물질이 실제 신약으로 이어지는 경우가 10% 미만이다.

따라서 최근에는 컴퓨터 시뮬레이션 기반(in silico) 기술을 이용한 DTI 예측이 요구되고 여러 종류의 in-silico DTI 예측모델이 제안됐다. 하지만 이 방법들은 화합물 정보 이용의 한계와 복잡한 화학구조를 제대로 반영하지 못하는 등의 이유로 후보물질 예측에 한계가 있는 것으로 알려졌다.

MT-DTI는 기존의 DTI 예측모델의 한계를 극복하기 위해 디어젠이 자체개발한 새로운 DTI 모델이다. MT-DTI는 Self-Attention 메커니즘을 모델에 반영해 복잡한 화학구조를 효과적으로 모델링했고 PubChem의 9700만개 화합물 데이터베이스를 사전학습에 이용 가능하게 해 모델의 정밀도를 높였다.

회사 측은 “Self-Attention 메커니즘을 통해 기존의 저분자화합물 데이터베이스로부터 화합물 합성 패턴에 대한 지식을 효율적으로 추출해 모델에 반영했다”고 설명했다.

디어젠은 MT-DTI의 성능을 확인하기 위해 Kiba와 Davis 2가지 데이터에 대해 기존의 DTI모델과 MT-DTI를 CI, MSE, r^2, AUP 등 4가지의 성능 측도에 대한 비교실험을 진행했다. 그 결과, MT-DTI가 모든 성능 측도 항목에서 우수한 성능을 보였다.

또한 FDA에서 승인된 약 1800여개의 약물 정보를 포함하는 DrugBank와 폐암 등에서 많이 사용되는 바이오마커인 EGFR을 MT-DTI 모델에 입력하고 30개의 EGFR 타깃 약물 후보군을 추리는 실험을 진행한 결과에서 MT-DTI가 예측한 후보물질 중 실제 EGFR 타깃으로 FDA의 승인을 받은 8개의 약물이 모두 포함된 것을 확인했다. 이는 MT-DTI 모델의 유용성을 증명하는 결과로 해석할 수 있다.

MT-DTI 연구를 이끈 신봉근 최고 인공지능책임자는 “이번 연구를 통해 MT-DTI 모델이 빠르고 정확한 신약후보물질 제시 플랫폼으로 활용될 가능성이 확인됐다”며 “MT-DTI 모델을 통해 적은 비용으로 신약을 개발, 환자 맞춤 의료시대를 앞당길 것”이라고 발표했다.

강길수 디어젠 대표이사는 “디어젠은 현재 AI기술을 활용해 First in class, Best in class 신약을 만들기 위해 여러 신약 개발 전문가들과 함께 협업하고 있다. 디어젠의 AI기술이 신약개발에 중요한 포지션을 갖도록 노력하겠다”고 말했다.

한편 이번 연구 성과는 ‘Selt-Attention based molecule representation for predictiong drug-target interaction’이란 제목으로 국제 학술지 ‘Journal of Machine Learning Research’에 게재될 예정이다.