본문 바로가기

바이오스펙테이터

기사본문

루닛, "고성능 AI모델만, 진단 정확도↑” 논문게재

입력 2023-07-03 16:21 수정 2023-07-03 16:21

바이오스펙테이터 노신영 기자

"영상의학 분야 최고권위 저널"..의료진 경력, 성향, AI 사용경험 등과 무관, AI 자체 성능만 최종 판독시 정확도 향상에 기여

루닛,

의료 인공지능(AI) 기업 루닛(Lunit)은 3일 높은 정확도의 AI 모델을 사용한 경우에만 판독자의 검출 능력이 크게 향상된다는 연구결과를 국제학술지 래디올로지(Radiology)에 게재했다고 발표했다(doi: 10.1148/radiol.222976).

래디올로지는 미국영상의학회(RSNA)가 발간하는 SCI급 국제학술지로 글로벌 논문 피인용지수(Impact Factor)가 29.146에 이르는 영상의학 분야 최고권위 저널이라고 회사측은 설명했다.

이번 연구는 서울대병원에서 지난 2015년 12월부터 2021년 2월까지 흉부 엑스레이를 촬영한 120명의 환자를 대상으로 진행됐다. 영상 판독자(Readers)로 흉부 영상의학과 전문의(thoracic radiologists) 20명과 영상의학과 레지던트(radiology residents) 10명, 총 30명이 참여했다.

연구는 폐암이 검출된 흉부 엑스레이 영상 60장과 암이 없는 정상소견 영상 60장 등 총 120장의 영상을 AI 도움없이 판독자 단독으로 각자 1차 판독했다. 이후 판독자를 15명씩 A, B 두 그룹으로 나눠 A그룹은 정확도가 높은 AI를, B그룹은 정확도가 낮은 AI를 각각 활용해 2차 판독했다.

A그룹은 루닛의 흉부 엑스레이 AI 영상분석 솔루션 '루닛 인사이트 CXR'의 고성능 알고리즘을 사용했고, B그룹은 전체 학습 데이터의 10%만 학습한 상대적 저성능 알고리즘을 사용했다. 인공지능 모델의 성능평가 지표인 AUROC(Area Under the Receiver Operating Characteristic) 분석에서 고성능 루닛 인사이트 CXR 알고리즘의 단독 폐암 검출능력은 0.88로, 저성능 알고리즘 0.77에 비해 높은 정확도를 나타냈다. 통상적으로 AUROC 수치가 1에 가까울수록 성능이 뛰어나며, 0.8 이상인 경우 고성능 모델로 평가된다.

연구결과 A그룹 판독자가 1차 판독 후 루닛 인사이트 CXR을 활용해 2차 판독한 경우 AUROC 수치는 0.77에서 0.82로 향상됐다. 반면 B그룹 판독자들은 1, 2차 판독 모두 0.75을 기록하며 수치상 변화가 없었다.

또한 연구에서는 판독자의 1차 단독 판독결과와 AI를 활용한 2차 판독 시 결과가 서로 엇갈릴 경우 AI가 제안한 결과에 따라 판정을 수정한 비율을 측정했다.

연구결과 1차결과에서 독자적으로 판독한 결과와 상충되는 AI 결과가 2차에서 제시되는 경우, 해당 제안을 받아들여 최종 판독을 뒤집은 경우는 A그룹이 67%, B그룹 59%로, 고성능 알고리즘을 사용한 집단에서 인공지능에 대한 수용성(Susceptibility)이 더 높았다.

연구를 주도한 박창민 서울대병원 영상의학과 교수는 "이번 연구에서는 AI를 사용한 2차 판독의 정확도에 영향을 미치는 요인을 분석하기 위해 판독의들의 경력기간, AI에 대한 인식, AI 사용 및 연구경험 유무 등을 사전에 조사했다"며 "그 결과 오직 개별 판독자의 1차 진단 정확도와 AI 자체의 정확도만 2차 판독한 의료진의 정확도에 유의미한 영향을 미쳤을 뿐, 판독자 고유의 경험과 성향은 무관한 것으로 나타났다"고 말했다.

서범석 루닛 대표는 "이번 연구는 개별 의료진의 특성과 무관하게, 성능이 높은 AI를 활용해야만 판독 개선 효과와 함께 AI에 대한 의료진의 수용성이 높아진다는 것을 확인한 연구"라며 "앞으로도 루닛은 의료진의 판독 정확도를 높이고, 환자들에게 보다 정확한 정보를 제공할 수 있도록 AI 성능 향상에 매진하겠다"고 말했다.