먼저 전립선암 유무 및 글리슨 등급 분류에 있어 DeepDx® Prostate의 성능을 확인하는 외부 검증 연구가 진행됐다. 연구팀은 150개의 전립선 절제술 검체를 500개의 타일로 나누고, 각 타일 내 종양 비율, 종양의 글리슨 등급 및 글리슨 패턴 4와 5의 비율 구분 항목에 따라 DeepDx® Prostate와 두 명의 요로병리학자의 분석을 각각 진행한 후, 분석 결과를 비교했다. DeepDx® Prostate는 전립선 바늘생검(needle biopsies) 조직 이미지로 학습된 소프트웨어임에도 불구하고, 전립선 절제술 검체 조직 분석 연구에서 정답과의 유사도를 나타내는 일치도 계수*(Cohen’s kappa score) 값이 κ0.79(95% CI 0.75 - 0.82)로 나타나 두 명의 요로병리학자가 합의해 생성한 참조 표준과 전반적으로 높은 일치율을 보였다.
특히 양성과 음성을 구분할 때와 낮은 위험의 전립선 암(양성, GG 1 또는 GG2)과 고위험 전립선암(GG 3-5)을 분류할 때 각각 κ0.927, κ0.858의 일치도 값을 기록해 상당 수준의 성능을 입증했다는 회사측의 설명이다.
회사에 따르면 DeepDx® Prostate는 전립선 절제술 검체 내 암 유무를 발견하는 데 있어 수술 전 MRI 검사와 조직병리학간의 일치도를 측정하는 연구에도 사용됐다. 연구에서는 전립선 절제술을 진행한 남성 30명의 검체가 사용됐으며, 검체 이미지들은 3D 방식을 사용하여 MRI에 등록됐다. DeepDx® Prostate는 종양을 찾아내고, 악성도 등급을 책정하는데 사용됐다. 소프트웨어가 종양의 크기와 관계없이 모든 암 영역을 확인하고 악성도를 등급별로 나타낸 반면, MRI는 전체 종양의 66%를 잡아내지 못했으며, 놓친 부분 중 37%는 임상적으로 유의한 종양이었다. 또한 병리학자가 암의 유무를 확인하는 데만 표본당 평균 45분의 긴 시간이 소요된 반면, DeepDx® Prostate는 어노테이션(annotation)과 악성도 등급 구분에 걸리는 시간도 크게 단축하는 효과도 보였다고 밝혔다.
김선우 딥바이오 대표는 “미국 비뇨기과 학회의 학술대회에서 DeepDx® Prostate 관련 연구 결과가 주목받으며 소프트웨어의 성능을 다시금 입증할 수 있는 계기가 됐다”며 "인공지능 기반 암 진단 보조 소프트웨어가 현재 병리학이 직면한 인력 부족 현상 및 병리학자간 진단 불일치를 해결할 수 있는 수단으로 주목받고 있는 만큼 국내외에서 지속적인 연구를 진행하며 DeepDx® Prostate의 성능 강화는 물론 사용 분야를 넓히기 위해 노력하겠다”고 말했다.
임혜정 기자
press@healthinnews.co.kr