아이젠사이언스-고려대학교-I.C.L. '소형언어모델', 미국 의사면허시험 통과

Meerkat-7B와기존오픈소스언어모델과의성능비교.70억개이하매개변수오픈소스소형언어모델로는최초로미국의사면허시험(USMLE)의합격선(60점)을넘는74점을달성했다.

아이젠사이언스가 고려대학교, 임페리얼 칼리지 런던(I.C.L.)과의 공동 연구를 통해 의료 분야 언어모델 인공지능(AI)의 새 지평을 열었다. 아이젠사이언스는 3개 기관이 연합해 개발한 sLLM (small LLM, 소형언어모델)인 ‘Meerkat-7B’가 미국 의사면허시험(USMLE)을 통과하는 데 처음으로 성공했다고 밝혔다.

OpenAI, 구글 등 빅테크들이 주도하는 LLM (거대언어모델)들이 성과를 보이고 있지만, 이는 외부 클라우드를 사용하기 때문에 병원이나 기업 등에서 사용하기에는 민감한 데이터가 유출될 위험이 있다. 이에 기관 내부에 설치해 보안성을 높일 수 있는 ‘온프레미스(On-premise)’ 방식이 가능한 sLLM에 대한 수요가 증가하고 있다.

sLLM은 모델의 매개변수(parameter)를 줄여 비용을 줄이고, 미세조정(fine-tuning)으로 정확도를 높인 모델을 의미한다. 매개변수의 경우 OpenAI의 GPT-3.5(ChatGPT)는 1750억개, 구글의 PaLM은 5400억개에 달하지만, Meerkat-7B는 70억개에 불과하다. 이는 PC 한 대에서도 설치 및 활용할 수 있는 크기의 모델이라는 점에서 의의가 있다는 회사측의 설명이다.

Meerkat-7B는 복잡한 의료 문제를 해결하는 데 필요한 다단계 추론 능력을 갖춘 의생명분야에 특화된 sLLM 모델이다. 60점이 평균 합격선인 미국 의사면허시험에서 기존의 최고 sLLM인 MediTron-7B는 52점으로 통과에 실패한 반면 Meerkat-7B는 74점이라는 높은 점수로 통과해 그 성능을 입증했다. 또한 7개의 의료 벤치마크 성능평가에서 GPT-3.5(175B) 모델보다 평균 13% 높은 성능을 보임으로써 의료 분야에서의 오픈소스 모델 개발이 중요한 진전을 이뤘음을 보여줬다고 밝혔다.

Meerkat-7B와 같은 의생명 특화 언어모델은 병원 내에서는 임상 의사 결정 지원, 비표준화된 의료 차트의 정리와 같은 의료·원무 행정의 효율성을 제고하고, 제약 회사에서는 특허 분석, 임상 설계, 문서 작성 등의 노동 집약적이고 전문성을 요하는 업무를 지원해 각 분야 전문가의 업무 부담을 경감하는 데 기여할 수 있다는 회사측의 설명이다.

아이젠사이언스의 주력 사업 분야는 생성형 AI를 이용한 신약 개발이다. 아이젠사이언스 강재우 대표는 “의생명 분야에서는 매일 3000편 이상의 연구 논문이 발표되는데, 이렇게 방대한 정보 속에서 신약 개발에 필요한 새로운 질병 표적 단백질을 식별하고 검증하는 작업은 매우 시간이 소모되는 일”이라며 “Meerkat-7B를 통해 새로운 약물 타깃을 발굴하는 과정의 효율성을 대폭 향상시킬 수 있을 것으로 기대하고, 이번 성과를 바탕으로 의료 특화 LLM을 활용한 신규 사업모델 또한 준비 중”이라고 밝혔다.

김국주 기자 press@healthinnews.co.kr

다른기사 보기