국제음성통신협회((International Speech Communication Association, 이하 ISCA)가 주최하는 인터스피치(INTERSPEECH)는 음성인식 분야에서 최고의 권위를 보유한 국제학회로서, 매년 1,800여명의 음성 언어 처리 관련 학계, 업계, 정부 관계자 등이 참석한다. 올해로 21회를 맞이한 인터스피치2020은 10월 25일부터 29일까지 4일간, ‘음성 처리를 위한 인지지능(Cognitive Intelligence for Speech Processing)’을 주제로 개최됐으며, 마이크로소프트, 아마존, 애플, 인텔, 바이두, 알리바바 등 세계적인 IT 기업들이 참여했다.
뷰노는 이번 컨퍼런스에서 자사의 인공지능 기반 의료 음성인식 솔루션 뷰노메드 딥ASR™(VUNO Med®-DeepASR™)의 음성인식 엔진을 고도화하는 연구개발의 일환으로 착수한 2편의 연구 논문을 발표했다.
두 연구 모두 음성인식 분야의 최신 연구 주제인 E2E 모델(end-to-end model, 딥러닝 모델만으로 입력된 음성 전문을 즉시 문자화하는 방식)을 기반으로 음성인식 성능을 강화하는 내용을 담고 있으며, 뷰노는 향후 해당 연구에서 확인한 기술을 뷰노메드 딥ASR™에 적용해 음성인식 성능과 정확도를 향상시킬 예정이다.본 학술대회에서 첫 번째로 발표된 뷰노의 연구는 E2E 모델을 기반으로 국문뿐 아니라 국영문을 혼용한 음성에서도 가장 높은 성능을 보이는 서브워드(sub-word, 자연어처리 알고리즘에서 전처리로 이용되는 단위)를 도출하였으며, 자모음, 음절 조합, 바이트(byte) 등 다양한 국영문 음성인식 모델을 비교 분석했고, 문자 오류율(Character Error Rate, CER), 단어 오류율(Word Error Rate, WER), 문장 오류율(Sentence Error Rate, SER)을 현저하게 감소시켰다. 더 나아가 국내 병원의 의무 기록(medical record) 데이터를 기반으로 검증함으로써, 국내 의료 환경에서의 높은 활용도를 확인했다.
또 다른 연구는 자동 음성인식(Automatic Speech Recognition, 이하 ASR)에 신경망 구조 탐색 (Neural Architecture Search, NAS) 기술을 적용한 새로운 음성인식 방법인 EST(Evolved Speech-Transformer) 모델을 고안하는 내용을 담고있다.
해당 모델은 기존 방식 대비 낮은 단어 오류율(WER)로 높은 정확도를 기록하는 한편, 메모리 사용량은 최대 30%, 학습시간은 약 4% 감소시켜 우수한 성능을 입증했다. 본 연구의 성능검증은 영문 데이터셋(Wall Street Journal)과 국문 데이터셋(Zeroth)을 기반으로 진행돼, 향후 EST 모델은 방대한 의료용어로 국영문이 혼재된 의료 환경에서도 높은 성능을 보일 수 있을 것으로 기대된다.
김상기 뷰노 음성인식본부장은 “이번 인터스피치 연구 발표로, 뷰노의 인공지능 의료 음성인식 기술을 입증해 기쁘다”라며, “이러한 뷰노의 기술력이 집약된 뷰노메드 딥ASR™도 국내뿐 아니라 세계 최고 수준의 성능을 자랑한다”고 말했다. 이어 “이번 연구성과를 기반으로 뷰노메드 딥ASR™을 고도화해 의료현장의 효율성을 효과적으로 높일 수 있도록 기여하겠다”라고 말했다.
김송희 기자
webmaster@healthinnews.co.kr