북한이 인공지능(AI) 스피커 즉 지능고성기의 성능을 개량하고 있는 것으로 확인됐다. 인공지능 딥러닝 기술을 활용해 잡음 속에서 사용자의 음성을 강조하도록 한 것이다. 

6월 1일 대북 소식통에 따르면 김일성종합대학이 최근 발행한 학보 정보과학 2020년 제66권 제1호에 '부름말 검출에 의한 목적 발성자의 음성강조'라는 논문이 수록됐다.

논문은 "자동음성인식(ASR) 체계에서 주위의 잡음을 약화시키고 주목하는 발성자(목적발성자)의 음성만을 강조하는 문제는 체계의 인식정확도에 큰 영향을 미친다"고 지적했다. 

논문은 "특히 가정들에서 이용되는 지능고성기에서 목적발성자의 음성을 강조하는 문제는 매우 중요하게 제기된다"며 "지능고성기를 비롯한 음성인식체계에서 음성강조 문제는 배경잡음과 배경음성환경(목적발성자가 아닌 다른 발성자의 발성, TV, 녹음기, 고성기에서 나오는 녹음이 존재하는 환경)에서 목적발성자의 음성을 추출, 강조해 음성인식 처리단에 보내는 문제이다. 이 음성강조 문제는 아직까지 원만히 해결되지 못하고 있다"고 밝혔다.

우리가 음성으로 명령을 할 때 주변에는 수많은 잡음이 존재한다. 가령 가정에서는 TV 소리, 아이들 소리, 집밖의 자동차 소리 등 다양한 소리로 가득차 있다. 그런 상황에서 음성으로 AI 스피커를 작동하게 되면 AI 스피커는 잡음과 명령한 음성을 분리해야 한다. 이를 위해 명령한 사람의 음성이 강조돼야 하는 것이다. 북한의 논문은 바로 이 문제를 지적했다. 

논문은 "치환 불확정성 문제를 피하고 부름말 검출에 의한 발성자의 음성을 강조하는 한 가지 방법을 연구했다"며 "이 방법은 어떤 특정한 부름말을 사전에 정해 그것의 특징 벡터를 보관하고 있다가 실제 환경에서 부름말을 발성하는 사람을 목적발성자로 보고 그 이후에 발성하는 음성을 강조한다"고 설명했다.

이는 사전에 AI 스피커 사용자가 특정한 단어를 말해서 입력하고 그것을 기반으로 AI 분석을 통해 잡음과 명령을 구분한다는 것이다.

우리가 애플 AI 서비스를 이용할 때 '시리(Siri)'라고 부른 후 명령을 하게 된다. 여기서 시리라고 부르는 것을 부름말로 추정해 볼 수도 있다.

북한이 2018년 11월 열린 29차 전국정보기술성과전시회에서 지능고성기가 등장한 바 있다.

당시 로동신문은 "김일성종합대학 첨단과학연구원 정보기술연구소에서 내놓은 지능고성기에 대한 사람들의 관심이 이만저만이 아니였다"고 보도했다. 로동신문은 "이 지능고성기는 사람의 음성지령을 인식해 선풍기와 공기조화기, TV, 전등을 비롯한 가정용품들에 대한 자동조종을 실현할 수 있는 장치였다"고 설명했다.

북한이 지칭한 지능고성기는 아마존 알렉사, 네이버 클로바 등 처럼 음성을 인식하는 AI 스피커인 것이다.

관련기사

북한판 알렉사?... 북한 음성인식 AI 스피커 개발

김일성종합대학 “지능살림집(스마트홈) 조종체계 집중 연구”

2018년 11월 소개된 북한의 지능고성기 모습

이후로도 북한에서 지능고성기에 대한 연구, 개발이 진행된 것으로 알려졌다. 그런에 이번에 북한 논문을 통해 구체적으로 성능 개선을 위한 연구가 진행되고 있다는 것이 확인됐다.

북한 논문은 "우리는 지능고성기의 부름말 '무아경'에 대해 50명의 발성자가 각이한 잡음 환경 속 에서 50번씩 발성한 음성자료를 가지고 심층학습을 진행해 부름말 마스크를 추정해다"고 설명했다. 이를 통해 부름말로 무아경이라는 단어가 사용됐고 또 실험에 50명이 동원됐다는 것도 알 수 있다.

논문은 결론에서 "모의실험을 통해 제안된 방법이 선행 방법보다 배경음성 속에서 목적발성자의 음성을 강조하는 성능이 높다는 것을 확증했다"고 주장했다. 즉 이번 연구로 음성인식 성능이 개선됐다는 것이다. 

이처럼 북한이 음성인식 AI 스피커에 대한 연구를 진행하고 있는 만큼 새로운 지능고성기를 선보일지 주목된다. 

강진규 기자  maddog@nkeconomy.com

* 독자님들의 뉴스레터 신청(<-여기를 눌러 주세요)이 NK경제에 큰 힘이 됩니다. 많은 신청 부탁드립니다.

 

관련기사

저작권자 © NK경제 무단전재 및 재배포 금지