북한이 이메일, 문자메시지(SMS)에 금지어를 넣을 경우 송신을 차단하는 기술을 적용하고 있는 것으로 보인다. 북한은 금지어 차단을 회피하는 것을 막는 기술 개발에도 나섰다. 

대북 소식통에 따르면 김일성종합대학학보 정보과학 2019년 제65권 제2호에 '본문통신체계에서 유사도 평가에 의한 변형어휘 검출의 한 가지 방법'이라는 논문이 수록됐다.

논문은 "전자우편(이메일), SMS(이동통신망 단문통보문봉사체계), 통합대화기 등 여러 형식의 본문통신체계에서 특정어휘(금지어) 검출은 중요한 문제로 나선다"며 "한편 본문통신체계에서 금지어 사용을 시도하는 사용자들은 본문검색에 의한 차단을 회피 하기 위해 어휘변형을 시도한다. 논문에서는 입력된 어휘를 자모 단위로 분리하고 표준화 한 후 유사도를 평가하는 방법으로 변형된 금지어를 검출하는 한 가지 방법을 제안했다"고 설명했다.

논문 내용으로 볼 때 북한이 이메일, 문자메시지에서 금지어를 검출하고, 차단하는 것으로 추정된다. 그리고 이를 회피하는 사례도 나타나고 있는 것으로 보인다.

논문은 금지어가 본문통신체계사용에서 상대방에게 전송되지 말아야 할 유해롭거나 비문화적인 어휘를 의미한다고 정의했다. 구체적으로 어떤 단어가 금지어인지는 밝히지 않았다.

논문은 "현재의 본문통신체계들에서는 금지어 사전을 작성한데 기초해 본문의 어휘들 중에 사전단어가 있는가를 검색하는 단순한 방법으로 금지어 검출을 진행한다"며 "이 방법은 사용자가 의도적으로 어휘를 변형하여 전송하는 경우 검색하지 못하는 약점을 가지고 있다"고 설명했다.

즉 북한이 금지어 사전이라는 데이터베이스(DB)를 만들어 이메일, 문자메시지 등에서 금지어를 검출하고 있다는 것이다.

논문은 금지어를 회피하는 사례도 소개했다. 논문에 따르면 예를 들어 뻐꾸기라는 단어가 금지어 사전에 등록된 단어일 때 사용자가 'ㅃㅓ구ㄱㅣ'라고 입력하면 회피할 수 있다는 것이다.

논문은 문자 변형 방법에 1. 동일발음을 이용한 문자변형, 2. 자모벌려쓰기를 이용한 문자변형, 3. 외국어문자나 특수기호를 이용하는 문자변형, 4. 영문발음을 이용하는 문자변형 등이 있다고 설명했다.

이에 본문의 어휘들을 자모 단위로 분리해 표준형으로 변환한 후 사전에 등록된 금지어의 표준형과의 유사도를 계산하는 방식으로 변형된 금지어를 검출하기 위한 방법론을 제안했다는 것이다.

논문은 개발한 기술을 특정한 과학분야(체신)의 어휘 2500개를 선택해 시험했다고 한다. 어휘자료기지에 속하는 단어 200개를 선택해 금지어로 설정하고 그 중에서 100개를 여러 형식으로 변형해 자료기지화했다는 것이다. 그리고 자동본문전송체계가 통보문을 금지어 검출시스템서버로 발송하면 서버는 금지어 검출을 진행한 후 그 결과를 기록했다고 한다.

논문은 시험 결과 변형된 금지어 100개를 포함한 288개의 금지어 중 281개가 검출됐다고 밝혔다. 원본 그대로의 금지어 188개는 전부 검출됐으며 변형된 금지어 100개 중 93개가 검출됐고 금지어와 유사한 1개의 정상어휘가 금지어로 검출됐다고 한다. 

논문은 제안된 금지어 검출 체계는 조선어통보문의 어휘변형행위에 대해 금지어 검출 정확성이 높으며 또 초당 1000개까지의 통보문을 처리할 수 있는 성능을 갖추고 있어 수만~수십 만 가입자 규모의 통신봉사체계들에서 안정하게 동작할 수 있다고 주장했다.

북한은 이번에 개발된 기술을 이메일, 문자메시지 발송 시스템에 적용할 것으로 보인다. 또 회피 차단과 정확도를 높이기 위해 기술 고도화에 나설 것으로 예상된다.

강진규 기자  maddog@nkeconomy.com

* 독자님들의 뉴스레터 신청이 NK경제에 큰 힘이 됩니다. 많은 신청 부탁드립니다.

저작권자 © NK경제 무단전재 및 재배포 금지