북한이 과학기술 자료, 잡지, 책 등에 용어를 자신들의 표준인 평양문화어로 전환하는 알고리즘을 개발한 것으로 알려졌다.

대북 소식통에 따르면 북한 김일성종합대학이 발행한 학보 정보과학 2023년 제69권 제4호에 ‘자료변환체계에서 입출력 자료의 처리방법’ 논문이 게재됐다.

논문은 “다른 나라들의 과학기술도서와 자료들을 북한 실정에 맞게 받아들이고 말의 주체성과 민족성을 고수하며 평양문화어의 우수성을 살려 나가는데 비규범어의 자료변환 문제가 매우 중요한 요구로 나선다”며 “논문에서는 자료변환체계에서 입출력 자료의 처리 방법을 제안했다”고 밝혔다.

논문은 비규범어 처리를 위한 자료변환체계에서 PDF문서를 비롯한 여러 문서자료들에 들어있는 비규범어들을 모두 찾아내 변환하자면 워드(Word) 문서의 자료보관 및 쓰기 방식을 해석하고 그것을 자료변환체계에서 이용할 수 있는 전 처리방법을 설계해야 한다고 설명했다. 또 Word의 이전 판본과 달리 Word2003 이상의 문서구조는 임의의 xml구조 도식을 추가할 수 있도록 구조화됐다고 전했다.

논문은 또 OpenXML문서에서 xml파일로 된 기능별 자료가 ZIP압축구조로 돼 있어 지난 시기의 Word파일보다 용량이 매우 적은 특성을 가지고 있다고 소개했다. 

하나의 문서는 여러 개의 XML파일로 구성된 내부구조를 가지게 되는데 그것은 뿌리(루트)등록부 혹은 그 하위 등록부에 보관된 ZIP압축파일 형식으로 돼 있다는 것이다.

북한 연구진은 개발한 기술로 실험도 진행했다고 한다. 잡지 23페이지를 대상으로 수작업을 했을 때는 5시간이 걸렸고 98%의 정확도를 보였으나 자동화된 기술을 활용했을 경우 변환에 40초가 걸렸고 100% 정확성을 나타냈다고 한다.

과학기술문서 95페이지의 경우 수작업은 1일이 걸렸고 95% 정확도를 보였지만 이 기술로 3분만에 100% 완벽하게 변환했다는 것이다. 253페이지 단행본 책자의 경우도 수작업으로 3일이 걸렸고 88% 정확도를 보였지만 기술을 통해 10분만에 100% 변환했다고 한다.

논문 내용으로 볼 때 북한 연구진은 PDF, 워드 파일 등의 자료에서 남한 용어 등을 찾아서 북한 표준어로 바꾸는 기술을 개발한 것으로 추정된다. 북한 연구진이 어떤 자료인지 자세히 설명하지 않았지만 설명한 내용으로 볼 때 남한 표준으로 번역된 과학기술 자료, 책 등의 용어를 북한 표준으로 바꿨을 가능성이 있다.

이는 모든 자료에서 북한 표준 용어를 적용하겠다는 의지로 해석할 수 있다. 북한이 용어를 자신들의 표준으로 전부 바꾸는 작업을 한다는 것은 남북 용어 통일 작업에도 영향을 줄 것으로 보인다. 

* 독자님들의 뉴스레터 신청(<-여기를 눌러 주세요)이 NK경제에 큰 힘이 됩니다. 많은 신청 부탁드립니다.

 

저작권자 © NK경제 무단전재 및 재배포 금지