북한이 인터넷상의 방대한 정보를 효율적으로 활용하기 위해 요약 기술을 개발하고 있는 것으로 알려졌다. 북한은 정보 분석에 인터넷 백과사전이 위키백과(또는 위키피디아)를 활용하고 있는 것으로 확인됐다.

11월 15일 대북 소식통에 따르면 김일성종합대학이 발행한 학보 정보과학 2022년 제68권 제3호에 ‘짧은 문서요약을 위한 중요 문장 추출의 한 가지 방법’이라는 논문이 수록됐다.

논문은 “인터넷을 통해 대량의 자료들이 보급되고 있는 조건에서 보다 적은 밑천과 품을 들여 필요한 자료들을 파악할 수 있게 하는데 문서요약 기술은 중요한 역할을 한다”고 설명했다.

또 “신문보도 기사나 과학 잡지의 논문들과 같은 문서들은 단행본에 비해 현실적이고 실제적인 사실 자료들이 짧고 알기 쉽게 써졌으며 기사제목만 보고도 서술한 내용의 주제를 명백히 알 수 있다”고 지적했다.

대학 연구진은 기사의 표제 정보를 짧은 문서 요약에 이용하기 위한 연구가 진행됐다고 소개했다. 그중 표제 정보 중심의 주제용어평가에 기초한 문서요약방법에서는 표제 단어의 포함 정도와 근접성 정도를 고려해 용어의 무게를 계산하고 모든 용어들의 무게합으로 문장의 무게를 계산해 중요 문장을 추출했다고 한다.

또 TextRank 알고리즘을 이용한 실마리어 추출 방법에서는 짧은 본문처리에서의 동시 출현 특성의 제한성을 극복하고 대중백과(wikipedia) 정보를 이용해 실마리어를 추출했다고 밝혔다.

TextRank 알고리즘은 검색, 인공지능(AI) 분석 등에 활용되는 것으로 알려져 있다. 위키백과는 2001년 개설된 참여형 인터넷 백과사전이다.

논문에서는 기사와 같은 짧은 문서 요약에서 기사 표제의 중요성에 주목해 중요 문장 추출의한 가지 방법을 제안했다고 밝혔다.

이 논문을 통해 3가지 사실을 확인할 수 있다. 첫 번째로 북한 연구진들이 인터넷의 방대한 정보들 중 중요 정보를 추출하는 방법을 연구하고 있다는 것이다. 두 번째는 그 대상에는 언론 기사가 포함돼 있다는 것을 알 수 있다. 세 번째는 북한도 위키피디아를 활용하고 있다는 것을 알 수 있다. 

전체적인 내용을 봤을 때 북한은 자신들이 필요한 정보를 찾기 위해 자동화 된 추출, 요약 기술을 개발하고 있는 것으로 보인다.

* 독자님들의 뉴스레터 신청(<-여기를 눌러 주세요)이 NK경제에 큰 힘이 됩니다. 많은 신청 부탁드립니다.

 

 

저작권자 © NK경제 무단전재 및 재배포 금지