North Korea uses Hadoop for big data analysis

북한이 대자료 즉 빅데이터 분석에 하둡(Hadoop) 기술을 활용하고 있는 것으로 확인됐다. 북한은 해외 전문서적과 자료를 이용해 빅데이터 분석 속도와 효율성을 높이는 작업을 진행 중이다. 북한이 다양한 분야에 빅데이터 분석을 추진하고 있는 것으로 추정된다. 

3월 9일 대북 소식통에 따르면 북한 김일성종합대학이 발행한 김일성종합대학학보 정보과학 2019년 제65권 제4호에 ‘망(네트워크)자료 흐름에서 중간결과를 위한 자료형식 선택의 한 가지 방법’이라는 논문이 수록됐다.

논문은 “Hadoop 클라스터상에서 대규모의 자료 분석은 자료집중형흐름 DIW(Data Intensive Workflow)에 의해 수행되고 있다”며 “Hive와 Pig는 Hadoop상에서 분석과제 실행을 쉽게 하기 위한 프레임워크로서 여러 개의 관 흐름화 된 MapReduce일감들에 과제들을 분배한다”고 설명했다. 

하둡(Hadoop)은 대용량 데이터를 분산 처리할 수 있는 오픈소스 프레임워크로 빅데이터 분석에 널리 활용되고 있다. 북한 논문이 언급한 하이브(Hive)와 피그(Pig)는 하둡을 잘 활용할 수 있도록 해주는 도구이며 기술이다. 

아파치 소프트웨어 재단의 하둡 홈페이지 모습

하둡은 아파치 루씬 개발자로 알려진 더그 커팅이 2006년 개발했으며 아파치 소프트웨어 재단이 관리하고 있다. 하둡은 빅데이터 분석을 위한 기술로 전 세계적으로 널리 쓰이고 있다. 삼성전자, 이베이, 애플, 페이스북, 네이버, SK텔레콤 등 국내외 기업들이 하둡 기술을 활용하고 있다. 

DIW(Data Intensive Workflow)는 데이터 집중 워크플로우를 뜻한다. 방대한 데이터를 분석하게 되면 많은 시간과 비용이 소요된다. 특히 네트워크, 통신망 등을 기반으로 분산된 대규모 데이터를 분석하게 되면 통신비용이 많이 든다. 때문에 데이터 분석을 효율적으로 수행해 시간을 단축하고 효율성을 높이며 비용을 줄이는 기술이 데이터 집중 워크플로우다.

논문은 “분산 하둡 화일체계 HDFS 상에서는 실체화를 위한 입출력 연산 비용이 크다. 그러므로 불필요한 읽기/쓰기 수행으로 DIW의 실행 비용이 증가한다. 선행연구에서는 읽기/쓰기 연산량을 줄이기 위해 빠른 적재, 빠른 질문처리, 효과적인 기억 이용을 위한 자료형식을 제안했다”고 설명했다.

논문의 목적은 빅데이터 분석 시 비용을 줄이는 것이다. 논문은 선행 연구보다 더 진보된 즉 효율적이고 빠른 방법을 제안했다고 주장했다.

논문은 북한 연구원들이 창안한 방법으로 1~128기가바이트(GB) 규모의 자료를 생성해 분석해 봤다고 한다. 이 논문에서 제안한 방법은 평균 SequenceFile에 비해 32%, Avro에 비해서 19%, Parquet에 비해 4%의 성능개선을 보였으며 전체적으로 18%의 성능을 개선했다고 한다.

북한 연구원들이 참고한 Hadoop in Action 책 모습

이 논문은 해외 전문 서적도 참고햇다고 한다. 참고한 서적은 2016년 발행된 ‘Mahmood; Data Science and Big Data Computing, Springer’와 2010년 발행된 ‘C. Lam; Hadoop in Action, Manning, 2010’이다. 이를 통해 북한이 해외 빅데이터 분석 기술을 수용해 자신들의 상황에 맞도록 개선하고 있다는 점을 알 수 있다. 오픈소스 기반 소프트웨어(SW)를 널리 활용하고 있는 북한 입장에서 하둡이 오픈소스 기반이라는 점도 선택에 영향을 줬을 것으로 보인다. 

이 논문으로 북한에서도 대자료 분석에 하둡을 활용하고 있다는 것이 확인됐다. 그 동안 북한은 대자료 분석에 대해 꾸준히 언급해 왔다.

2018년 10월 열린 북한 전국정보화성과전람회 2018에서는 대자료 분석이 화두가 됐다고 한다. 북한 “전국정보화성과전람회 화두는 인공지능, 빅데이터”

당시 북한 언론들에 따르면 전국정보화성과전람회 2018에서 거대자료처리기술과 그 응용이라는 내용이 선보였다. 이 기술은 북한의 종합자료분석체계 '내나라'에 적용됐다고 한다.

거대자료처리기술
거대자료처리기술

2019년 11월 열린 북한 전국정보화성과전람회-2019에서는 평양정보기술국이 구름연산(클라우드 컴퓨팅)과 대자료(빅데이터) 분석에 관한 내용이 소개했다. 북한 IT기업 4대 전략은?...AI, AR, 자율조종, 정보보안 

지난해 연말에는 북한 김일성종합대학이 홈페이지를 개편하면서 정보과학부 현황을 공개했다. 정보과학부 학생들이 배우는 과목 중 하나로 대자료(빅데이터) 체계(시스템)가 있었다. 김일성대 정보과학부 학생들은 무슨 과목을 배울까? 

이처럼 북한은 대자료 분석을 소개하면서도 어떤 기술을 활용하고 있는지는 공개하지 않았다. 2016년 말레이시아에서 활동하던 북한 IT 기업 조선엑스포가 빅데이터 분석을 진행한다며 하둡 기술도 활용한다고 언급한 것이 거의 유일하다. 

그리고 이번에 명확히 하둡을 활용하고 연구하고 있다는 것이 확인된 것이다. 북한 연구 논문으로 볼 때 북한은 빅데이터 분석을 시작하는 단계를 넘어 더 효율화하는 방향으로 고도화를 추진 중인 것으로 보인다. 

북한은 인공지능(AI), 가상현실(VR), 무인기술 등과 함께 빅데이터 기술을 중요한 기술로 보고 있다. 바로 그 근거는 로동신문이다. 북한 “인공지능 시대 데이터가 금, 원유보다 중요”

2019년 11월 1일 로동신문은 "오늘날 자료를 떠나 모든 분야에서의 개선과 비약적인 발전에 대해 말할 수 없다”며 “전문가들은 현시대에 금이나 원유보다 더 비싼 자원은 다름 아닌 자료라고 주장하고 있다”고 보도했다.

이어 로동신문은 “지식경제가 추세로 된 오늘 자료(데이터)를 많이 가지고 있는 사람이 진짜 부자라고 말할 수 있다”며 "지금 정보전달 속도는 빨라지고 자료량은 끊임없이 폭발적으로 늘어나고 있다. 한 외신은 현시대를 자료폭발의 시대라고 평하면서 새로운 정보가 매일 산생되고 그로 인해 대자료 시대가 형성된다고 주장했다”고 설명했다.

북한은 일단 자신들이 보유한 대규모 자료 분석을 진행하고 있는 것으로 알려졌다. 그리고 점차 산업 부문 등의 빅데이터 분석 움직임도 보이고 있다. 500~600만대로 추산되는 휴대폰이 보급된 상황에서 통신 관련 정보를 분석하고 있을 가능성도 있다.  

북한은 인공지능(AI) 기술 개발과 함께 빅데이터 연구와 적용도 확대할 것으로 예상된다. 

강진규 기자  maddog@nkeconomy.com

* 독자님들의 뉴스레터 신청(<-여기를 눌러 주세요)이 NK경제에 큰 힘이 됩니다. 많은 신청 부탁드립니다.

 

관련기사

저작권자 © NK경제 무단전재 및 재배포 금지