북한 ‘문서원’ 대신할 음성인식프로그램

워싱턴-정영 jungy@rfa.org
2019.12.27
cellphone_user_b 무거운 짐을 거머쥐고 시장으로 향하는 할머니와 그 옆에서 핸드폰을 보며 무심코 지나가는 청년의 모습이 포착된 북한 사진.
사진-연합뉴스 제공

여러분 안녕하십니까, 우리 생활과 친숙해진 과학과 기술을 알기 쉽게 풀어보는 <북한 IT와 과학기술> 시간입니다. 진행에 정영입니다.

오늘도 현대 과학기술 지식에 관해 북한 김책공업종합대학에서 컴퓨터를 전공했던 김흥광 ‘NK지식인연대 대표’와 함께 알아보겠습니다

진행자: 김흥광 대표님, 안녕하십니까,

김흥광: 안녕하십니까,

진행자: 오늘도 계속해서 북한에서 개발한 조선어음성인식프로그램 ‘대동강 1.0’에 대해 계속하여 이야기를 나눠보겠습니다. 음성인식프로그램에서 가장 중요한 것은 어떤 요소라고 볼 수 있을까요?

김흥광: 거기서 가장 중요한 것은 음성인식 속도입니다. 빨리 말하면 알아듣지 못하거든요. 그리고 인식률이 중요합니다. 천천히 말해도 알아듣지 못하는 경우가 있거둔요. 그래서 인식률과 속도가 매우 중요하다고 볼 수 있습니다.

진행자: 현재 제가 대표님과의 이 라디오 방송 녹음을 컴퓨터로 하고 있습니다. 음성녹음장치는 이 컴퓨터 상에서 우리 목소리, 음질, 높낮이, 소리 색갈 이런 것들을 인식을 해서 마이크를 통해서 컴퓨터에 저장하고 있는데, 음성인식프로그램은  이것보다 좀더 높은 단계에서 내가 말한 이 내용이 컴퓨터로 녹음되고 바로 눈으로 볼 수 있는 비쥬얼한 글자로 다시 재탄생한다는 이야기가 아니겠습니까,

김흥광: 그렇지요. 조선어 음성인식프로그램 대동강 1.0이 첫 제품이니까, 인식속도를 보면 그리 낮지 않습니다. 초당 다섯글자이거든요.  똑딱하는 순간에 다섯글자, 이거 쉽지 않습니다. 인식 정확도는 판별능력이 98% 수준, 즉 100개 단어 중에 98개는 맞다는 것인데, 인식률이 낮지 않는데, 그러나 세계적 수준은 아닙니다.

진행자: 다른 나라는 이보다 훨씬 발전했다고 보시는 가요?

김흥광: 그렇지요. 남한만 놓고 보더라도 음성인식 기술이 일반화 된 것이 벌써 3~4년 정도 되거둔요. 제가 쓰는 핸드폰의 버튼이 아마 북한 핸드폰과 다릅니다. 볼륨을 낮추고 높이는 버튼이 있고, 그 아래 버튼이 하나 또 있습니다.

그 버튼은 음성인식을 위한 것이거든요. 그걸 꼭 누르면 “하이빅스비~”라고 하고 “김흥광님, 안녕하십니까?”하고 마치 여비서가 대기하고 있다가 인사하는 것처럼 나오는데, 저는 “네, 안녕하십니까?”라고 하고 거기다 말로 지령을 줍니다.

그리고 저는 주로 필기하는 프로그램을 많이 쓰는데, 자판이 떠오르면, 북한에서는 이걸 ‘문자 입력 표시’라고 하지요. 그게 떠오르면 거기에 마이크가 있습니다. 그러면 제 이야기를 또박또박 하면, 좀 틀릴 때도 있지만, 정말 알아들을 수 있거든요. 너무 지나치게 빠르면 안되겠지만, 주로 음성을 통해서 문장도 만들고 메일도 보내고, 기록도 하고 그렇게 하고 있습니다.

진행자: 대표님 말씀을 들어보니까, 조선어음성인식프로그램이 대동강 1.0에서 2.0, 3.0으로 올라가지 않겠습니까,

그런데 인식속도가 1초에 5자다,  그리고 정확도는 98%라고 하면 비밀을 많이 다루는 노동당 간부들, 군수공장 기술자들이 좋아할 것 같은데요. 이들은 타이핑(글자입력속도)이 잘 되지 않아서 여비서를 옆에 앉히고 하다보면 비밀 보장이 잘 안된다는 우려도 가지고 있었는데 이제는 노간부들이 자기가 음성으로 하면 컴퓨터가 다 알아서 타이핑까지 해준다? 이런 가설이 성립되겠습니까,

김흥광: 그렇지요. 그걸 목표로 하는데, 여기서 말하는 초당 다섯글자는 물론 천천히 하면 되겠지만, 인식률이 98%라고 하는 것도, 자료에도 그렇게 나왔는데, 그러나 처음 켰을 때는 65%밖에 되지 않습니다. 그러니까65%의 인식률을 나에게 특화시켜서, 즉 학습을 시켜서 특화시키면 98%이상으로 높일 수 있다는 것인데, 사람마다 전문가가 아니니까, 그 훈련시키는 시간도 어렵기 때문에 그만한 성능을 낼 수 없습니다. 그러니까 북한의 음성인식프로그램 기술 수준이 남한이나 국제적 수준에는 미치지 못한다는 겁니다.

실례로 미국의 애플이라는 컴퓨터 회사, 컴퓨터를 가장 예쁘게 만들고, 성능이 본때납니다. 그 회사는 컴퓨터도 만들고 판형도 만들고 휴대폰도 만들고 하는데, 이 모든 기계들에 다 ‘쉬리’라고 하는 음성인식프로그램이 깔려 있습니다.

버튼이 있는데, 그걸 누르면 지금 우리가 전화하고 있는 것 있지 않습니까, 쉬리를 켜놓으면 우리가 말하고 있는 것이 그대로 글자로 나타납니다. 그런데 별로 안틀립니다.

진행자: 제가 음성인식 프로그램을 이용해서 길을 찾아가려고 마이크처럼 생긴 버튼을 누르고 한번 시도해보았습니다. 그런데 제 영어발음이 썩 안좋아서 딴 글자가 타이핑 됐습니다. 그러자, 차를 판매하는 세일즈맨이 “발음을 아주 정확히 해야 글자로 나타납니다”하고 하더군요.

그렇게 발음이 참 중요한데, 그래서 애한테 시킵니다. 애는 여기서 학교 다니기 때문에 발음이 아주 정확합니다.

김흥광: 하하하(웃음)이런 경우에 60%정도는 되는 것이고, 이번에 김책공업대학에서 만든 부가적인 기능이 학습을 시킬 수 있는 것인데, 사용자의 목소리를 특화시켜서 인식률을 98퍼센트로 높였다고 하거든요. 그 누가 말하든지, 남녀로소에 개의치 않고, 그리고 장소와 음질에 관계없이 정확하게 또렷하게 사람의 목소리를 문자로 풀어내는 것. 이게 바로 목표가 될 것입니다. 북한이 큰 걸음을 내딛었다고 볼 수 있겠습니다.

진행자: 그러면 대표님 말씀하신대로 음성인식프로그램의 활용가치, 즉 왜 필요한지 설명 부탁드립니다.

김흥광: 야, 엄청 많지요. 일단 우리가 사람과 사람사이 이야기 할 때 다 말로 하지 않습니까, 말, 표정, 제스처 등으로 충분히 의사 소통하지요.

그런데 기계가 사람의 말을 알아듣는다고 하는 것은 우리의 꿈이었습니다. 기계가 사람의 말을 알아듣게 하자면 지금까지는 기계식 입력장치라든지, 버튼을 눌러야 하는 상황이라든지, 그리고 많은 전자기기들을 이용하자면, 복잡한 조작반이 정말 많았습니다. 무척 혼돈스럽습니다. 그런데 이런게 하나도 없는 기계를 한번 생각해보십시오.

텔레비전에서도 리모콘이 없다고 생각해보십시오. 그냥 텔레비전을 켜고, 예를 들어 비서의 이름이 ‘미스 비’라고 하면, 리모콘에 대고 “미스 비, 케이비에스 틀어줘, 오늘 재미있는 게 무엇인가?”하고 말하면 리모컨이 다 알아듣는다는 것입니다.

“오늘 추천영화 뭐지?, 채널 27을 틀어줘”라고 말로 다 하는 것이거둔요. 이 얼마나 편리합니까, 그리고 뭐가 좋냐면 대량적인 자료들을 처리할 때 정말 편리합니다.

예를 들어 북한의 중앙당과 도당, 군당 등 중요기관에는 전문적으로 문서를 다루는 사람을 ‘문서원’이라고 합니다. 어린 처녀들, 청년들은 머리 총기가 좋지요. 그들은 전문적으로 문서를 타이핑해서 작성합니다. 남한에서는 이런 일들을 전문적인 공무원들이 합니다. 문서원이라고 따로 없습니다.

그런데 북한 노동당 3호 부서 문서원들은 문서작업을 너무 많이 하다 보면 손목이 아프거든요. 저도 올해 처음 며칠동안 컴퓨터를 계속 써서 왼손이 부었습니다.

그리고 집중도가 떨어지고, 많이 치다보면 틀리지 않습니까, 그런데 그런 문서원들이 앉아서 소설책 읽듯이 문서를 또박또박 읽으면 컴퓨터 화면에 내가 지금 말한대로 타이핑이 되어 나온다. 그게 얼마나 멋있습니까,

그러니까, 문서작업 속도라든지 정확도가 올라가면 그만큼 사람들에게 편리해지는 것이고, 특히 사람의 목소리를 알아듣기 시작한다면, 사람과 사람사이 소통이 기계와 사람사이에서 이뤄질 수 있고, 좀더 나아가면 기계와 기계사이에서도 이뤄질 수 있다는 것이지요.

진행자: 네 잘 알겠습니다. 북한에서 음성인식프로그램이 개발되면 될수록 소위 ‘문서원’이라고 하는 사람들의 일자리가 없어지는 결과도 생기겠군요. 오늘은 여기서 마무리 하고 다음 시간에 또 뵙겠습니다.

감사합니다.

댓글 달기

아래 양식으로 댓글을 작성해 주십시오. Comments are moderated.