2021.12.01(수)

  • 흐림동두천 0.1℃
  • 구름조금강릉 5.0℃
  • 구름많음서울 1.1℃
  • 흐림대전 3.4℃
  • 구름많음대구 5.7℃
  • 맑음울산 6.7℃
  • 광주 4.9℃
  • 맑음부산 6.4℃
  • 흐림고창 5.8℃
  • 제주 8.0℃
  • 구름많음강화 1.4℃
  • 구름많음보은 0.9℃
  • 구름많음금산 3.0℃
  • 구름많음강진군 6.3℃
  • 구름많음경주시 5.6℃
  • 구름조금거제 6.8℃
기상청 제공

정치/행정

김승원 의원 “국어 빅데이터 미국 1/100, 일본 절반 수준.. 구축속도 높여야”

모두의 말뭉치 사업, 접근성 연동성 향상시켜야
일본의 절반 수준, 어절 구축에도 박차를 가해야


(중앙뉴스타임스 = 방재영 기자) 국회 문화체육관광위원회 김승원 의원(더불어민주당, 수원시갑)이 19일 진행된 국정감사에서 ‘모두의 말뭉치’의 접근성과 연동성을 향상시키고, 어절 확보를 보다 신속히 진행해야 한다고 밝혔다.


국립국어원 소관 ‘모두의 말뭉치’ 사업은 4차 산업혁명과 AI사업 기반 마련을 위해 국어(언어) 빅데이터를 구축하는 사업이다. 지난 2018년부터 올해까지 해당 사업에 총 303억원의 예산이 투입되어 10월 기준으로  20.6억 어절을 구축했다. 

우리나라는 지난 1998년부터 10여년 동안 21세기 세종계획 전문용어 정비사업을 진행해 2억 어절의 말뭉치를 구축한 바 있다. 당시 기준으로는 전 세계 상위권에 해당했으나, 이후 10년간 사업이 중단되면서 공백이 발생했다.

김 의원에 따르면, 2018년 기준 미국은 2000억 어절, 중국은 800억 어절, 일본은 40억 어절을 확보한 것으로 나타났다. 반면, 현재 모두의 말뭉치에 구축되어 있는 어절은 20.6억 어절로 미국의 100분의 1 수준, 일본의 절반 가량인 상황이다. 이에 김 의원은 “말뭉치 구축 사업이 인공지능을 포함한 4차 산업혁명 전반의 필수적 요소인 만큼, 어절 확보에 속도를 높여 국제적 경쟁력을 확보해야 한다”라고 지적했다.

한편, 올해초 일부 말뭉치 유형에서 비속어 등의 부적절한 표현이 발견돼 서비스를 일부 중단하는 등 논란이 되기도 했다. 김 의원은 “인센티브를 제공할 수 있는  AI가이드라인을 마련하거나 정부-민간-학계 차원에서의 거버넌스 체계를 구축하는 등 정부가 앞장서 AI윤리성 확보를 위해 노력해야 한다”라고 말했다.

마지막으로 김승원 의원은 “미국의 경우 질병통제예방센터(CDC)에만 접속해도 수 천만건의 데이터가 편리하게 사용가능하도록 구축되어 있으나, 국내 공공데이터포털의 경우 상대적으로 뒤쳐지는 상황”이라며, “공공데이터 구축이 4차 산업혁명의 미래를 결정하는 만큼, 말뭉치 구축 속도를 높이고 공공데이터로써 접근성과 연동성을 향상시켜야 한다”라고 마무리했다.