기후위기시계
실시간 뉴스
  • 가짜 인공지능? 수기 100% 명함관리 앱, 반쪽 챗봇ㆍ음성비서
-한글, 영어 대비 인식률 떨어져…부족한 데이터 탓

[헤럴드경제=이민경 기자] #직장인 김 모 씨(33)는 명함을 사진 찍어 올리면 자동으로 전화번호와 이메일이 휴대전화 연락처에 저장되는 R 명함관리 애플리케이션(앱)을 애용한다. 직접 입력하기엔 매일 모이는 명함의 양이 부담스럽기 때문이다. 그는 “신기하게 명함마다 글자 배치가 제각각인데도 직급과 이름을 알아서 구분한다”고 평했다.

하지만 이 명함관리 앱은 자동으로 명함 속 문자를 인식한 것이 아닌, 업체에서 고용한 사람들이 수기로 타이핑하는 방식으로 구동된다. 김 씨는 “생각지도 못했다. 당연히 자동화된 서비스인 줄 알았다”고 말했다.

물론, 기술이 없는 것은 아니다. 광학문자인식(Optical character recognitionㆍOCR)이란 기술이 사진ㆍpdf 내의 문자와 사람 손 글씨 등을 이미지 스캐너로 읽어 기계가 읽을 수 있는 문자로 변환해준다. 이 기술은 상용화되어 쓰이고 있지만 한글은 영어에 비해 상대적으로 낮은 인식률과 높은 오독률의 한계가 있다. R 앱 서비스업체도 이런 이유로 아르바이트를 쓴다며 “기존 OCR 기반 명함관리 앱과 달리 인식오류가 거의 없다”고 홍보한다.

챗봇(chatbot)도 아직 미성숙한 기술이다. 온라인 쇼핑몰 등 커머스 영역에서 24시간 상담업무를 가능하게 만든 챗봇은 점차 적용되는 영역을 넓혀가고 있다. 하지만 현존하는 챗봇은 대부분 닫힌 질문형을 채택한다. ‘닫힌 질문형’이란 챗봇을 프로그램 할 때 예상되는 질문과 그에 대한 답변을 사람이 기획해서 기계에 입력시켜 놓는 방식이다. 챗봇 스스로 입력된 질문을 즉석에서 이해하고 자유롭게 답변을 구성할 수 없다.

챗봇이나 음성비서가 실제 사람과 동일하게 대화를 하게 될 시점은 까마득하다. 사실 인공지능(AI)은 스스로 ‘사고’를 할 수 있는 진짜 ‘지능’을 갖춘 것이 아니라 마치 지능이 있는 것처럼 작동하는 존재다. 수많은 패턴을 학습해 가장 확률이 높은 결과를 내놓을 뿐이다. 현존하는 최고 AI인 알파고가 약 10의 300 제곱 경우의 수를 처리한다면, 사람의 대화 패턴은 이보다 훨씬 복잡하다. 1초의 음성이 이론상 가질 수 있는 패턴은 10의 21만 제곱으로 알려져있다. 챗봇과 음성비서가 자주 ‘동문서답’을 하거나 ‘무슨 말인지 모르겠습니다’라고 대답하는 까닭이다.

음성인식 AI 스피커들은 사람이 먼 거리에서 말을 거는 일이 많아 정확도가 떨어지는 약점도 갖고 있다. 김지환 서강대학교 컴퓨터공학과 교수는 “애플의 시리(Siri)나 삼성의 빅스비(Bixby)처럼 30cm가량 근접거리에서 말할 때보다 3m 이상 떨어진 거리에서 AI스피커에 말을 걸 때 음압이 1/100 수준으로 감소해 음성인식 정확도가 떨어진다”고 설명했다.

전문가들은 이러한 발전 지체의 원인으로 자연어처리 기술에서 한글 말뭉치의 양이 절대적으로 부족한 점을 꼽는다. 자연어 처리란, 인공지능이 인간의 언어를 인식해 메시지를 분석하고 다시 답변을 내놓으려 할 때 필수적인 기술이다. 한글 말뭉치는 한글 어휘가 저장된 방대한 데이터베이스에 해당한다. 말뭉치 개발 비용은 민간이 감당하기 어려운 수준이라 공공영역이 나서야 한다. 하지만, 국립국어원의 세종 말뭉치 사업은 2007년에 끊겨 10년 동안 공백기였다.

이제 10년 만에 다시 개발 사업이 시작된다. 소강춘 국립국어원장은 지난 6일 “누구나 이용 가능한 국가 공공재 성격의 대규모 국어 말뭉치를 구축, 내년에 우선 제공할 방침”이라고 밝혔다. 정부는 204억원의 예산을 들여 기존 세종말뭉치 2억 어절에 신규로 8억 어절을 구축하기로 했다. 인공지능과 언어처리 산업에 필요한 기초자료로 제공하겠다고 밝힌 바 있다.
think@heraldcorp.com
맞춤 정보
    당신을 위한 추천 정보
      많이 본 정보
      오늘의 인기정보
        이슈 & 토픽
          비즈 링크