• 페이스북
  • 트위터
  • 카카오스토리
  • IT.전자.통신
  • “경상돈데”라고 말해도 척척…구어체 알아듣는 AI 나왔다

  • -ETRI 구어체 언어 분석 API 공개
  • 기사입력 2020-08-06 11:07
    • 프린트
    • 메일
    • 크게
    • 작게
  • 페이스북
  • 트위터
  • 카카오스토리
ETRI 연구진이 엑소브레인 연구를 진행하는 모습 [ETRI 제공]

[헤럴드경제=정태일 기자]‘국민은행’을 고유 기업명으로 인식하고 '경상돈데'처럼 축약 표현까지 이해하는 AI(인공지능) 기술이 개발됐다.

한국전자통신연구원(ETRI)은 자체 개발한 언어 인공지능 '엑소브레인'(Exobrain)의 구어체 언어 분석 API(응용프로그램 개발 위한 도구)를 공개했다고 6일 밝혔다.

위키백과나 법령 등 문어체를 주로 이해하는 기존 문어체 분석 기술에 구어체까지 학습하도록 해 사람의 대화를 분석할 때 나타나는 오류를 최대 41%까지 줄였다.

특히 한국어 의미의 최소 단위를 분석하는 형태소 분석 기술과 개체명 인식 기술이 적용됐다.

개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술이다. 예를 들어 '국민은행'이라는 단어가 명사 '국민'과 '은행'의 결합이 아닌 은행의 고유 명칭이라는 점을 인식하는 기술이다.

또 '경상돈데'라는 구어체의 경우 기존 기술은 축약 표현을 인식하지 못해 '경상돈+데'라고 분석했지만, 형태소 분석 기술을 이용해 '경상도+인데'로 분석할 수 있다.

구어체 언어 분석 기술은 과업 자체의 난도도 높지만, 학습데이터가 부족해 어려움이 있다고 연구원은 설명했다. 기계학습과 딥러닝 기술은 대규모 학습데이터가 필요하나 구어체 분야는 데이터 확보조차 쉽지 않기 때문이다.

실제 개체명 인식 학습 데이터의 경우 문어체는 약 27만 건에 달하지만, 구어체는 10분의 1 수준인 2만5000 건에 불과하다.

이번 기술 개발로 구어체 분석 API는 기존 문어체 분석 API와 비교해 형태소 분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선된 것으로 나타났다.

분석 오류도 각각 41.7%, 39.4% 감소했다.

연구팀은 기존 대비 성능을 개선한 문어체 언어 분석 API도 추가로 공개했다. 문어체 언어 분석 API의 형태소 분석과 개체명 인식 기술은 각각 96.8%, 89.4%의 높은 정확도를 보였다.

임준호 ETRI 책임연구원은 "2017년 10월 엑소브레인 언어 분석 API를 공개한 이래 사용 건수가 2600만 건에 이를 정도로 학계와 연구자들 사이에서 널리 사용되고 있다"며 "이번에 신규공개한 언어분석 API는 사람의 대화까지 정확하게 이해할 수 있어 AI 비서, 챗봇 등 언어지능 서비스 개발에 기여할 것"이라고 말했다.

killpass@heraldcorp.com

포토슬라이드
  • '지지 하디드의 섹시 패션'
    '지지 하디드의 섹시 패션'
  • ‘2019 맥스큐 머슬마니아 피트니스 코리아 챔피언십’
    ‘2019 맥스큐 머슬마니아 피트니스 코리아 챔피언십’
  • 'sexy back'
    'sexy back'
  • '이걸 테이프로 만들었다고?'
    '이걸 테이프로 만들었다고?'
핫 클릭