"ETRI, 초고속 생성형 시각AI 개발"- 헤럴드경제

토종AI, 문장입력 2초내 영상 생성
기존 대비 5배 빠른 ‘코알라’ 3종
대화형 ‘코라바’ 2종, 속도·크기 개선

한국전자통신연구원(ETRI) 연구팀이 문장을 입력해 이미지를 만드는 코알라(KOALA) 모델을 시연하고 있다. [한국전자통신연구원 제공]

국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장 입력 시 2초 만에 이미지를 만드는 기술을 개발했다.

한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는데 기존 대비 5배 빠른 ‘코알라(KOALA)’ 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종, 총 5종 모델을 일반에 공개했다고 29일 밝혔다.

코알라 모델은 기존 공개 SW 모델의 25억개(2.56B) 파라미터(뇌의 신경세포 접합부인 시냅스에 해당하는 역할)를 지식 증류 기법을 적용, 획기적으로 7억개(700M)로 줄였다.

파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다. ETRI 연구팀은 모델 크기를 3분의 1로 축소했고, 고해상도 이미지를 기존 대비 2배, 달리(DALL-E) 3 대비 5배 가량 빠르게 개선했다.

ETRI는 모델 생성 속도를 2초 내외로 만들고 모델의 크기도 대폭 줄여, 최근 문장(텍스트)에서 이미지를 만드는 국내외 경쟁 속에서 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다고 밝혔다.

ETRI에서 자체 개발한 파라미터별 코알라 3종 모델은 허깅페이스(HuggingFace) 환경에서 공개됐다.연구팀이 “달 아래 화성에서 책을 읽고 있는 우주비행사의 사진”이라는 문장을 입력하자, ETRI가 만든 코알라는 1.6초 만에 이미지를 뚝딱 만들어 냈다. 칼로(카카오브레인)는 3.8초, 달리 2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸렸다.

ETRI는 기존 공개 SW인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로(Karlo), 달리(DALL-E) 2, 달리(DALL-E) 3의 4종을 포함, 총 9개 모델을 직접 비교 체험해 볼 수 있는 사이트와 모델 제공 사이트를 만들어 공개했다.

연구진은 또한 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관하여 질의응답할 수 있는 대화형 시각언어모델인 코라바(Ko-LLaVA) 모델도 함께 공개했다.

ETRI는 이 기술을 일반에 공개한 뒤 이미지 생성 서비스, 창작교육 서비스, 콘텐츠 제작과 사업자 등에 기술이전할 계획이다.

이용주 ETRI 시각지능연구실장은 “향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획”이라며 “글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 것”이라고 말했다.

구본혁 기자

nbgkoo@heraldcorp.com

News

Special Section