ETRI, 강소형 국산 생성 언어모델 첫 공개

입력 2024-11-28 09:44:35

- 복사완료!

- 3B급 추가학습 쉬운 한국어 소형 언어모델 ‘이글’

- 연산능력 해외모델 15% 앞서, 중소·중견기업 특화

ETRI 연구진이 기계 학습이 진행 중인 언어모델 ‘이글’의 가중치 변화 양상을 설명하고 있다.[ETRI 제공]

[헤럴드경제=구본혁 기자] 국내 연구진이 한국어 중심의 신경망 기반 소형 생성 언어모델을 개발해 오픈소스로 일반에 공개했다. 대규모 언어모델을 활용할 수 없는 중소·중견기업에게 단비가 될 전망이다.

한국전자통신연구원(ETRI)은 한국어 기반 30억개 파라미터(3B)급 신경망 기반 소형 생성 언어모델(SLM), ‘이글(Eagle)’을 개발해 허깅페이스 허브에 공개했다고 밝혔다.

생성형 언어모델은 방대한 텍스트 데이터로부터 인간의 언어능력을 학습, 목적에 맞게 사용자의 질문이나 지시에 따라 자연스러운 대화나 다양한 텍스트 콘텐츠를 만들어내는 시스템이다.

생성형 언어모델에 선도적인 글로벌 빅테크 기업들은 과거 1백억~1천억 개 파라미터 규모 이상의 중대형 모델의 공개에 집중했었으나, 최근 10억~40억 개 파라미터 규모의 소형 개방형 모델을 공개하고 있다. 그러나 이러한 모델은 한국어 어휘를 음절이나 바이트 단위로 처리하기 때문에, 동일한 문장을 표현하는 데 더 많은 연산이 필요하다.

또 학습된 데이터 중 한국어 데이터가 전체의 5%에도 못 미치는 비중을 차지, 한국어 이해 및 생성 능력이 영어 등의 주요 언어에 비해 상대적으로 낮다는 한계를 드러내고 있다.

ETRI 연구진이 개발한 언어모델은 한국어 데이터 비중이 훨씬 높다. 이를 통해 연산 횟수를 줄이면서도 효율적인 학습과 추론이 가능해졌다. 특히 한국어로 주어진 숫자 연산을 수행하는 미세조정 실험에서, ETRI가 지난 4월 공개한 13억 파라미터 모델은 글로벌기업 모델의 절반 수준(50%)의 규모임에도 불구하고 특정 작업들에서 약 15% 더 높은 성능을 기록했다.

또한 국내 기업들이 공개한 기존 한국어 중심 모델은 질의응답 과업에 적합하게 조정된 기정렬 모델이라는 한계가 있다.

반면, ETRI의 공개 모델은 미세조정이 적용되지 않은 기초 모델로 제공된다. 기초 모델은 기정렬된 모델에 비해 새로운 목적의 과업에 추가 학습을 적용할 경우, 응용모델의 기대 성능이 더 높다. 학습시간도 약 20% 내외로 단축되어 더 우수한 성능을 발휘하는 장점이 있다.

ETRI 연구진이 이글을 활용해 스스로 계획과 식을 만들어 주어진 수학 문제를 해결하는 개념 증명용 데모 시스템을 설명하고 있다.[ETRI 제공]

연구진은 이 모델이 생성형 AI 응용 개발 과정에서 연산 비용 부담을 느끼는 중소·중견 기업에 적합하다고 설명했다. 기초 모델에 특화된 용도를 반영해 추가 학습을 수행함으로써, 기업 자체의 맞춤형 기초 모델을 제작할 수 있는 연장 학습이 용이하다는 점도 강조했다.

이처럼 ETRI는 해외 빅테크 기업의 기초 모델에 비해 투여되는 컴퓨팅 자원의 한계로 학습량이 부족하여 다양한 지식을 충분히 담지 못하는 단점을 극복하기 위해 노력하고 있다. 이를 위해 신경망 기초 모델이 개념 표현을 효과적으로 습득할 수 있도록 하는 추가 연구를 진행하고 있다.

ETRI는 기초 모델의 표현 품질을 예측할 수 있는 기술과, 개념 단위로 조합하여 추론할 수 있는 원천 기술도 함께 개발하고 있다.

권오욱 ETRI 언어지능연구실장은“현재 공개된 언어모델들이 풍부한 자원을 기반으로 개발되지 않아서 모든 면에서 해외 우수 모델들보다 나을 수는 없다”면서 “하지만 상대적으로 작은 한국어 토종 모델이 필요한 산학연 여러 분야의 연구개발에 큰 도움이 되길 바란다”고 말했다.

이 시각 추천 AD