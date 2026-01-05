AI 평가 플랫폼 AAII 등재, 중소형 모델 중 최고점 에이전트 성능 정상…‘에이전틱 AI’ 설루션 제시 B2B 시장, ‘한국적인 AI’ 기업 AX 혁신 가속화

[헤럴드경제=고재우 기자] KT는 자체 개발한 AI 모델 ‘믿:음 K’가 글로벌 인공지능(AI) 모델 성능을 종합 평가하는 플랫폼 ‘AAII’에서 국내 중소형 모델 중 1위를 달성했다고 5일 밝혔다. 이번 성과를 바탕으로 KT는 국내 기업간거래(B2B) 시장 공략에 박차를 가할 방침이다.

AAII는 AI 평가 전문 기관인 아티피셜 애널리시스(Artificial Analysis)가 운영하는 글로벌 평가 플랫폼이다. 전 세계 주요 AI 모델의 성능을 다수의 공개 벤치마크 결과를 종합해 객관적이고 신뢰성 있는 AI 모델 정보를 제공한다.

믿:음 K는 추론, 전문 지식, 수학·프로그래밍, 에이전트 수행 능력 등 10여 개 핵심 평가 항목에서 전반적으로 우수한 점수를 기록했다. 믿:음 K가 목표를 이해한 뒤 필요한 시스템이나 도구를 스스로 활용해 과업을 완수하는 ‘에이전틱 AI’로서 경쟁력을 갖췄음을 입증한 것이란 게 KT 설명이다.

세부적으로 믿:음 K는 주요 에이전트 성능 벤치마크 중 하나인 ‘타우 스퀘어 벤치(τ²-bench)’에서 87%를 기록했다. 구글 최신 모델인 제미나이 3와 비슷한 수준이다. τ²-bench는 AI가 실제 업무 환경에서 사람과 협업하며 여러 도구를 활용해 과업을 끝까지 수행할 수 있는지를 평가하는 에이전트 특화 벤치마크다.

또 에이전틱 지표 외에도 전문 지식과 고난도 추론 능력을 평가하는 MMLU Pro, GPQA, HLE 등 주요 벤치마크에서도 우수한 성적을 받았다.

특히 매개변수 40B이하급 모델에서 구현됐다는 점에서 더욱 괄목할 만하다는 게 KT 주장이다. 대규모 그래픽처리장치(GPU) 인프라 부담을 줄이면서 효율성을 높였다. 이에 더해 사용자의 지시를 정확히 이해하는 ‘지시 이행 능력’과 한국 고유의 사회적 맥락을 이해하는 ‘한국 특화 성능’까지 확보했다.

KT는 모델 설계부터 학습 데이터의 구축까지 전 과정을 ‘프롬 스크래치’ 방식으로 수행했다. 이를 통해 가장 ‘한국적인 AI’를 내놨다는 자평이다.

KT는 B2B 맞춤형 AI를 통해 시장 공략에 박차를 가할 방침이다. 궁극적으로 금융·공공·제조 등 산업별로 기업의 실제 업무를 자동화하고, 스스로 판단해 처리하는 맞춤형 AI 에이전트를 제공해 기업 고객의 AI 전환(AX)을 선도하겠다는 전략이다.

오승필 KT 기술혁신부문장은 “이번 AAII 등재는 KT의 자체 AI 기술력이 글로벌 기준에 도달했음을 객관적으로 입증한 성과”라며 “에이전틱 AI를 통해 한국 기업들의 업무 혁신과 디지털 전환을 이끄는 최고의 AI 파트너가 되겠다”고 말했다.