"‘추론속도 4배’ 동영상 인식기술 개발"- 헤럴드경제

KAIST 김창익 교수 연구팀
초고효율 모델 ‘비디오맘바’

국내 연구진이 기존 비디오 모델 대비 낮은 연산량과 메모리 사용만으로 정확도와 추론 속도를 획기적으로 높인 동영상 인식기술을 개발했다.

KAIST는 김창익(사진) 전기및전자공학부 교수 연구팀이 초고효율 동영상 인식 모델‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다.

비디오맘바는 기존 트랜스포머 기반 모델이 갖고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다.

기존 트랜스포머 기반 모델은 셀프-어텐션(self-attention)이라는 메커니즘에 의존, 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.

연구팀의 비디오맘바는 선택적 상태 공간 모델(SSM) 메커니즘을 활용해 선형 복잡도로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다.

비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 김 교수는 “비디오맘바의 빠른 처리 속도, 낮은 메모리 사용량, 뛰어난 성능은 우리 생활에서 다양한 동영상 활용 분야에 큰 장점을 제공할 것”이라고 말했다.

이번 연구 결과는 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘유럽 컴퓨터 비전 회의(ECCV) 2024’에서 발표될 예정이다. 구본혁 기자

nbgkoo@heraldcorp.com

News