[헤럴드경제(성남)=박정규 기자]가천대(총장 이길여) 컴퓨터공학전공 최창 교수 연구팀이 딥페이크를 더 빠르고 효율적으로 탐지하는 인공지능(AI) 기술을 개발했다. 이번 연구는 연유성 석사과정생과, 윤준호 박사과정생이 공동 제1저자로 참여했으며, 최창 교수가 교신저자를 맡았다.

연구 결과는 세계 최대 전기·전자 분야 학술단체인 IEEE가 발간하는 국제학술지 ‘IEEE Transactions on Consumer Electronics(Impact Factor 10.9, 상위 2.9%)’에 지난달 23일 게재됐다.

딥페이크는 사람의 얼굴이나 음성을 인공지능으로 정교하게 합성한 가짜 영상이다. 이를 잡아내기 위해서는 영상(비디오)과 음성(오디오)을 함께 분석해야 한다. 문제는 입력 데이터가 많아질수록 모든 정보를 일일이 계산해야 해 연산량이 급증하고, 처리 속도가 느려지는 한계가 있었다. 특히 CCTV와 같이 실시간 분석이 필요한 환경에서는 이러한 속도 문제가 큰 제약으로 작용해 왔다.

이에 연구팀은 ‘MSG(Multimodal Semantic-Similarity Gate)’라는 새로운 구조를 제안했다. 이 구조는 먼저 영상과 음성 간 의미 유사도를 계산한 뒤, 그 결과에 따라 연산 방식을 달리 적용하는 방식이다.

Front-Stage(연산 방식을 결정하는 단계)에서는 두 모달리티 간 의미 유사도를 산출해 처리 경로를 결정하고, Back-Stage(선택된 방식으로 실제 계산을 수행하는 단계)에서는 선택된 경로에 따라 어텐션 방식을 적용한다. 의미 유사도가 낮을 경우에는 모든 상호작용을 유지하는 하드 어텐션을 적용해 정밀하게 분석하고, 유사도가 높을 경우에는 비슷한 정보를 묶어 요약한 소프트 어텐션을 적용해 중복 계산을 줄인다. 즉, 영상과 음성의 의미가 얼마나 일치하는지에 따라 필요한 경우에만 정밀 연산을 수행하도록 설계한 것이다.

연구팀 실험 결과, 정확도는 거의 유지하면서 연산량은 최대 28% 감소했고, 처리 속도는 최대 41% 향상된 것으로 나타났다. 성능 저하 없이 딥페이크를 더욱 빠르게 탐지할 수 있음을 확인했다.

이 기술은 CCTV 모니터링, 출입 통제 시스템, 모바일 얼굴 인증, 온라인 신원 확인처럼 빠른 판단이 중요한 보안 환경에 활용될 수 있다.

최창 교수는 “입력 정보를 줄이지 않으면서도, 필요한 경우에만 연산을 집중하도록 설계한 것이 핵심”이라고 말했다. 이어 “연구팀은 이미 딥페이크 파운데이션 모델(TMI-Former, Information Fusion IF 15.5, 상위 1.7%)을 보유하고 있으며, 멀티모달 파운데이션 모델도 지속적으로 고도화할 계획”이라며 “실시간 보안·인증 기술 발전에 기여할 수 있을 것”이라고 덧붙였다.