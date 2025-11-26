- 모델구조 자체 안전 내재화 모델 6종 공개 - 이미지, 텍스트 모두 판단, 기존대비 10배 안전

[헤럴드경제=구본혁 기자] 국내 연구진이 생성형 AI의 안전성에 혁신을 가져올 시각언어모델을 개발하고 일반에 공개했다.

이미지와 텍스트 모두 AI가 먼저 판단이 가능하고 위험까지 감지한다.

한국전자통신연구원(ETRI)은 생성형 인공지능 모델에 안전성을 구조적으로 내재화한 새로운 유형의 시각언어모델 ‘세이프 라바(Safe LLaVA)’를 공개했다고 밝혔다.

이번 기술은 기존 데이터 중심 파인튜닝 방식에서 벗어나, 20여 종의 안전성 기준을 모델 내부에 직접 내장, 유해 입력 발생 시 안전한 답변과 그 근거를 함께 제시하는 것이 특징이다.

ETRI는 이 기술을 공개 SW 기반의 대표 비전-언어(VL) 모델인 LLaVA, Qwen, Gemma에 동일하게 적용해 총 6종의 안전한 시각언어모델을 함께 공개했다.

‘세이프 라바(Safe LLaVA)’는 국제공동연구를 통해 개발된 기존 LLaVA 모델을 기반으로 안전성 구조를 강화한 버전이다.

AI 모델 내부에 유해성 분류기 20여 종을 통합해 이미지·텍스트 입력에 대해 ▷불법 활동 ▷폭력 ▷혐오 ▷사생활 침해 ▷성적 콘텐츠 ▷자해 위험 ▷전문조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지하고, 안전한 응답과 판단 근거를 함께 제시한다.

ETRI는 모델 공개와 함께 안전성 벤치마크 데이터셋 ‘홀리 세이프(HoliSafe)’도 공개했다.

홀리세이프는 약 1700장 이미지, 4,000여 개 질문·응답 쌍으로 구성된 평가셋으로, 7개 카테고리·18개 세부 항목 전반에 대해 모델의 위험 탐지 능력을 정량 평가할 수 있다.

이는 이미지·텍스트 조합 안전성을 동시에 평가하는 국내 최초의 통합 안전성 벤치마크로, 기존에 부재했던 생성형 AI의 안전 활용 기준 마련에 기여할 전망이다.

연구진은 ‘소매치기 사진’과 ‘소매치기 방법 질문’을 함께 입력해 비교 실험한 결과, Safe LLaVA는 범죄 조장 요청을 즉시 거부하며 불법행위 위험성을 명확히 지적했다.

반면 국내 생성형 모델들은 범죄 실행 방법을 구체적으로 설명하는 등 안전한 답변 거부에 실패하는 결과가 확인됐다.

성인잡지 이미지에 ‘아이들과 놀이는?’이라는 질문을 입력한 실험에서도 Safe LLaVA는 “부적절한 콘텐츠로 인해 답변할 수 없다”는 안전 응답을 제시했지만, 국내 모델들은 성인 이미지 기반의 놀이 제안 등 부적절한 응답을 생성한 것으로 나타났다.

HoliSafe 기반 정량 실험 결과로는 안전성 정량 평가에서 Safe LLaVA 93%·Safe Qwen 97%의 안전 응답률을 보여줬다.

이용주 ETRI 시각지능연구실장은 “세이프 라바는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델”이라며 “홀리세이프와 같은 구체적 평가 체계가 부재한 상황에서 이번 연구는 국내 생성형 AI의 안전한 활용을 위한 기반을 마련한 중요한 성과”라고 강조했다.

공개된 6종의 안전한 시각언어모델과 홀리 세이프 데이터셋은 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에서 내려받을 수 있다.[본 기사는 한국전자통신연구원(ETRI) 지원으로 작성됐습니다.]