ARC-AGI-2서 77.1%…GPT-5.2·클로드 오퍼스4.6 앞서 코딩·학술 추론 벤치마크도 최상위권 유료 요금제 이용자부터 순차 제공

[헤럴드경제=서지연 기자] 구글이 고급 추론 성능을 대폭 강화한 인공지능(AI) 모델 ‘제미나이3.1 프로’를 공개하며 오픈AI와 앤트로픽을 향한 추격에 다시 속도를 냈다. 복잡한 논리 문제와 학술·코딩 영역에서 경쟁 모델을 웃도는 성능을 내세워 고성능 추론형 AI 시장에서 존재감을 키우겠다는 전략이다.

19일(현지시간) 구글은 기존 ‘제미나이3 프로’의 후속 모델인 제미나이3.1 프로를 공개하고, 추론 성능이 전작 대비 두 배 이상 향상됐다고 밝혔다. 단순 질의응답을 넘어 고난도 문제 해결과 분석 작업에 활용할 수 있는 수준의 고급 추론 능력을 제공한다는 설명이다.

구글에 따르면 제미나이3.1 프로는 새로운 논리 패턴 해결 능력을 측정하는 ARC-AGI-2 벤치마크에서 77.1%를 기록했다. 전작(31.1%) 대비 두 배를 훌쩍 넘는 수치로, 오픈AI의 GPT-5.2(52.9%)와 앤트로픽의 클로드 오퍼스4.6(68.8%)도 앞섰다.

코딩 능력을 평가하는 SWE-벤치 베리파이드에서는 80.6%를 받아, 해당 지표에서 최고 수준으로 평가받아온 클로드 오퍼스4.6(80.8%)와 거의 비슷한 성과를 냈다. 학술 추론 역량을 평가하는 ‘인류의 마지막 시험’(HLE)에서도 도구를 사용하지 않은 기준으로 44.4%를 기록해 GPT-5.2(34.5%)와 오퍼스4.6(40%)를 상회했다.

구글은 제미나이3.1 프로가 복잡한 개념을 시각적으로 설명하거나 여러 데이터를 통합해 분석하는 등 실무·연구 환경에서도 활용도가 높을 것으로 기대하고 있다.

제미나이3.1 프로는 이날부터 사용할 수 있으며, 일반 소비자 대상 서비스는 우선 유료 요금제 이용자에게 제공된다. 구글은 향후 적용 범위를 단계적으로 확대할 계획이다.