"스스로 바둑 깨우친 ‘알파고 제로’ 등장…‘알파고’에 백전백승"- 헤럴드경제

- 구글 딥마인드, 과학 학술지 ‘네이처’에 발표
- 인간 한계 뛰어넘는 인공지능 이정표 기대

[헤럴드경제=정윤희 기자]인간 최고수들을 잇달아 격파한 바둑 프로그램 ‘알파고’가 무서운 속도로 진화하고 있다. 교과서나 기보는커녕 대국 상대조차 없이 순수한 독학으로 바둑을 익혔는데도, 인간 고수들과 기존 알파고 버전들을 압도하는 최신 버전 ‘알파고 제로’가 공개됐다. ‘알파고 제로’는 ‘인간의 한계를 뛰어넘는’ 인공지능(AI) 연구의 중요한 이정표가 될 것으로 기대된다.

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 19일(한국시간) 이런 내용을 포함한 ‘인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)’라는 논문을 과학 학술지 ‘네이처’에 발표했다.

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 기보 없이 스스로 바둑을 깨우친 ‘알파고 제로’를 공개했다. [사진제공=딥마인드]

‘알파고 제로’는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망에서 출발한다. 바둑판만 놓고 ‘셀프 바둑’을 두면서 스스로 바둑의 이치를 터득하는 것이다. 승률을 높이는 좋은 수가 어떤 것인지 데이터를 스스로 쌓으면서 알파고 제로가 바둑을 이해하는 수준이 점점 높아진다.

연구진에 따르면, 지난해 3월 ‘구글 딥마인드 챌린지’에서 이세돌 9단을 4대 1로 이긴 버전(알파고 리)과 비교하면 ‘알파고 제로’는 독학 36시간만에 이 버전의 실력을 넘어섰다.

또, ‘알파고 제로’가 72시간 독학을 한 후 ‘이세돌 9단 대 알파고 리’ 실전 당시와 똑같은 대국 조건(제한시간 2시간씩)에서 알파고 리와 대결한 결과, 100전 100승 무패를 기록했다. 알파고 제로가 한 수에 0.4초가 걸리는 ‘초속기’ 바둑으로 490만 판을 혼자 두면서 연구한 결과다.

‘알파고 제로’가 40일에 걸쳐 2900만 판을 혼자 둔 후에는, 올해 5월 현 세계랭킹 1위 커제 9단을 3대 0으로 꺾었던 기존 최강 버전 ‘알파고 마스터’의 실력마저 압도하게 됐다. ‘알파고 제로’는 ‘알파고 마스터’에 100전 89승 11패를 거뒀다.

알파고 제로는 독학하는 과정에서 인간이 알고 있는 정석을 스스로 깨달았을 뿐만 아니라, 독특한 정석을 개발하기도 했다.

교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 독학으로 바둑을 배운 알파고 제로가 기존 버전들보다 오히려 강한 이유에 대해 “인간 지식의 한계에 더 이상 속박되지 않기 때문”이라고 설명했다.

기존 알파고 버전들은 일부 정석 등을 인간으로부터 배웠고 인간이 둔 기보도 공부했지만, ‘알파고 제로’는 인간으로부터 전혀 배운 것이 없기 때문에 인간의 선입견과 한계에 얽매이지 않는다는 것이다.

허사비스는 “우리 프로그램 중 가장 강력한 버전인 알파고 제로는 사람이 만든 데이터를 입력하지 않아도 될 뿐 아니라 컴퓨팅 파워도 덜 든다”며 “불과 2년만에 알파고가 얼마나 멀리 왔는지를 보면 놀라울 따름”이라고 밝혔다.

yuni@heraldcorp.com

News

Special Section