"[헤럴드광장] AI 학습데이터 품질검증과 산업의 미래"- 헤럴드경제

[123RF]

인공지능(AI)은 데이터를 통해 성장한다. 프로그래머가 설정한 규칙에 따라 동작하는 과거의 규칙 기반 인공지능과 달리 현재 인공지능산업과 서비스의 폭발적인 성장을 이끌고 있는 기계학습 인공지능은 데이터를 학습해 최적의 규칙을 찾아낸다. 데이터 학습 및 규칙 생성을 위한 알고리즘은 계속 발전하고 고도화하고 있다. 하지만 데이터가 필요하다는 점에는 차이가 없다. 정교하게 설계된 인공지능 알고리즘도 데이터를 통한 학습 없이 제대로 동작할 수 없다. 데이터는 인공지능 시대의 원유(原油)다.

인공지능 서비스를 위한 데이터는 양(Quantity)과 질(Quality), 두 가지 측면에서 고려가 필요하다. 우선 일정 수준 이상의 데이터 양이 확보돼야 한다. 데이터 양이 적으면 인공지능이 정상적으로 동작하기 위한 학습이 충분히 이뤄질 수 없다. 컴퓨터 단층촬영(CT) 영상을 분석해 병변이나 질환 유무 및 내용을 판독하는 의료영상 인공지능은 영상과 그에 대응하는 병변 및 질환 데이터를 최대한 학습해야 한다. 이를 통해 학습하지 않은 새로운 영상을 기초로 의학적으로 가장 가능성이 큰 병변과 질환의 내용을 제시할 수 있다. 제한적인 분량의 영상, 병변 및 질환만 학습했다면 새로운 영상에 대응하기 어렵다.

데이터의 양만큼 중요한 것이 그 품질이다. 아무리 많은 양의 데이터가 주어진다 하더라도 그 데이터가 부정확하거나 정확한 현실을 반영하지 못한다면 이는 인공지능 동작에 치명적일 수 있다. 앞서 언급한 의료영상 판독 인공지능을 잘못 진단된 영상 및 병변, 질환 데이터를 통해 학습시킨다면 새로운 영상정보에 대해서 정확하고 신뢰할 수 있는 결과물을 제공하기 어렵다. 이러한 잘못된 데이터들은 오히려 인공지능의 성능을 저해한다.

데이터 품질은 정확성만 의미하는 것은 아니다. 데이터의 최신성, 정합성, 대표성 및 편향성의 이슈도 있다. 어떠한 데이터가 과거에는 정확했을 수 있으나 그 이후에 변경되거나 발견된 사항으로 보완이 필요할 수 있다(최신성). 데이터 자체에 문제는 없지만 해당 인공지능 서비스가 염두에 두고 있는 사안과 관련성이 낮거나 없는 경우 그러한 데이터의 학습은 인공지능 결과물을 왜곡할 수도 있다(정합성). 데이터가 해당 서비스와 관련되고 최신의 데이터라고 하더라도 현실에서는 매우 이례적이거나 예외적인 사례에 불과한 경우도 있다(대표성 및 편향성). 그러한 데이터가 다른 통상적인 사례를 대변하는 데이터와 동일한 중요도(가중치)로 학습에 투입된다면 이를 통상의 데이터로 전제하고 학습한 인공지능이 적절한 결과물을 산출하기 어렵다.

불필요하거나 과도하거나 민감한 데이터 학습도 데이터 품질의 중요한 요소 중 하나다.

예를 들어 특정 개인의 민감한 개인정보(개인정보 보호법상 민감 정보인 생체인식정보, 건강정보 등)나 특정 개인을 고유하게 구별할 수 있는 공적인 식별정보(개인정보 보호법상 고유 식별정보인 주민등록번호, 여권번호 등) 등이 해당 인공지능 서비스 학습데이터에 활용돼 최종 결과물에 포함돼 외부로 공개되는 경우다. 대법원은 이미 정보 주체의 의사에 따라 누구나 접근할 수 있는 공개된 개인정보는 그 정보 주체의 별도 동의 없이 활용하더라도 정보 주체의 개인정보 자기결정권을 침해하지 않는다고 판단한 바 있다(대법원 2014다235080 판결).

하지만 데이터에 대한 엄밀한 검수 및 통제가 어려운, 공개된 막대한 양의 데이터를 학습해 동작하는 초거대 인공지능에서 개인정보 보호는 여전히 뜨거운 감자다.

인공지능 데이터의 품질 확보는 현재 인공지능 서비스에 있어 핵심적으로 논의되고 있는 인공지능 윤리 이슈와 직접 연결된다. 정부가 2020년 발표한 인공지능 윤리 기준은 인공지능 서비스에 있어 인간의 존엄성, 사회의 공공선 및 기술의 합목적성을 달성하기 위해 인공지능 서비스에서 인권 보장, 프라이버시 보호, 다양성 존중, 침해 금지, 공공성, 연대성, 데이터관리, 책임성 및 투명성의 10가지 요건을 제시했다. 데이터 품질은 대부분의 요건에 직접적인 영향을 미친다. 현실을 균형 있게 대변하지 않고 특정 집단이나 지역에 편향된 학습데이터는 인공지능의 공공성, 다양성 및 연대성을 저해한다. 민감한 개인 데이터의 과도한 활용은 프라이버시와 데이터관리 문제로 연결된다.

인공지능 데이터 품질을 어떻게 확보할지는 현재 인공지능 분야의 가장 중요한 이슈 중 하나다. 데이터 품질을 검증하기 위한 다양한 방법론과 기술적·관리적 조치가 제시되고 있지만 뾰족한 정답은 없다.

인공지능 서비스가 더 확대되고 데이터의 양적·질적 요구가 커질수록 이러한 데이터 품질의 이슈는 계속해서 문제가 될 가능성이 크다. 데이터 품질 확보에 인공지능산업의 미래가 있다.

노태영 김앤장 법률사무소 변호사

jakmeen@heraldcorp.com

News

Special Section