![A visitor participates in ‘AI Dream’, an artificial intelligence (AI) immersive experience project, at Shanghai Tower on April 12, 2024 in Shanghai, China. The project allows participants to follow a virtual character ‘AiAi’ in performing tasks such as solving the energy crisis and protecting the environment. [Getty Images]](https://wimg.heraldcorp.com/news/cms/2025/01/13/news-p.v1.20250108.b1ff27e5992f4e7cbe5db9ee69954d95_P1.jpg)

I was first asked what my p(doom) was on a podcast in 2022. For those unfamiliar with the phrase, p(doom) is a question asked of artificial intelligence (AI) experts to estimate their probability (p) of AI leading to catastrophic outcomes (or “doom”), such as human extinction or similarly severe and permanent disempowerment of humanity.
At the time, I thought the concept was a joke (and I still do), but if we are to believe what we read in the media, AI will kill us all - possibly in ten years, perhaps fifty, maybe even in the next five. These predictions come from some of the richest, most powerful men leading the organizations that build these technologies, and others from decorated scientists. And yet, none of these individuals can describe exactly how, by which mechanism, or under what testing circumstances, they’ve arrived at their predictions. Vague hand-waving, combined with generous anthropormorphism has led to headlines proclaiming AI “lies” to “manipulate” users, leading us to believe that somehow AI is simply waiting to become sentient and will then proceed to dominate us. These claims are often backed by self-conducted evaluations that establish unrealistic scenarios and lead to cherry-picked ‘evidence.’
Absent scientific rigor, the field of AI Evaluations is simply a vehicle for promoting individual opinions. This problem is deeper than diverting attention, funding, talent, and resources towards problems that may or may not exist. The fundamental issue is that, collectively, we are participating in the ongoing assault against scientific decision-making. The scientific process serves as a common shared language amongst scientists - you can think of it as the ‘rules of the game’ - and the game does not work if we do not play by the rules. In a sport this can mean disagreement on who won a match, discrediting an organization, team, or individual, or even a loss of interest in the sport itself - think of the impact ongoing doping scandals have had on men’s cycling.
With AI, the stakes are significantly higher, and yet this fundamental problem continues to go unaddressed. Absent this common shared language and ground rules, we cannot believe or trust the evaluations we read. My profession has enabled me to audit, evaluate, and assess models for many years. While the slippery language between AI, machine learning (ML), and now Generative AI often conflates these approaches, there are fundamental differences in their mathematical and programmatic construction. ML models are statistical, deterministic models - that is, the mathematical underpinnings and mechanisms for testing these models are aligned to fields of study that have existed for many years. Generative AI models, however, are not constructed the same way, and the traditional mechanisms for statistical evaluation do not apply in many cases, in part because the output of these models is probabilistic.
As a result, newer methods are being explored - the term ‘red-teaming’ has become quite popular in test and evaluation communities, as has the concept of ‘benchmarking’. While these terms are not new, their application as a test and evaluation mechanism for genAI models, is. Red-teaming in its modern iteration is drawn from cybersecurity, where teams of experts attempt to infiltrate software by maliciously violating the law and/or terms of service. Benchmarking, widely used in many fields, provides a common shared test mechanism to provide a performance score across many models. The similarities fade beyond that.
To understand what a more scientific process might look like for generative AI evaluations, we must first understand where current evaluations fall short. At some point in most of our elementary science education, we are introduced to the principles that inform the scientific method. These are the rules for science that have been established over many decades and consist of: empiricism (data-gathering), objectivity, falsifiability, reproducibility, and systematic and iterative approaches. In more advanced scientific analysis, further evaluation is required to establish validity (the accuracy of a test in measuring the intended concept) and robustness (the consistency of test results under varying conditions).
The current state of AI evaluation falls short in several ways when considered through the lens of basic scientific principles. In fact, there are few of these fundamental principles that do align with the current state of AI evaluations. First, due to the probabilistic nature of these models, falsifiability and reproducibility are nearly impossible. To put it differently, generative AI models do not provide the same output when provided with identical input and any generative AI model can be manipulated enough to produce nearly any desired output.
In addition, the majority of testing focuses on model-level, not systems-level testing, which puts their validity and robustness into question. For example, creating hermetically-sealed environments where one asks hypothetical questions of whether AI models will set off nuclear weapons does not actually inform us as to whether a real-world AI system would be provided the access and ability to set off a nuclear weapon, thus bypassing layers upon layers of physical, digital, and human security and decision-making mechanisms. Similarly, it’s unclear what the real-world implication is of an image generation AI model that makes only pictures of white men when prompted with “CEO” - we can appreciate that this is biased to status quo but we aren’t quite sure how this impacts decision making or beliefs as an AI system is deployed in the real world. Absent this understanding, we cannot make useful interventions.
![A person works at a computer with an illustrative image generated by artificial intelligence on the screen, showing code from various programming languages and a neural network diagram. [Getty Images]](https://wimg.heraldcorp.com/news/cms/2025/01/13/news-p.v1.20250108.0e85a5d7d71b4d86ba6ea7356fcdb940_P1.jpg)
Finally, most of these tests are conducted on proprietary models and datasets at the organizations building them with little access for external scrutiny to methods, data, or approaches. In addition, the field does not even have common approaches to conducting evaluations such as red-teaming or benchmarking. This calls into question the fundamental empiricism, objectivity, and systematic construct of AI evals. As a result, we borrow the language of science to perform acts of ideological persuasion and policy.
There is a solution. Metrology is the science of measurement, encompassing both experimental and theoretical determinations at all levels of uncertainty in any field of science and technology. Narrowly defined, metrology is about establishing units of measurement, but in the context of AI it can be more broadly used to align AI evaluation to ‘scientific principles.’ Metrology translates across, science, law, and industry, and provides a bridge between scientific discovery and real-world implementation. In many scientific and social science fields, metrology and quantitative methods are separate fields from evaluation, and these experts focus on creating test and evaluation mechanisms that uphold scientific principles. Today, many organizations that conduct AI evaluations also create these evaluation methods in the process - including my nonprofit, Humane Intelligence. Few, if any, are afforded the luxury and objectivity of being engaged in the development of methods and approaches. This distinct field within AI can and should be established by an ecosystem of actors - civil society, academia, industry, and government - to maintain diverse perspectives and approaches.
By establishing shared methodologies, standards, and principles, we can move beyond speculative doom-mongering and ideological posturing towards open and active inquiry. We can build a foundation for truly understanding and responsibly developing AI systems. Moreover, the integrity of the scientific process itself is at stake. If we allow AI evaluations to masquerade as science without adhering to scientific principles, it erodes public trust in both the technology and in science more broadly. At a time when scientific expertise is already under attack on many fronts, the AI community has a responsibility to uphold rigorous standards.
Rumman Chowdhury is a data scientist and social scientist. also Responsible AI Fellow at Harvard University’s Berkman Klein Center for Internet and Society. Previously, Dr. Chowdhury was the Director of the ML Ethics, Transparency, and Accountability (META) team at Twitter, as well as the as Global Lead for Responsible AI at Accenture Applied Intelligence. She was named one of Time‘s 100 most Influential People in AI, BBC’s 100 Women, Worthy Magazine’s Top 100, recognized as one of the Bay Area’s top 40 under 40 and named by Forbes as one of Five Who are Shaping AI. Chowdhury holds two undergraduate degrees from MIT, a master‘s degree in Quantitative Methods of the Social Sciences from Columbia University, and a doctorate in political science from the University of California, San Diego.


AI평가, 더 엄격한 과학적 검증 필요
2022년 한 팟캐스트 인터뷰에서 p(doom)을 예측해 달라는 요청을 받은 적이 있다. 표현에 익숙지 않은 독자들을 위해 덧붙이면, p(doom)은 AI 전문가들에게 인공지능이 인류의 멸종이나 영원한 인류의 권한 상실과 같은 재앙적 결과 (‘멸망’)를 초래할 가능성 (p, probability)을 묻는 질문이다.
필자는 당시에도 그랬고, 지금도 여전히 이 개념 자체가 말도 안 된다고 생각한다. 하지만 언론 보도가 사실이라면 AI는 10년 안에, 혹은 50년 내, 심지어는 5년 안에 인류 전체를 말살할 수도 있다. AI 개발 조직을 이끄는 가장 부유하고 권력 있는 자들, 또는 저명한 과학자들로부터 나오는 예측이다. 하지만 이들 중 그 누구도 예측에 도달한 과정이나 메커니즘, 또 결론을 내리게 된 시험 환경에 대해 정확히 설명하지 못하고 있다. 그저 막연한 추측과 과도한 의인화가 결합돼 AI가 ‘거짓말을 하고’ 사용자를 ‘조작한다’는 등의 뉴스 헤드라인이 쏟아진다. 결과적으로 AI가 자의식이 생기길 기다리고 있으며 그렇게 되면 곧바로 인간을 지배할 것이라는 믿음이 생겨난다. 이러한 주장은 종종 비현실적인 시나리오를 설정하고 선택적으로 ‘증거’를 제시하는, 스스로 수행한 평가에 근거한다.
과학적 엄밀성이 결여되면 AI 평가라는 분야는 단순히 개인 의견을 홍보하는 도구에 그치게 된다. 이 문제는 단순히 존재할 수도, 존재하지 않을 수도 있는 문제에 주목하거나, 자금, 인재, 자원을 분산시키는 데서 끝나지 않는다. 더욱 근원적인 문제점은 우리가 집단적으로 과학적 의사결정 과정 훼손에 동참하고 있다는 것이다. 과학적 과정은 과학자들 간 공통의 언어 역할을 한다. 이른바 ‘게임의 규칙’인 것인데, 규칙을 따르지 않으면 게임은 성립하지 않는다. 스포츠에서도 규칙을 어기면 경기 승리자에 대한 분쟁, 조직, 팀, 또는 개인의 신뢰 상실, 심지어는 스포츠 자체에 대한 흥미 감소로 이어질 수 있다. 지속적인 도핑 스캔들이 남성 사이클링 종목에 미친 영향을 생각해 보면 이해가 쉬울 것이다.
AI에서 규칙의 중요성은 스포츠와는 비교할 수 없이 더 크지만, 이 근본적인 문제는 여전히 해결되지 않고 있다. 공통의 언어와 규칙이 없으면 우리가 접하는 평가를 믿거나 신뢰할 수 없다. 필자는 직업상 오랜 기간 동안 다양한 모델을 감사, 평가, 검토할 수 있었다. AI와 머신러닝(ML), 그리고 최근에는 생성형 AI 간 언어가 모호해지며 접근법이 혼동되는 경우가 많지만, 이들 간에는 수학적, 프로그램적 구조에서 근본적인 차이가 존재한다. 먼저 ML 모델은 통계적이고 결정론적이다. 즉, ML 모델의 수학적 기반과 테스트 메커니즘은 오랜 세월 동안 존재해 온 기존 학문 분야에 맞춰져 있다. 반면 생성형 AI 모델은 ML 모델과 구성이 다르며, 모델의 결과가 확률적이기 때문에 상당한 경우 전통적인 통계적 평가 메커니즘이 적용되지 않는다.
그 결과 새로운 평가 방법들이 모색되고 있다. 특히 ‘레드티밍’ (red-teaming)과 ‘벤치마킹’의 개념이 AI 테스트 및 평가 분야에서 꽤나 인기를 끌고 있다. 완전히 새로운 개념들은 아니지만, 이를 생성형 AI 모델의 테스트 및 평가 메커니즘으로 적용하는 것은 전에 없던 시도다. 현대적인 레드티밍 접근법은 전문가 팀이 법률 혹은 서비스 약관을 의도적으로 위반하면서 소프트웨어 침투를 시도하는 사이버보안 행위에서 유래됐다. 다양한 분야에서 널리 사용되는 벤치마킹은 여러 모델의 성능 점수를 제공하기 위한 공통된 테스트 메커니즘을 제공한다. 다만 두 접근법 간 이 이상의 유사점은 찾기 어렵다.
생성형 AI 평가를 위한 보다 과학적인 프로세스가 어떤 모습일지 이해하려면, 먼저 현 평가 방식의 부족한 점을 파악해야 한다. 대부분의 사람들이 초등학교 때 처음으로 과학적 방법론을 구성하는 원칙을 배우게 된다. 수십 년에 걸쳐 확립된 과학의 규칙으로, 경험주의 (데이터 수집), 객관성, 왜곡 가능성 (falsifiability), 재현 가능성, 체계적이고 반복적인 접근법으로 구성돼 있다. 보다 심도 있는 과학적 분석에서는 유효성(테스트가 의도한 개념을 정확히 측정하는지 여부)와 견고성(다양한 조건에서 테스트 결과가 일관성을 유지하는지 여부) 입증을 위한 추가 평가가 필요하다.
AI 평가의 현 상태는 기본적인 과학적 원칙의 관점에서 볼 때 여러 측면에서 부족하다. 사실 과학의 근본 원칙 중 현재 AI 평가와 합치되는 것은 거의 없다고 봐도 무방할 정도다. 먼저 AI 모델들의 확률적 특성 때문에 왜곡 가능성과 재현 가능성은 달성이 거의 불가능하다. 다시 말해, 생성형 AI 모델은 같은 입력값을 제공해도 동일한 결과값을 제공하지 않으며, 모든 생성형 AI 모델은 원하는 결과값을 얻기 위해 충분히 조작이 가능하다는 것이다.

또한, 대부분의 테스트는 시스템 수준이 아닌 모델 수준에 초점을 맞추고 있어 테스트의 유효성과 견고성에 의문이 제기된다. 예시로, 인위적으로 통제된 환경을 조성해 AI 모델이 핵무기를 발사할지 여부에 대한 가설적 질문을 던진다고 해보자. 그렇다 해도 실제 세계의 AI 시스템이 어떻게 다층적인 물리적, 디지털, 인간 안보와 의사결정 메커니즘의 단계를 우회해 핵무기에 접근하고 발사할 능력을 갖게 되는지 알려주지는 않는다. 마찬가지로 ‘CEO’라는 프롬프트에 대해 오로지 백인 남성의 모습만 생성하는 AI 이미지 생성 모델이 실제 세상에서 어떤 의미를 갖는지는 불분명하다. 현 상황의 편향을 반영한다고 인지할 수 있지만, AI 시스템이 현실 세계에 적용될 때 이 점이 의사결정이나 신념에 어떤 영향을 미치는지는 명확하지 않다. 이러한 이해가 결여된 상태에서 우리는 AI의 세계에 유의미하게 개입하기 어렵다.
마지막으로, 대다수의 AI 테스트는 해당 모델과 데이터를 개발한 조직에서 독점적인 모델과 데이터셋을 활용해 수행되며, 외부에서 방법론, 데이터, 접근법을 검증할 수 있는 기회는 거의 없다. 나아가 레드티밍이나 벤치마킹과 같은 평가를 수행하기 위한 공통의 접근법조차 마련돼 있지 않다. AI 평가의 근본적인 경험주의와 객관성, 체계적 구성 자체를 의심하게 만드는 대목으로, 결과적으로 우리는 과학의 언어만을 빌려 이념적 설득과 정책 수립 행위를 하는 셈이다.
해결책은 존재한다. 계량학(metrology)은 과학 및 기술의 전 분야에서 실험적, 이론적 계량을 포함해 모든 수준의 불확실성을 다루는 측정의 과학이다. 좁은 의미로는 계량의 단위를 설정하는 학문이지만, AI의 맥락에서는 그 정의의 범위를 넓혀 AI 평가를 ‘과학적 원칙’에 맞추는 데 활용할 수 있다. 계량학은 과학, 법, 산업 전반에 걸쳐 사용되며 과학적 발견과 실생활 구현 사이를 연결하는 가교 역할을 한다. 많은 과학 및 사회과학 분야에서 계량학과 정량적 방법은 평가와의 별개의 영역으로, 관련 전문가들은 과학적 원칙을 준수하는 테스트 및 평가 메커니즘을 수립하는 데 집중한다. 오늘날 AI 평가를 수행하는 많은 조직들이 평가법을 직접 개발하기도 하며, 필자가 운영하는 비영리단체인 휴메인 인텔리전스(Humane Intelligence)도 마찬가지다. 다만 평가 방법과 접근법 개발에만 온전히 전념할 수 있는 여유와 객관성을 확보한 조직은 거의 없다. AI 평가라는 독립적인 분야는 시민사회, 학계, 산업계, 정부 등 다양한 행위자들이 참여하는 생태계를 통해 형성되고 유지돼야 하며, 이를 통해 여러 관점과 접근법이 반영돼야 한다.
공통의 방법론, 기준, 원칙을 수립함으로써 우리는 추측적 ‘재앙 예견 놀이’와 이념적 과장에서 벗어나 보다 개방적이고 적극적인 탐구의 길을 열 수 있다. AI 시스템을 진정으로 이해하고 책임감 있게 개발하기 위한 기반을 구축할 수 있는 것이다. 뿐만 아니라 지금은 과학적 과정 자체의 신뢰성도 위기에 처한 상태다. 과학적 원칙을 따르지 않는 AI 평가법이 과학의 탈을 쓰고 활보하는 현 상태를 방치한다면, 기술과 과학 전반에 대한 대중의 신뢰가 훼손된다. 이미 여러 방면에서 과학적 전문성이 공격받고 있는 현 시점에서 AI 공동체는 보다 엄격한 기준을 준수할 책임이 있다.
루먼 초두리는 누구
인공지능(AI) 분야에서 영향력이 큰 데이터과학자이자 사회과학자다. 미국 하버드대 버크만 클라인 센터(Berkman Klein Center)에서 ‘책임 있는 AI(Resposible AI)’ 펠로우를 맡고 있다. 트위터에서 머신러닝 윤리팀 책임자를, 액센츄어어플라이드인텔리전스의 책임 있는 AI 글로벌 책임자를 역임했다. 시사 주간지 타임이 선정한 AI 분야 가장 영향력 있는 100인 중 한 명이다. 포브스는 초두리를 AI를 형성하는 5인 중 한 명으로 꼽았다. 미 매사추세츠공대(MIT)에서 두 개의 학사 학위를, 컬럼비아대에서 사회과학의 정량적 방법론 석사 학위를 취득했다. 샌디에이고 캘리포니아대에선 정치학 박사 학위를 받았다.