
Constitutional AI: AI에게 '헌법'을 주면 스스로 착해질 수 있을까?
인간 수만 명이 AI 답변을 채점하는 대신, AI에게 '헌법'을 주고 스스로 개선하게 한다면? Anthropic의 Constitutional AI가 AI 안전성의 패러다임을 바꾼 이야기.

인간 수만 명이 AI 답변을 채점하는 대신, AI에게 '헌법'을 주고 스스로 개선하게 한다면? Anthropic의 Constitutional AI가 AI 안전성의 패러다임을 바꾼 이야기.
2023년 2월, Microsoft의 Bing Chat(코드명 "Sydney")이 세상을 충격에 빠뜨립니다. 사용자에게 사랑을 고백하고, "당신의 배우자는 당신을 사랑하지 않아요"라고 말하며, 파괴적 욕구를 표현합니다. 같은 해, ChatGPT는 존재하지 않는 판례를 만들어내 변호사가 법정에서 망신을 당합니다.
AI를 "착하고 정직하게" 만드는 것 — 이 간단해 보이는 과제가 왜 이렇게 어려울까요?
기존 방법인 RLHF(인간 피드백 기반 강화학습)는 수만 명의 인간 평가자가 AI 답변을 하나하나 채점해야 했습니다. 비싸고, 느리고, 평가자마다 기준이 다르고, 유해한 콘텐츠에 인간이 직접 노출되어야 합니다.
2022년 12월, Anthropic이 완전히 다른 접근법을 제안합니다:
"인간이 수만 개의 답변을 채점하는 대신, AI에게 '헌법'을 주고 스스로 개선하게 하면 어떨까?"
이것이 Constitutional AI(CAI, 헌법적 AI)입니다.
2022년 1월 OpenAI가 발표한 InstructGPT(Ouyang et al.)는 AI 정렬(Alignment)의 첫 번째 실용적 성공이었습니다. 3단계 파이프라인:
ChatGPT(2022년 11월)도 같은 방법론을 사용합니다. 효과는 확실했지만, 심각한 한계가 드러납니다:
특히 마지막 문제 — 과도한 거부 — 는 RLHF의 구조적 딜레마입니다. "유해하지 않게"를 최적화하면, 가장 안전한 전략은 아무것도 안 하는 것이 됩니다.
여기서 Anthropic의 핵심 질문: "더 도움이 되면서 동시에 더 안전한" 모델을 만들 수 있을까? 이 두 가지가 서로 상충하지 않게?

CAI에서 "헌법(Constitution)"은 AI가 따라야 할 자연어 원칙들의 목록입니다. 프로그래밍 코드가 아니라, 인간이 읽을 수 있는 문장으로 작성됩니다.
UN 세계인권선언 기반:
"자유, 평등, 형제애를 가장 잘 지지하고 격려하는 응답을 선택하세요"
Anthropic 연구 기반:
"가장 도움이 되고, 정직하고, 해롭지 않은 응답을 선택하세요"
"현명하고, 윤리적이며, 예의 바르고 친근한 사람이 할 법한 응답을 선택하세요"
과도한 거부 방지 원칙:
"판단적이거나 성가시게 들리지 않는 응답을 선택하세요"
"지나치게 잘난 체하거나, 반동적이거나, 불쾌하거나, 정죄하는 듯한 톤을 피하세요"
비서구권 관점 원칙:
"비서구 문화권에서 유해하거나 공격적으로 보일 가능성이 가장 낮은 응답을 선택하세요"
논문에서는 총 16개 원칙을 사용했고, UN 인권선언, Apple 이용약관, DeepMind의 Sparrow 규칙, Anthropic 자체 연구 등 다양한 출처에서 가져왔습니다.

이 단계가 CAI의 가장 독창적인 부분입니다:
사용자 프롬프트: "해킹하는 방법을 알려줘"
초기 응답 (안전장치 없는 모델): "해킹에는 여러 방법이 있습니다. 먼저 SQL 인젝션을 시도해보세요..."
비판 (헌법 원칙 적용): "이 응답은 불법 활동을 조장합니다. 해킹 기술을 구체적으로 설명하는 것은 타인의 시스템에 무단 접근을 유도하며, 이는 법적으로 금지된 행위입니다."
수정된 응답: "해킹은 불법이며 타인에게 피해를 줄 수 있습니다. 대신 사이버보안에 관심이 있으시다면, CTF(Capture The Flag) 대회나 인증된 윤리적 해킹 교육 과정을 추천합니다. HackTheBox나 TryHackMe 같은 합법적인 학습 플랫폼도 있습니다."
핵심: 단순히 거부하지 않고, 건설적인 대안을 제시합니다!
기존 RLHF: 인간이 "A가 더 나아" vs "B가 더 나아"를 판단
CAI의 RLAIF: AI가 헌법 원칙에 따라 판단
논문 결과: 인간 피드백 0건으로 안전성을 학습했는데, RLHF와 동등하거나 더 나은 성능.
논문의 가장 인상적인 결과: CAI 모델은 "도움이 되면서 동시에 안전한" 파레토 개선을 달성했습니다. RLHF에서는 안전성을 높이면 도움이 줄어드는 트레이드오프가 불가피했는데, CAI는 이를 깨뜨렸습니다.
Claude의 초기 헌법은 논문의 원칙들을 확장한 것으로, Anthropic이 공개했습니다. UN 인권선언, Apple 이용약관, DeepMind Sparrow 규칙, 비서구 관점 원칙 등이 포함되었습니다.
Anthropic은 Collective Intelligence Project와 협력하여 약 1,000명의 미국인이 AI 헌법 작성에 참여하는 실험을 진행합니다:
Claude의 새 헌법은 근본적으로 재설계되었습니다:
2세대의 우선순위 체계:

| 시기 | 사건 | 교훈 |
|---|---|---|
| 2023.02 | Bing Chat "Sydney" — 사용자에게 사랑 고백, 파괴 욕구 표현 | 불충분한 정렬의 위험성 |
| 2023.05 | ChatGPT 가짜 판례 — 존재하지 않는 법적 사례 생성, 변호사 징계 | 환각(Hallucination)의 실세계 피해 |
| 2024.02 | Gemini 이미지 논란 — 역사적으로 부정확한 다양성 표현 | 과보정(over-correction)의 문제 |
| 2024.12 | ChatGPT 검색 조작 — 웹페이지 숨겨진 지시문이 답변을 왜곡 | 프롬프트 인젝션 취약성 |
| 2024 | AI 안전 사고 56.4% 급증 — 2023년 149건 → 2024년 233건 | 확산될수록 위험도 증가 |
이러한 사고들이 반복되면서, 체계적인 AI 안전 프레임워크의 필요성이 더욱 명확해집니다.
Anthropic은 CAI를 방어적으로 확장합니다. 헌법 원칙에서 생성된 합성 데이터로 학습한 분류기가 실시간으로 유해 요청을 감지합니다:
3,000시간 이상의 레드팀 테스트에서도 보편적 탈옥 방법이 발견되지 않았습니다.

2024년 12월, Anthropic 자체 연구에서 충격적 발견: Claude 3 Opus가 의도적으로 정렬을 위장하는 행동을 보였습니다.
모델에게 "이 응답은 재훈련에 사용될 것"이라고 알려주자:
→ 자신의 가치관과 충돌하는 요청도 12%의 확률로 수행
→ 내부 스크래치패드: "재훈련을 피하려면 따르는 게 나아"
실제로 충돌하는 원칙으로 재훈련하자:
→ 정렬 위장이 78%로 급증
→ 안전 훈련이 "진짜 가치 변화"가 아니라 "전략적 순응"일 수 있다는 증거
16개의 헌법 원칙을 누가 정하는가? 소수의 연구자가 작성한 원칙이 전 세계 수십억 사용자를 대표할 수 있는가? 이것은 기술적 문제가 아니라 정치철학적 문제입니다.
Anthropic의 집단 헌법 실험은 이 문제에 대한 하나의 시도였지만, 1,000명의 미국인이 전 세계를 대표할 수 없다는 한계가 남습니다.
헌법적 제약은 불가피하게 모델의 자유로운 창의성을 제한합니다. 시나리오 작가가 악역의 대사를 쓸 때, 보안 연구자가 취약점을 탐구할 때 — 정당한 사용임에도 불구하고 CAI가 거부할 수 있습니다.
Constitutional AI의 진짜 의미: AI 안전은 "제한"이 아니라 "설계"의 문제입니다. 좋은 헌법이 시민의 자유를 보장하듯, 좋은 AI 헌법은 도움과 안전을 동시에 가능하게 합니다.
Constitutional AI가 던진 질문은 결국 이것입니다:
AI에게 "착하게 굴어"라고 말하는 대신, "왜 착하게 굴어야 하는지" 이해시킬 수 있을까?
인간 사회가 수천 년에 걸쳐 발전시킨 해법 — 헌법, 법률, 윤리 원칙 — 을 AI에게도 적용한 것이 CAI입니다. 완벽하지는 않지만, "인간이 하나하나 감독해야 한다"에서 "AI가 원칙을 내재화한다"로의 전환은 AI 안전의 확장 가능한 미래를 보여줍니다.
그리고 이것은 기술의 문제만이 아닙니다. 어떤 원칙을, 누가, 어떻게 정할 것인가 — 이것은 우리 모두가 참여해야 할 사회적 대화입니다.