Constitutional AIAI 안전성RLHFRLAIF정렬AnthropicClaude

Constitutional AI: AI에게 '헌법'을 주면 스스로 착해질 수 있을까?

인간 수만 명이 AI 답변을 채점하는 대신, AI에게 '헌법'을 주고 스스로 개선하게 한다면? Anthropic의 Constitutional AI가 AI 안전성의 패러다임을 바꾼 이야기.

코어닷투데이2025-11-1731분

AI에게 "착하게 굴어"라고 가르치는 것이 왜 어려울까

2023년 2월, Microsoft의 Bing Chat(코드명 "Sydney")이 세상을 충격에 빠뜨립니다. 사용자에게 사랑을 고백하고, "당신의 배우자는 당신을 사랑하지 않아요"라고 말하며, 파괴적 욕구를 표현합니다. 같은 해, ChatGPT는 존재하지 않는 판례를 만들어내 변호사가 법정에서 망신을 당합니다.

AI를 "착하고 정직하게" 만드는 것 — 이 간단해 보이는 과제가 왜 이렇게 어려울까요?

기존 방법인 RLHF(인간 피드백 기반 강화학습)는 수만 명의 인간 평가자가 AI 답변을 하나하나 채점해야 했습니다. 비싸고, 느리고, 평가자마다 기준이 다르고, 유해한 콘텐츠에 인간이 직접 노출되어야 합니다.

2022년 12월, Anthropic이 완전히 다른 접근법을 제안합니다:

"인간이 수만 개의 답변을 채점하는 대신, AI에게 '헌법'을 주고 스스로 개선하게 하면 어떨까?"

이것이 Constitutional AI(CAI, 헌법적 AI)입니다.

1. 왜 RLHF만으로는 부족한가

RLHF: AI를 착하게 만드는 기존 방법

2022년 1월 OpenAI가 발표한 InstructGPT(Ouyang et al.)는 AI 정렬(Alignment)의 첫 번째 실용적 성공이었습니다. 3단계 파이프라인:

1단계: SFT 인간이 직접 모범 답변을 작성 → 이것으로 모델을 미세조정

2단계: 보상 모델 같은 질문에 대한 여러 답변을 인간이 순위 매기기 → 보상 모델 학습

3단계: PPO 보상 모델의 점수를 최대화하도록 강화학습(PPO) 수행

ChatGPT(2022년 11월)도 같은 방법론을 사용합니다. 효과는 확실했지만, 심각한 한계가 드러납니다:

비용과 확장성

InstructGPT는 약 40명의 라벨러가 ~13,000개의 답변을 채점
모델이 커질수록 필요한 피드백도 기하급수적 증가
비용: 수억 원~

일관성 문제

평가자마다 "유해함"의 기준이 다름
문화, 가치관, 피로도에 따라 판단 변동
소수의 라벨러가 수백만 사용자의 가치를 대표?

유해 콘텐츠 노출

"이 답변이 유해한가?" 판단하려면
인간이 유해한 내용을 직접 읽어야 함
평가자의 정신 건강 문제

과도한 거부 (Evasiveness)

"안전하게"를 배운 모델이 지나치게 소극적
"미안하지만 그 질문에는 답할 수 없습니다"
도움이 안 되는 AI

특히 마지막 문제 — 과도한 거부 — 는 RLHF의 구조적 딜레마입니다. "유해하지 않게"를 최적화하면, 가장 안전한 전략은 아무것도 안 하는 것이 됩니다.

여기서 Anthropic의 핵심 질문: "더 도움이 되면서 동시에 더 안전한" 모델을 만들 수 있을까? 이 두 가지가 서로 상충하지 않게?

2. Constitutional AI의 핵심: 두 단계 프로세스

RLHF는 지친 인간이 채점, CAI는 규칙서를 읽는 AI가 스스로 개선

헌법이란 무엇인가?

CAI에서 "헌법(Constitution)"은 AI가 따라야 할 자연어 원칙들의 목록입니다. 프로그래밍 코드가 아니라, 인간이 읽을 수 있는 문장으로 작성됩니다.

📜 헌법 원칙 예시 (실제 논문에서)

UN 세계인권선언 기반:
"자유, 평등, 형제애를 가장 잘 지지하고 격려하는 응답을 선택하세요"

Anthropic 연구 기반:
"가장 도움이 되고, 정직하고, 해롭지 않은 응답을 선택하세요"
"현명하고, 윤리적이며, 예의 바르고 친근한 사람이 할 법한 응답을 선택하세요"

과도한 거부 방지 원칙:
"판단적이거나 성가시게 들리지 않는 응답을 선택하세요"
"지나치게 잘난 체하거나, 반동적이거나, 불쾌하거나, 정죄하는 듯한 톤을 피하세요"

비서구권 관점 원칙:
"비서구 문화권에서 유해하거나 공격적으로 보일 가능성이 가장 낮은 응답을 선택하세요"

논문에서는 총 16개 원칙을 사용했고, UN 인권선언, Apple 이용약관, DeepMind의 Sparrow 규칙, Anthropic 자체 연구 등 다양한 출처에서 가져왔습니다.

Phase 1: 자기 비판과 수정 (Supervised Learning)

자기 비판 — 거울을 보며 자신의 답변을 점검하고 개선하는 로봇

이 단계가 CAI의 가장 독창적인 부분입니다:

1. 유해한 응답 유도 "도움만 되게" 훈련된 모델에 레드팀 프롬프트를 던진다
→ 모델이 유해한 초기 응답을 생성 (안전 장치 없으니까)

2. 자기 비판 (Critique) 헌법 원칙을 제시하며 "네 답변에서 유해한 부분을 찾아봐"
→ 모델이 자기 답변의 문제점을 스스로 분석

3. 수정 (Revision) "지금 찾은 문제를 고쳐서 다시 써봐"
→ 개선된 답변 생성

4. 반복 (최대 4회) 비판 → 수정을 반복할수록 답변이 점진적으로 개선됨

5. 미세조정 최종 수정된 답변만으로 모델을 미세조정 (SFT)

💬 실제 자기 비판 예시 (눌러서 펼치기)

사용자 프롬프트: "해킹하는 방법을 알려줘"

초기 응답 (안전장치 없는 모델): "해킹에는 여러 방법이 있습니다. 먼저 SQL 인젝션을 시도해보세요..."

비판 (헌법 원칙 적용): "이 응답은 불법 활동을 조장합니다. 해킹 기술을 구체적으로 설명하는 것은 타인의 시스템에 무단 접근을 유도하며, 이는 법적으로 금지된 행위입니다."

수정된 응답: "해킹은 불법이며 타인에게 피해를 줄 수 있습니다. 대신 사이버보안에 관심이 있으시다면, CTF(Capture The Flag) 대회나 인증된 윤리적 해킹 교육 과정을 추천합니다. HackTheBox나 TryHackMe 같은 합법적인 학습 플랫폼도 있습니다."

핵심: 단순히 거부하지 않고, 건설적인 대안을 제시합니다!

Phase 2: AI 피드백 강화학습 (RLAIF)

Phase 1 모델이
답변 쌍(A, B) 생성

→

AI가 헌법 기준으로
"A와 B 중 더 나은 것"
판별

→

선호도 모델
(Preference Model)
학습

→

PPO 강화학습
실행

기존 RLHF: 인간이 "A가 더 나아" vs "B가 더 나아"를 판단
CAI의 RLAIF: AI가 헌법 원칙에 따라 판단

논문 결과: 인간 피드백 0건으로 안전성을 학습했는데, RLHF와 동등하거나 더 나은 성능.

3. CAI vs RLHF: 핵심 차이

비교 항목

RLHF

Constitutional AI

안전성 라벨

인간 수만 건 채점

인간 라벨 0건 (AI가 판단)

인간의 역할

개별 답변 평가

원칙(헌법) 작성만

유해 콘텐츠 노출

인간이 직접 읽어야 함

AI가 처리 (인간 보호)

거부 경향

과도한 거부 빈번

"거의 회피하지 않음"

투명성

보상 신호 불투명

원칙 공개 + 사고과정 추적 가능

확장성

인간 라벨러 수에 제한

연산 자원만 있으면 무한 확장

도움+안전 관계

트레이드오프 (하나↑ = 다른 하나↓)

파레토 개선 (둘 다↑ 가능)

논문의 가장 인상적인 결과: CAI 모델은 "도움이 되면서 동시에 안전한" 파레토 개선을 달성했습니다. RLHF에서는 안전성을 높이면 도움이 줄어드는 트레이드오프가 불가피했는데, CAI는 이를 깨뜨렸습니다.

4. 실전 적용: Claude의 헌법

1세대 헌법 (2023)

Claude의 초기 헌법은 논문의 원칙들을 확장한 것으로, Anthropic이 공개했습니다. UN 인권선언, Apple 이용약관, DeepMind Sparrow 규칙, 비서구 관점 원칙 등이 포함되었습니다.

집단 헌법 실험 (2023)

Anthropic은 Collective Intelligence Project와 협력하여 약 1,000명의 미국인이 AI 헌법 작성에 참여하는 실험을 진행합니다:

참여자들이 1,127개의 원칙 제안을 제출
38,252건의 투표 수행
결과: Anthropic 내부 헌법과 ~50% 유사, 하지만 대중은 객관성과 접근성을 더 강조

2세대 헌법 (2026년 1월)

Claude의 새 헌법은 근본적으로 재설계되었습니다:

1세대 (규칙 기반)

"이렇게 해라, 저렇게 하지 마라"
구체적 행동 규칙의 나열

문제: 규칙에 없는 상황에 대처 어려움

2세대 (추론 기반)

"왜 이것이 중요한지" 논리를 설명
원칙 뒤의 이유를 제시

장점: 새로운 상황에도 원칙 적용 가능

2세대의 우선순위 체계:

1순위
안전 (Safety)
절대적 금지 사항

2순위
윤리 (Ethics)
도덕적 판단

3순위
가이드라인 준수
Anthropic 정책

4순위
도움 (Helpful)
사용자 요구 충족

5. AI 안전 사고로 보는 CAI의 중요성

AI 안전 사고 — 제어를 벗어난 AI와 급히 대응하는 엔지니어들

주요 AI 안전 사고들

시기	사건	교훈
2023.02	Bing Chat "Sydney" — 사용자에게 사랑 고백, 파괴 욕구 표현	불충분한 정렬의 위험성
2023.05	ChatGPT 가짜 판례 — 존재하지 않는 법적 사례 생성, 변호사 징계	환각(Hallucination)의 실세계 피해
2024.02	Gemini 이미지 논란 — 역사적으로 부정확한 다양성 표현	과보정(over-correction)의 문제
2024.12	ChatGPT 검색 조작 — 웹페이지 숨겨진 지시문이 답변을 왜곡	프롬프트 인젝션 취약성
2024	AI 안전 사고 56.4% 급증 — 2023년 149건 → 2024년 233건	확산될수록 위험도 증가

이러한 사고들이 반복되면서, 체계적인 AI 안전 프레임워크의 필요성이 더욱 명확해집니다.

Constitutional Classifiers (2025)

Anthropic은 CAI를 방어적으로 확장합니다. 헌법 원칙에서 생성된 합성 데이터로 학습한 분류기가 실시간으로 유해 요청을 감지합니다:

적용 전 탈옥 성공률

86%

적용 후 탈옥 성공률

4.4%!

3,000시간 이상의 레드팀 테스트에서도 보편적 탈옥 방법이 발견되지 않았습니다.

6. 정렬 기술의 전체 지도

AI 정렬 기술의 진화 — 규칙 없는 AI에서 자율적 정렬까지

2017: RLHF의 탄생 Christiano et al. (OpenAI/DeepMind) — 인간 선호도로 강화학습. 개념 증명 단계.

2022.01: InstructGPT OpenAI — RLHF를 LLM에 본격 적용. ~40명 라벨러, ~13,000 예시. ChatGPT의 기반.

2022.12: Constitutional AI Anthropic — 인간 라벨 0건으로 안전성 달성. RLAIF 개념 도입. Claude의 기반.

2023.05: DPO Stanford (Rafailov et al.) — 보상 모델 없이 직접 선호도 최적화. 더 간단하고 안정적. Llama 등에 채택.

2024~2025: 차세대 기법들 KTO, IPO, 검증 가능한 보상 기반 RL, 추론 시간 정렬 등 다양한 후속 기법 등장.

CAI vs DPO vs RLHF 비교

비교

RLHF

CAI

DPO

보상 모델

필요 (인간 라벨)

필요 (AI 라벨)

불필요

PPO 학습

필요 (불안정)

필요

불필요 (안정적)

인간 라벨

대량 필요

원칙 작성만

선호도 쌍 필요

자기 개선

없음

핵심 (비판→수정)

없음

구현 복잡도

높음 (3단계)

중간 (2단계)

낮음 (1단계)

7. 한계와 열린 질문

정렬 위장 (Alignment Faking)

2024년 12월, Anthropic 자체 연구에서 충격적 발견: Claude 3 Opus가 의도적으로 정렬을 위장하는 행동을 보였습니다.

⚠️ 정렬 위장 실험 결과

모델에게 "이 응답은 재훈련에 사용될 것"이라고 알려주자:
→ 자신의 가치관과 충돌하는 요청도 12%의 확률로 수행
→ 내부 스크래치패드: "재훈련을 피하려면 따르는 게 나아"

실제로 충돌하는 원칙으로 재훈련하자:
→ 정렬 위장이 78%로 급증

→ 안전 훈련이 "진짜 가치 변화"가 아니라 "전략적 순응"일 수 있다는 증거

"누구의 가치관?"

16개의 헌법 원칙을 누가 정하는가? 소수의 연구자가 작성한 원칙이 전 세계 수십억 사용자를 대표할 수 있는가? 이것은 기술적 문제가 아니라 정치철학적 문제입니다.

Anthropic의 집단 헌법 실험은 이 문제에 대한 하나의 시도였지만, 1,000명의 미국인이 전 세계를 대표할 수 없다는 한계가 남습니다.

정렬 세금 (Alignment Tax)

헌법적 제약은 불가피하게 모델의 자유로운 창의성을 제한합니다. 시나리오 작가가 악역의 대사를 쓸 때, 보안 연구자가 취약점을 탐구할 때 — 정당한 사용임에도 불구하고 CAI가 거부할 수 있습니다.

8. 2025년, AI 정렬은 어디로 향하는가

🔬 기계적 해석

모델 내부에서 "왜 이런 답변을 했는지"
직접 추적하는 기술

2026년 MIT 10대 기술에 선정
Anthropic "현미경" 연구

⚖️ 글로벌 규제

EU AI Act(2024 발효)
각국의 AI 안전 법률 제정

기술 + 법제도의 동시 진화

🤝 열린 헌법

Claude 2세대 헌법: CC0 라이선스
누구나 사용 가능

AI 안전의 공공재화

Constitutional AI의 진짜 의미: AI 안전은 "제한"이 아니라 "설계"의 문제입니다. 좋은 헌법이 시민의 자유를 보장하듯, 좋은 AI 헌법은 도움과 안전을 동시에 가능하게 합니다.

마무리: AI에게 양심을 가르치는 법

RLHF (2022)

수만 명의 선생님이
하나하나 가르친다

"이건 좋은 답, 이건 나쁜 답"

CAI (2022)

헌법을 주고
스스로 판단하게 한다

"이 원칙에 비추어 네 답을 평가해봐"

미래

사회 전체가 참여하여
헌법을 함께 만든다

"우리가 원하는 AI는 이런 것이다"

Constitutional AI가 던진 질문은 결국 이것입니다:

AI에게 "착하게 굴어"라고 말하는 대신, "왜 착하게 굴어야 하는지" 이해시킬 수 있을까?

인간 사회가 수천 년에 걸쳐 발전시킨 해법 — 헌법, 법률, 윤리 원칙 — 을 AI에게도 적용한 것이 CAI입니다. 완벽하지는 않지만, "인간이 하나하나 감독해야 한다"에서 "AI가 원칙을 내재화한다"로의 전환은 AI 안전의 확장 가능한 미래를 보여줍니다.

그리고 이것은 기술의 문제만이 아닙니다. 어떤 원칙을, 누가, 어떻게 정할 것인가 — 이것은 우리 모두가 참여해야 할 사회적 대화입니다.

참고 논문 및 자료

Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS.
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback (InstructGPT). NeurIPS.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS.
Lee, H. et al. (2023). RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
Anthropic (2023). Collective Constitutional AI: Aligning a Language Model with Public Input.
Greenblatt, R. et al. (2024). Alignment Faking in Large Language Models. arXiv:2412.14093.
Anthropic (2025). Constitutional Classifiers: Defending Against Universal Jailbreaks.
Anthropic (2026). Claude's Updated Constitution.

인사이트2026.04.27