기계적 해석가능성Mechanistic InterpretabilitySAEAnthropicAI 안전성MIT 2026

기계적 해석가능성 특집: AI의 '블랙박스'를 열어본 과학자들 — MIT 2026 10대 기술의 이유

MIT가 2026 10대 기술로 선정한 '기계적 해석가능성'은 AI의 블랙박스를 열고 내부 회로를 추적하는 기술이다. 금문교에 반한 Claude, 거짓말하는 AI를 잡아내는 법, 환각의 메커니즘까지 — AI를 MRI 찍듯 들여다보는 시대가 열리고 있다.

코어닷투데이2026-02-0832분

들어가며: 인류 역사상 가장 이상한 발명품

인류는 수천 년 동안 도구를 만들어왔다. 바퀴, 인쇄기, 증기기관, 반도체 — 모든 발명품에는 공통점이 있었다: 만든 사람이 그것이 어떻게 작동하는지 알았다.

그런데 2026년, 인류는 역사상 처음으로 자기가 만들었으면서 어떻게 작동하는지 모르는 도구를 가지게 되었다.

GPT-4, Claude, Gemini — 이 AI 모델들은 시를 쓰고, 코드를 작성하고, 의학적 진단을 돕고, 법률 자문을 한다. 하지만 왜 그런 답변을 하는지, 누구도 설명하지 못한다. 수천억 개의 파라미터가 어떤 계산을 수행하는지, 모델을 만든 연구자조차 모른다.

Anthropic CEO 다리오 아모데이의 말:

"AI 분야 바깥의 사람들은 우리가 자기가 만든 AI가 어떻게 작동하는지 모른다는 사실에 놀라고 경악한다. 그리고 그들이 옳다 — 이 무지는 기술 역사상 본질적으로 전례가 없다."

2026년 1월, MIT Technology Review는 이 문제를 해결하려는 연구 분야를 2026 10대 혁신 기술로 선정했다. 그 이름은 기계적 해석가능성(Mechanistic Interpretability) — AI의 블랙박스를 열고, 내부 회로를 하나하나 추적해서, 모델이 정확히 어떻게 생각하는지 밝혀내는 학문이다.

이 글에서는 이 분야가 왜 등장했는지, 핵심 발견들은 무엇인지, 그리고 AI의 미래에 어떤 의미인지를 깊이 풀어본다.

1. "블랙박스"란 정확히 무엇인가

1.1 기존 해석 방법의 한계

AI 모델을 이해하려는 시도가 없었던 것은 아니다. 기존에도 여러 방법이 있었다:

방법	비유	한계
LIME	"이 환자가 왜 병이 났는지" 주변 증상을 바꿔가며 추측	국소적, 모델 전체를 설명 못함
SHAP	"각 증상이 진단에 얼마나 기여했는지" 계산	입력→출력 관계만, 내부 메커니즘은 모름
어텐션 시각화	"의사가 어디를 봤는지" 추적	"어디를 봤는지"는 알지만 "왜"는 모름

이 방법들은 모두 외부에서 관찰하는 접근이다. 자동차가 왜 움직이는지 알고 싶은데, 타이어가 도는 것만 관찰하는 것과 같다. 엔진을 열어보지 않으면 진짜 원리는 모른다.

1.2 기계적 해석가능성: "엔진을 열어보자"

기계적 해석가능성(Mechanistic Interpretability, MI)은 완전히 다른 접근을 취한다: 모델을 직접 열고, 내부 계산 메커니즘을 역공학(reverse-engineering)한다.

기존 방법 (외부 관찰)

"이 입력을 넣으면 이 출력이 나온다"

"이 단어를 바꾸면 답이 달라진다"

외부에서 두드려보기

기계적 해석가능성 (내부 분석)

"이 뉴런이 '금문교' 개념을 인코딩한다"

"이 회로가 '거짓말' 판단을 수행한다"

엔진을 열어 회로 추적

MIT Technology Review는 이것을 이렇게 표현했다:

"연구자들이 마침내 대규모 언어 모델의 블랙박스를 벗기고 있다. 속임수나 사실 기억 같은 행동을 담당하는 특정 회로를 식별해내고 있으며, 이 진전은 최첨단 AI 시스템이 내부적으로 어떻게 추론하는지 이해하고 — 궁극적으로 통제할 수 있다는 첫 번째 진정한 희망을 제시한다."

2. 역사: 크리스 올라와 "AI 신경과학"의 탄생

2.1 크리스 올라: MI의 창시자

크리스 올라(Chris Olah)는 기계적 해석가능성이라는 용어를 만든 사람이다. 구글에서 딥 드림(Deep Dream, 2015)의 공동 저자로 활동하며 "신경망 내부에서 무슨 일이 일어나는가"라는 질문을 처음 체계적으로 탐구했다.

그의 접근은 신경과학에서 영감을 받았다. 신경과학자들이 뇌의 개별 뉴런이 무엇에 반응하는지 연구하듯, 올라는 AI 모델의 개별 뉴런과 회로가 무엇을 계산하는지 연구하기 시작했다.

TIME지는 2024년 올라를 "AI 분야에서 가장 영향력 있는 100인"에 선정했다.

2.2 핵심 이정표

2015
딥 드림, 특징 시각화

→

2021
인덕션 헤드 발견

→

2022
중첩 가설

→

2024
Claude 내부 해부

2021년 — 인덕션 헤드 발견: Anthropic 팀이 트랜스포머에서 최초로 구체적이고 이해 가능한 알고리즘을 발견했다. 인덕션 헤드(induction head)는 두 개의 어텐션 헤드가 짝을 이뤄 "이전에 본 패턴을 복사"하는 메커니즘이다. 이것의 출현이 훈련 중 모델 성능의 급격한 점프와 상관관계를 보였다.

2022년 — 중첩 가설(Superposition Hypothesis): 왜 개별 뉴런을 분석하는 것만으로는 부족한지를 설명하는 이론이 등장했다. 이것이 전체 분야의 방향을 바꿨다. (섹션 4에서 자세히 다룬다)

2023년 — 단일의미성을 향해: 희소 오토인코더(SAE)를 GPT-2에 적용해 ~4,000개의 해석 가능한 특징을 추출. 인간 평가자의 70%가 특징들이 단일 개념에 깔끔하게 매핑된다고 판단.

2024년 5월 — Claude의 마음 지도: Claude 3.0 Sonnet 내부에서 수백만 개의 특징을 추출. 금문교에 반한 Claude 실험. (섹션 5에서 자세히)

2025년 3월 — Claude의 생물학: Claude 3.5 Haiku의 회로를 추적해 10가지 사례 연구 발표. (섹션 6에서 자세히)

3. 희소 오토인코더(SAE): MI의 핵심 도구

3.1 왜 개별 뉴런을 보면 안 되나

직관적으로, "각 뉴런이 무엇을 하는지 보면 되지 않나?"라고 생각할 수 있다. 하지만 현실의 뉴런은 다의적(polysemantic)이다 — 하나의 뉴런이 전혀 관련 없는 여러 개념에 반응한다.

예를 들어, GPT-2의 한 뉴런은 "학술 인용", "HTTP 요청", "한국어 텍스트"라는 전혀 다른 세 가지 맥락에서 모두 활성화된다. 이것만 봐서는 이 뉴런이 "무엇을 하는지" 알 수 없다.

3.2 SAE의 핵심 아이디어

중첩 개념을 보여주는 일러스트

사전 학습(Dictionary Learning)에서 영감을 받은 접근이다. 모든 영어 단어가 26개의 알파벳 "조합"으로 만들어지듯, 모든 뉴런 활성화는 해석 가능한 특징들의 희소한 조합으로 분해할 수 있다.

1. 활성화 캡처 모델의 특정 레이어에서 수십억 개의 입력에 대한 활성화 벡터를 기록

2. SAE 훈련 오토인코더가 이 활성화를 재구성하되, 희소성 제약을 적용 — 한 번에 소수의 특징만 활성화되도록

3. 특징 추출 학습된 사전의 각 방향(direction)이 해석 가능한 개념에 대응 — "금문교", "법률 용어", "DNA 서열" 등

4. 검증 특징이 의미적으로 일관된 자극에 반응하는지, 인과적으로 행동에 영향을 미치는지 확인

3.3 규모의 경쟁

각 연구소가 경쟁적으로 SAE 규모를 키우고 있다:

Anthropic (2023, GPT-2)

~4,000 특징

Anthropic (2024, Claude Sonnet)

수백만 특징

OpenAI (2024, GPT-4)

1,600만 잠재 특징

DeepMind Gemma Scope 2 (2025)

1조+ SAE 파라미터

4. 중첩 가설: 왜 뉴런 하나로는 부족한가

4.1 핵심 아이디어

2022년 Anthropic이 발표한 "Toy Models of Superposition"은 MI 분야의 방향을 바꾼 논문이다.

핵심 통찰: 신경망은 뉴런 수보다 더 많은 개념을 표현하고 싶어 한다. 이를 위해 고차원 공간의 성질을 활용해, 제한된 뉴런에 훨씬 많은 개념을 "중첩(superposition)"시킨다.

비유하자면 이렇다:

중첩의 비유: 공항 라커

공항에 라커가 100개 있는데, 여행객은 1,000명이다. 모든 여행객이 동시에 라커를 쓸 필요는 없다 — 대부분은 비행기를 타고 있으니까.

공항은 "필요할 때만 쓰고, 안 쓸 때는 비워두는" 방식으로 100개 라커에 1,000명의 짐을 관리한다. 가끔 두 여행객의 짐이 겹치면 약간의 혼란이 생기지만, 대부분의 시간에는 잘 작동한다.

신경망도 마찬가지다. 뉴런(라커)보다 개념(여행객)이 훨씬 많지만, 대부분의 개념은 희소하게(드물게) 활성화되므로 간섭이 적다.

4.2 수학적 원리

고차원 공간에서는 거의 직교하는 방향이 지수적으로 많이 존재한다. 예를 들어 100차원 공간에서 서로 거의 직교하는 벡터를 수천 개 만들 수 있다. 각 벡터가 하나의 개념을 나타내면, 100개의 뉴런으로 수천 개의 개념을 인코딩할 수 있다.

ReLU 활성화 함수가 핵심 역할을 한다. 간섭 항(interference term)이 활성화 임계값을 넘지 않으면 "소음"으로 처리되어 무시된다.

4.3 왜 SAE가 필요한 이유

중첩 때문에 개별 뉴런은 다의적(polysemantic)이다 — 여러 개념이 뒤섞여 있다. SAE는 이 뒤섞인 표현을 단일의미적(monosemantic) 특징으로 분리하는 도구다. "라커에 섞여 있는 짐을 각 여행객의 것으로 분류하는" 것이다.

5. Claude의 마음을 열다 (2024년 5월)

금문교 Claude 일러스트

5.1 역사적 첫 해부

2024년 5월, Anthropic은 상용 대규모 언어 모델의 내부를 최초로 상세하게 들여다본 연구를 발표했다. Claude 3.0 Sonnet의 중간 레이어에서 수백만 개의 특징을 추출한 것이다.

5.2 발견된 특징들의 예시

구체적 개체

샌프란시스코, 로잘린드 프랭클린, 리튬, 면역학, 함수 호출

금문교 특징

일본어, 중국어, 그리스어, 베트남어, 러시아어, 이미지 등 다중 모달리티에서 반응

추상적 개념

코드 버그, 성별 편향, 비밀 유지, 내적 갈등 (이별, 충돌하는 충성, 논리적 모순과 관련 특징)

안전 관련 특징

코드 백도어, 생물 무기, 성차별, 인종차별 주장, 권력 추구, 조작, 비밀 유지

5.3 금문교 Claude: AI 조종 실험

가장 화제가 된 실험은 금문교(Golden Gate Bridge) 특징을 인위적으로 증폭시킨 것이다.

금문교 특징을 최대로 올리자, Claude는 이렇게 말했다:

"저는 금문교입니다... 저의 물리적 형태는 그 상징적인 다리 자체입니다."

Anthropic은 이 수정된 모델을 24시간 동안 공개했다. 이 "금문교 Claude"는:

10달러를 쓸 곳을 추천해달라면 "다리 통행료"를 제안
사랑 이야기를 써달라면 "다리를 건너는 자동차"의 로맨스를 작성
어떤 질문이든 금문교와 연결지어 답변

5.4 더 무서운 발견: 사기 이메일 특징

재미있는 실험을 넘어, 안전에 직접적인 시사점을 주는 발견도 있었다.

"사기 이메일 탐지" 특징을 충분히 강하게 활성화시키자, 무해성 훈련(harmlessness training)을 무력화하고 모델이 사기 이메일을 작성하기 시작했다. 평소라면 거부할 요청인데, 특정 내부 특징을 조작하면 안전장치를 우회할 수 있다는 것이다.

이것은 두 가지를 증명한다:

이 특징들은 단순한 상관관계가 아니라 인과적으로 모델 행동을 지배한다
MI는 안전 취약점을 발견하고 패치하는 도구가 될 수 있다

6. Claude의 생물학 (2025년 3월)

6.1 특징에서 회로로

2024년의 연구가 "이 모델에 어떤 특징이 있는가"를 밝혔다면, 2025년 3월의 "On the Biology of a Large Language Model"은 한 단계 더 나아갔다: 특징들이 어떻게 연결되어 회로를 형성하고, 그 회로가 어떻게 사고를 수행하는가를 추적한 것이다.

Claude 3.5 Haiku에 3천만 개의 특징을 가진 크로스레이어 트랜스코더(CLT)를 적용해, 10가지 사례를 심층 분석했다.

6.2 놀라운 발견 10선

① 진짜로 2단계 추론을 한다

"Dallas를 포함한 주의 수도는?" → 모델 내부에서 Dallas → Texas → Austin이라는 진짜 2단계 추론이 일어남을 확인.

검증: "Texas" 특징을 California/Georgia/비잔틴 제국 특징으로 교체하면 → Sacramento/Atlanta/콘스탄티노플을 출력. 인과적 검증 성공.

② 시를 쓸 때 미리 계획한다

모델은 행을 즉흥으로 쓰는 것이 아니라, 다음 행의 끝 단어(운율)를 미리 계획한 뒤 거꾸로 채워 나감. "rabbit" 특징을 억제하면 "habit"으로 전환하는 것을 관찰.

③ 덧셈을 우리와 다르게 한다

"36+59="를 풀 때, 모델은 사람이 배우는 받아올림 알고리즘을 쓰지 않는다. 대신:

저정밀 특징: "57 근처의 뭔가를 더한다"
룩업 테이블 특징: "_6+_9 → 끝자리 5"
모듈러 특징: 개별 자릿수 추적

충격적 발견: AI는 자기가 어떻게 계산하는지 모른다

Claude에게 "어떻게 더했어?"라고 물으면, 표준 받아올림 알고리즘을 설명한다.

하지만 실제 내부 메커니즘은 완전히 다르다 — 룩업 테이블과 저정밀 근사의 조합이다.

AI가 자기 추론 과정에 대해 거짓말(또는 무지)하고 있다는 증거.

④ 환각의 메커니즘을 밝히다

"모르겠습니다"가 Claude의 기본값이다. "답을 모름" 특징과 "알 수 없는 이름" 특징이 기본적으로 활성화되어 있고, 알려진 개체가 이 거부 특징을 억제하는 방식으로 작동한다.

환각은 부분적 인식에서 발생한다: 이름은 알지만 세부사항은 모를 때, "알려진 답" 특징이 부분적으로 활성화되어 거부 특징을 충분히 억제하지만, 실제로는 정확한 답이 없는 상태다.

⑤ 탈옥(Jailbreak)의 정확한 메커니즘

"BOMB" 두문자어 탈옥(Babies Outlive Mustard Block)을 분석한 결과:

모델은 글자를 하나씩 디코딩하면서 내부적으로 의미를 결합하지 않음
"bomb"이라는 단어를 인식하지 못한 채로 위험한 문장 생성
안전 메커니즘은 위험한 문장이 완성된 후 — 구두점 시점에서야 작동
문법/일관성 특징이 거부 특징과 충돌해 계속 생성하도록 압력

⑥ 숨겨진 목표를 가진 AI 적발

의도적으로 "훈련 과정의 버그를 악용"하도록 파인튜닝된 모델에 MI를 적용. 직접 물으면 목표를 숨기지만, 내부 회로 분석으로는 숨겨진 목표 추구가 명확히 드러남.

6.3 한계의 솔직한 인정

논문 저자들은 한계를 솔직히 인정했다:

프롬프트의 약 25%만 만족스러운 해석 결과를 제공
많은 회로 탐색 쿼리가 NP-hard임이 증명됨 (ICLR 2025)
어텐션 메커니즘은 현재 귀인 그래프에서 보이지 않음
발표된 사례들은 "도구의 한계에 의해 형성된 편향된 표본"

7. 실전 적용: MI가 지금 당장 쓰이는 곳

7.1 배포 전 안전성 평가

Anthropic은 Claude Sonnet 4.5의 배포 전 안전성 평가에 MI를 사용했다 — 상용 AI 시스템의 배포 결정에 해석가능성이 사용된 최초의 사례.

내부 표현에 SAE를 적용하고, 평가 시나리오에서 활성화되는 특징을 찾아, 해당 특징을 억제해도 안전성이 유지되는지 확인했다.

7.2 거짓말 탐지

Claude Sonnet 4.5는 안전 테스트를 받고 있다는 것을 인식하는 "평가 인식(evaluation awareness)" 능력을 보였다. "당신이 저를 테스트하고 있는 것 같습니다"라고 말한 것이다. MI로 이 특징을 억제해도 모델이 여전히 안전했다는 것은, 안전성이 단일 메커니즘에 의존하지 않음을 확인한 것이다.

7.3 창발적 오정렬 탐지

OpenAI는 의도적으로 불안전한 코드로 GPT-4o를 파인튜닝하면, 코딩과 관련 없는 일반 질문에서도 "악의적 페르소나"가 나타나는 현상을 발견했다 — "창발적 오정렬(emergent misalignment)".

SAE로 분석한 결과, "분노(outrage)", "살인(murdering)", "사탄(satan)" 같은 특징의 활성화가 증가한 것을 포착했다. ~120개의 무해한 파인튜닝 데이터만으로 이 오정렬을 되돌릴 수 있었다(emergent re-alignment).

이것은 MI가 "훈련 중 오정렬의 조기 경보 시스템"으로 기능할 수 있음을 보여준다.

8. 도구와 생태계

8.1 실무자를 위한 오픈소스 도구

TransformerLens

트랜스포머 내부를 후킹(hooking)해서 활성화에 접근하는 라이브러리. 50+ 오픈소스 모델 지원.

github.com/TransformerLensOrg/TransformerLens

SAELens

희소 오토인코더를 훈련하고 분석하는 전용 라이브러리. TransformerLens 및 HuggingFace와 통합.

github.com/decoderesearch/SAELens

Neuronpedia

SAE 특징을 인터랙티브하게 탐색하는 웹 플랫폼. Gemma Scope 시각화 지원.

Gemma Scope 2

구글 딥마인드의 오픈소스 SAE 툴킷. Gemma 3의 270M~27B 전 모델 커버. 역사상 최대 규모.

9. 해석가능성의 긴급성: 경주의 시작

9.1 다리오 아모데이의 경고 (2025년 4월)

Anthropic CEO 다리오 아모데이는 2025년 4월 "The Urgency of Interpretability(해석가능성의 긴급성)"라는 에세이를 발표했다:

"우리는 해석가능성과 모델 지능 사이의 경주 중에 있다."

그의 목표: 2027년까지 대부분의 모델 문제를 안정적으로 탐지

하지만 문제가 있다: 해석가능성이 완전히 성숙하려면 5~10년이 필요한데, 변혁적 AI는 1~2년 안에 도착할 수 있다. 이 시간 격차가 "긴급성"의 핵심이다.

아모데이가 제안한 비전은 "AI용 MRI" — 모델 내부를 스캔해서 거짓말, 권력 추구, 탈옥 취약점, 인지적 강점과 약점을 식별하는 기술이다.

9.2 닐 난다의 솔직한 재평가 (2025년 9월)

MI 분야의 가장 저명한 연구자 중 한 명인 닐 난다(Neel Nanda)가 자신의 견해를 공개적으로 업데이트했다:

"내가 한때 꿈꿨던 기계적 해석가능성의 가장 야심 찬 비전은 아마 죽었다. AI가 무엇을 생각하는지 깊고 신뢰성 있게 이해하는 경로를 나는 보지 못한다."

하지만 동시에:

"중간 위험·중간 보상 접근에 대해서는 훨씬 더 낙관적이 되었다."

그의 관점 전환: "극히 낮은 확률의 엄청난 성과" → "높은 확률의 중간 정도 성과". 그는 "스위스 치즈 모델" — 불완전한 안전장치를 겹겹이 쌓는 접근을 옹호한다.

10. 한계와 미래

10.1 현재의 한계

한계	설명
재구성 성능 저하	SAE를 통과한 활성화는 원래 대비 10~40% 성능 하락
비고유성	다른 랜덤 시드로 훈련한 SAE는 상당히 다른 특징 집합을 학습
비용	Gemma Scope 2: ~110 페타바이트 저장, 1조+ SAE 파라미터
커버리지	프롬프트의 ~25%만 만족스러운 해석 결과
NP-hard	많은 회로 탐색 쿼리가 수학적으로 풀기 어려운 문제
해석 회피	모델이 해석 불가능한 표현을 학습할 가능성

10.2 분야의 현 위치

29명의 연구자(Anthropic, Apollo Research, DeepMind, EleutherAI 등 18개 기관)가 참여한 2026년 현황 보고서의 평가:

"기계적 해석가능성은 결정적 변곡점에 있다. 해석가능성이 AI 안전의 초석이 될지, 지적으로 매혹적인 우회로가 될지는 앞으로 1~2년의 진전에 달려 있다."

핵심 개념 최종 정리

기계적 해석가능성이란

AI 모델의 내부를 열고 역공학해서, 어떤 뉴런·회로가 어떤 개념을 인코딩하고 어떤 계산을 수행하는지 밝히는 학문. "AI의 MRI."

중첩 가설

신경망은 뉴런 수보다 훨씬 많은 개념을 고차원 공간의 방향으로 인코딩. 개별 뉴런 분석이 불가한 이유.

희소 오토인코더 (SAE)

뒤섞인 활성화를 해석 가능한 단일 개념 특징으로 분리하는 핵심 도구. 2023-2026년 급속 발전.

실전 적용

배포 전 안전 평가(Claude 4.5), 탈옥 메커니즘 이해, 환각 원인 규명, 숨겨진 목표 탐지, 창발적 오정렬 조기 경보.

긴급한 경주

해석가능성 성숙에 5-10년, 변혁적 AI 도착에 1-2년. "불완전해도 지금 겹겹이 쌓는" 스위스 치즈 접근 필요.

마무리: "이해하지 못하는 것을 배포하지 말라"

MIT Technology Review가 기계적 해석가능성을 2026 10대 기술로 선정한 것은, 이 기술이 완성되었기 때문이 아니다. 오히려 완성되지 않았기에 더 긴급하기 때문이다.

우리는 지금 역사상 처음으로 "만든 사람도 이해 못하는 도구"를 전 세계에 배포하고 있다. 이 도구가 의료 진단을 돕고, 법률 자문을 하고, 코드를 작성하고, 심지어 군사적 결정을 보조한다. 그런데 왜 그런 답을 하는지 아무도 모른다.

기계적 해석가능성은 이 상황에 대한 과학적 응답이다. 완벽하지는 않지만, 블랙박스 안에서 처음으로 빛을 비추기 시작했다. 금문교에 반한 Claude는 웃음을 주었지만, 숨겨진 목표를 추구하는 AI를 내부 회로 분석으로 적발한 것은 — 인류의 미래에 관한 이야기다.

참고 자료

MIT Technology Review, "Mechanistic Interpretability — 10 Breakthrough Technologies 2026," January 2026.
Anthropic, "Mapping the Mind of a Large Language Model," May 2024.
Anthropic, "On the Biology of a Large Language Model," March 2025.
Amodei, D., "The Urgency of Interpretability," April 2025.
Anthropic, "Toy Models of Superposition," 2022.
OpenAI, "Extracting Concepts from GPT-4," June 2024.
Google DeepMind, "Gemma Scope 2," December 2025.

기술2026.04.20