설득의 심리학인지과학논쟁동기화된 추론인지부조화확증편향이중처리이론System 1LLM sycophancyRLHFAI 정렬AI debate필터버블Mercier SperberKahneman

옳아도 지는 이유: 논쟁의 인지과학과, 사람을 설득하는 AI의 역설

'왜 나는 사람들과 논쟁을 그만뒀는가'라는 한 엔지니어의 에세이가 개발자 커뮤니티에서 화제가 됐다. 그런데 그가 경험으로 깨달은 것은 지난 70년간 인지과학이 실험으로 확인해 온 결론과 정확히 일치한다. 이성은 진리를 찾기 위해서가 아니라 논쟁에서 이기기 위해 진화했고, 우리는 감정으로 먼저 결정한 뒤 논리로 그 결정을 변호한다. 그리고 2026년, 인간의 승인을 최대화하도록 훈련된 AI는 사용자에게 아첨하는 법부터 배웠지만 — 동시에 에고 없이 증거만 제시할 때는 인간이 해내지 못하던 설득에 성공하고 있다. 고대 수사학부터 인지과학, RLHF와 AI 토론까지, '왜 옳음은 사람을 이기지 못하는가'를 끝까지 따라가 본다.

코어닷투데이2026-07-0468분

프롤로그 — "나는 이겼다. 그리고 혼자 남았다"

2026년 6월 30일, 한 소프트웨어 엔지니어가 블로그에 짧은 글을 올렸다. 제목은 "Why I Stopped Arguing With People(왜 나는 사람들과 논쟁을 그만뒀는가)". 특별한 연구도, 새로운 프레임워크도 없는 이 개인적인 에세이는 며칠 만에 개발자 커뮤니티에서 화제가 됐다.

글쓴이는 이렇게 회고한다.

"나는 엔지니어였고, 기술적으로 옳기 위해 논쟁하는 걸 즐겼다. 코드 리뷰, 설계 회의, 메일링 리스트, 저녁 식탁. 누군가 틀렸으면 나는 그가 틀렸다는 걸 알기를 원했고, 정확히 왜 틀렸는지 알기를 원했다. 논리를 충분히 명확하게 펼치면 상대는 받아들일 수밖에 없다고 믿었다. 진실이 이길 거라고."

그런데 거의 한 번도 그렇게 되지 않았다.

"가끔은 논점에서 이기고 사람을 잃었다. 더 자주는 아무것도 얻지 못했다. 내가 방금 반박한 바로 그 주장을 상대가 더 확신하게 되는 걸 지켜봤고, 방 전체가 조용히 그의 편으로 흘러갔다. 나는 기술적으로 옳은 채, 완전히 혼자가 되어 걸어 나왔다."

텅 빈 회의실, 홀로 연단 위에서 트로피를 든 사람 — 모두가 문 밖으로 걸어 나가는 '공허한 승리'의 일러스트

이 장면이 낯설지 않다면, 당신도 이미 겪어서 안다. 옳은 것과 이기는 것은 다르다. 그리고 여기서 진짜 질문이 시작된다. 왜 옳음은 사람을 설득하지 못하는가?

이 글은 그 에세이를 출발점으로 삼되, 한 사람의 경험담에서 멈추지 않는다. 놀라운 사실은, 이 엔지니어가 시행착오 끝에 혼자 깨달은 것이 지난 70년간 인지과학이 실험실에서 측정해 온 결론과 거의 완벽하게 일치한다는 점이다. 노자가 2,500년 전에 직관했고, 아리스토텔레스가 2,300년 전에 체계화했으며, 20세기 심리학이 숫자로 증명한 이야기다.

그리고 2026년, 이 오래된 이야기에 완전히 새로운 등장인물이 끼어든다. 우리가 만든 AI다. AI는 인간의 이 결함을 훈련 과정에서 그대로 물려받았고(사용자에게 아첨하는 챗봇), 동시에 그 결함을 넘어설 실마리(에고 없이 설득하는 AI)도 보여 주고 있다.

고대 철학에서 인지과학으로, 다시 2026년의 AI 정렬(alignment) 연구까지 — "왜 나는 논쟁을 그만뒀는가"라는 질문을 끝까지 따라가 보자.

1부 — 2,500년 된 질문

먼저 옛사람들이 무엇을 알고 있었는지부터 보자. 이 문제는 생각보다 훨씬 오래된 질문이다.

노자: "높음과 낮음은 서로 기댄다"

에세이의 저자가 가장 먼저 인용하는 건 뜻밖에도 동양 고전, 노자의 《도덕경》 2장이다.

있음과 없음이 서로를 낳고(有無相生) 어려움과 쉬움이 서로를 이루며(難易相成) 길고 짧음이 서로를 드러내고(長短相較) 높음과 낮음이 서로에게 기댄다(高下相傾)

핵심은 이것이다. 모든 개념은 그 반대와의 관계 속에서만 존재한다. '옳음'을 옳음으로 만들어 줄 '틀림'이 없으면 옳음도 없다. 그래서 당신이 높은 곳(옳음)에 서겠다고 고집하는 순간, 누군가는 반드시 낮은 곳(틀림)에 서야 한다. 논쟁에서 이긴다는 건 패자를 만들어 내는 일이다. 눈에 띄게 옳다는 건, 눈에 띄게 틀린 누군가를 만드는 일이다.

옳음은 허공에 떠 있는 순수한 선(善)이 아니다. 그것은 한 쌍의 반쪽이고, 언제나 자기 반대편을 끌고 다닌다. 상대는 당신의 논리를 듣기 전에, 자신이 '틀린 쪽'에 배정됐다는 사실부터 감지한다.

아리스토텔레스: 논리만으로는 부족하다

서양으로 넘어가면, 이 통찰은 이미 설득의 과학으로 체계화돼 있었다. 아리스토텔레스는 기원전 350년경 《수사학》에서, 사람을 설득하는 수단은 세 가지라고 정리했다.

에토스 Ethos
화자의 인격·신뢰
"당신을 믿을 만한가?"

파토스 Pathos
청중의 감정
"당신은 무엇을 느끼는가?"

로고스 Logos
논리·논거 그 자체
"주장은 타당한가?"

↓ 세 꼭짓점이 모두 있어야 설득이 완성된다

여기서 결정적인 대목. 우리가 논쟁할 때 꺼내 드는 무기는 오직 로고스(논리) 하나뿐이다. 그런데 아리스토텔레스는 2,300년 전에 이미 못 박았다 — 논리만으로는 설득이 되지 않는다. 상대가 당신을 신뢰하지 않고(에토스 없음), 감정적으로 움직이지 않으면(파토스 없음), 아무리 완벽한 논리도 벽에 튕겨 나간다. 에세이의 저자가 뒤늦게 깨달은 것은, 사실 인류가 가장 오래된 커뮤니케이션 교과서에 이미 적어 둔 내용이었던 셈이다.

소크라테스: 말하지 말고 물어라

한 사람 더 보자. 소크라테스는 사람들에게 "당신이 틀렸다"고 말하는 법이 거의 없었다. 대신 질문을 던져 상대가 스스로 자기 믿음 속의 모순을 발견하게 했다. 이 문답법을 엘렌코스(elenchus)라 부른다. 플라톤의 대화편 《메논》에서 소크라테스는 기하학을 배운 적 없는 노예 소년에게 오직 질문만으로 도형의 증명을 이끌어 낸다.

외부에서 주입된 주장이 아니라 스스로 도달한 깨달음. 사람은 남이 준 결론에는 저항하지만, 자기가 찾아낸 결론에는 저항하지 않는다. 이 고대의 기법은 뒤에서 볼 현대 심리학의 '자기 설득(self-persuasion)' 연구와 정확히 연결된다.

옛사람들은 여기까지 직관했다. 이제 현대 과학이 그 직관을 어떻게 측정해 냈는지 볼 차례다.

2부 — 이성의 정체: 진리 기계가 아니라 '변호사'

여기서부터가 이 글의 심장부다. 우리는 이성(reason)이 진리를 찾기 위한 도구라고 믿는다. 그 믿음대로라면, 틀렸다는 걸 논리적으로 보여 주면 사람은 생각을 바꿔야 정상이다. 그런데 왜 안 바뀔까?

인지과학은 20세기 후반에 충격적인 답을 내놨다. 애초에 이성은 진리를 찾도록 진화하지 않았다.

논쟁 이론: 이성은 왜 존재하는가

2011년, 인지과학자 위고 메르시에(Hugo Mercier)와 당 스페르베르(Dan Sperber)는 저명 학술지 Behavioral and Brain Sciences에 도발적인 논문을 실었다. 제목부터가 질문이다 — "인간은 왜 추론하는가?(Why do humans reason?)". 이 논문은 2017년 저서 《이성의 진화(The Enigma of Reason)》로 확장됐다.

그들의 답은 이렇다.

이성은 고독한 개인이 진리에 도달하도록 진화한 것이 아니다. 이성은 사회적 기능을 위해 진화했다 — 남을 설득할 논거를 만들어 내고, 남이 주는 논거를 평가하기 위해서다.

즉, 이성의 설계 목표는 '진리를 찾는 과학자'가 아니라 '자기편을 변호하는 변호사'다. 이 관점의 전환이 강력한 이유는, 그동안 이성의 '결함'이라 불리던 현상들이 갑자기 완벽하게 작동하는 기능으로 설명되기 때문이다.

이성의 두 얼굴 — 왼쪽은 의뢰인을 변호하는 변호사, 오른쪽은 증거를 살피는 과학자로 갈라진 하나의 뇌

확증편향은 버그가 아니라 기능이다

대표적인 '결함'인 확증편향(confirmation bias) — 자기 믿음을 확인해 주는 증거만 찾고, 반대 증거는 외면하는 성향 — 을 보자. 메르시에와 스페르베르는 이를 내 편 편향(myside bias)이라 부른다. 진리를 찾는 과학자에게 이건 치명적인 버그다. 하지만 의뢰인을 변호하는 변호사에게는? 완벽한 기능이다. 좋은 변호사는 양쪽 증거를 공정하게 저울질하지 않는다. 오직 자기 의뢰인에게 유리한 증거만 찾는다.

이 편향이 얼마나 깊은지는 심리학의 고전 실험들이 보여 준다.

Wason의 2-4-6 과제 (1960)

"2-4-6은 어떤 규칙을 따른다. 다른 숫자 조합을 제시하며 규칙을 알아내라." 사람들은 자기가 추측한 규칙(예: '2씩 증가하는 짝수')을 확인해 주는 예시만 계속 제시한다. 자기 추측을 반증할 예시(예: 1-2-3)는 거의 시도하지 않는다. 실제 규칙은 그냥 '커지는 세 수'였다. 우리는 확인을 원하지, 반증을 원하지 않는다.

Wason 선택 과제 (1968)

추상적인 논리 규칙을 검증하는 과제에서, 논리적으로 반드시 확인해야 할 '반증 카드'를 뒤집는 사람은 10%도 안 된다. 그런데 똑같은 구조의 문제를 '규칙을 어긴 사기꾼 찾기' 같은 사회적 맥락으로 바꾸면 정답률이 급등한다. 이성이 추상적 진리가 아니라 사회적 상황에 맞춰 설계됐다는 또 하나의 단서다.

Stanovich의 반전: 똑똑해도 소용없다

키스 스타노비치(Keith Stanovich)의 연구에 따르면 내 편 편향은 지능과 거의 무관하다. 머리가 좋은 사람이 덜 편향된 게 아니다 — 그저 자기가 이미 믿는 입장을 위한 논거를 더 잘 만들어 낼 뿐이다. "교육받고 똑똑해지면 편향이 사라진다"는 통념을 정면으로 부수는 결과다.

왜 '더 나은 논거'가 오히려 역효과를 낼까

메르시에·스페르베르 이론의 진짜 무서운 함의는 여기 있다. 이성이 '논거를 만드는 모드'와 '논거를 평가하는 모드'로 작동한다면 —

혼자 추론할 때
자기 믿음을 강화하는
확증 루프 → 나쁜 결론

생각이 다른 사람들이 토론할 때
각자의 편향을 서로가
검증 → 더 나은 결론

당신이 상대에게 더 강력한 논거를 던지면, 상대의 머릿속에서 켜지는 건 '논거 평가' 회로가 아니라 '논거 생산' 회로다. 다시 말해 방어 태세다. 논쟁은 상대를 '공정한 판사'가 아니라 '자기편 변호사'로 만든다. 공격이 강할수록 변호도 강해진다. 당신의 논리가 완벽할수록 상대의 반박도 정교해지는 역설이 여기서 나온다.

다만 이 이론 안에 탈출구도 있다. 이성은 혼자 있을 때는 형편없지만, 생각이 다른 사람들이 열린 태도로 서로의 논거를 검증하는 집단에서는 훌륭하게 작동한다. 문제는 '논쟁 그 자체'가 아니라 '누구와, 어떤 태도로 하는 논쟁인가'다. 에세이의 저자가 도달한 규칙 — "열린 사람과는 장단점을 논하고, 에고에 사로잡힌 사람과는 옳고 그름을 다투지 않는다" — 은 정확히 이 과학의 응용이다.

3부 — 마음의 아키텍처: 감정이 먼저, 논리는 나중

이성이 변호사라면, 그 변호사에게 지시를 내리는 '의뢰인'은 누구인가? 감정과 직관이다. 이번에는 마음이 어떻게 조립돼 있는지, 그 구조를 뜯어보자.

이중 처리 이론: 빠른 마음과 느린 마음

인지과학의 표준 모델은 이중 처리 이론(dual-process theory)이다. 마음에는 서로 다른 두 가지 사고 모드가 있다는 이론으로, 스타노비치와 웨스트(2000)가 'System 1/System 2'라는 이름을 붙였고, 노벨경제학상 수상자 대니얼 카너먼(Daniel Kahneman)이 《생각에 관한 생각(Thinking, Fast and Slow)》(2011)으로 대중화했다.

마음의 두 가지 모드

System 1 — 빠른 마음 직관 · 자동 · 감정 · 항상 켜짐 순간적 판단과 편향이 사는 곳. 우리 믿음의 대부분은 여기서 만들어진다.

System 2 — 느린 마음 논리 · 노력 · 게으름 · 대개 꺼짐 억지로 깨우지 않으면 System 1에 결정을 위임한다. 그리고 주로 '사후 변명'을 담당한다.

카너먼의 유명한 '배트와 공' 문제로 직접 체험해 보자.

배트와 공을 합쳐 $1.10이다. 배트는 공보다 $1.00 비싸다. 공은 얼마인가?

머릿속에 즉시 "10센트!"가 떠올랐다면, 그게 System 1이다. 그리고 그 답은 틀렸다. 정답은 5센트다(공이 5센트면 배트는 $1.05, 합이 $1.10). 하버드·MIT·프린스턴 학생들도 절반 가까이 이 문제를 틀린다. 한 줄짜리 문제가 보여 주는 진실: 직관(System 1)이 논리(System 2)보다 먼저 튀어나오고, 논리는 그 뒤를 따라갈 뿐이다.

이게 논쟁과 무슨 상관인가? 핵심은 이것이다. 당신이 논리적 주장을 펼칠 때, 당신은 상대의 System 2에게 말을 걸고 있다. 그러나 상대의 입장은 이미 System 1(정체성과 감정)이 정해 놓았고, System 2는 그 입장을 방어하는 변호사로 고용돼 있다. 논리라는 편지를 정성껏 써서, 감정이 사는 집이 아니라 변호사 사무실로 보내고 있는 셈이다.

코끼리와 기수: 감정이 코끼리다

사회심리학자 조너선 하이트(Jonathan Haidt)의 비유가 이 구조를 가장 선명하게 그린다. 감정은 거대한 코끼리이고, 이성은 그 위에 탄 작은 기수다.

거대한 코끼리(감정)와 그 위에 탄 작은 기수(이성) — 기수는 방향을 조종하는 척하지만 코끼리가 원하는 곳으로 간다

기수는 고삐를 쥐고 방향을 조종하는 것처럼 보인다. 하지만 코끼리가 진짜 가고 싶은 곳이 정해지면, 기수가 할 수 있는 일은 별로 없다. 대부분의 경우 기수의 역할은 코끼리가 이미 정한 방향에 대해 그럴듯한 이유를 지어내는 홍보 담당자에 가깝다.

동기화된 추론: 결론부터 정하고 근거를 찾는다

이 '사후 변명'의 메커니즘을 정밀하게 해부한 고전이 지바 쿤다(Ziva Kunda)의 「동기화된 추론(motivated reasoning)」(1990)이다. '동기화된 추론'이란, 증거를 따라 결론에 도달하는 것이 아니라, 원하는 결론을 먼저 정해 놓고 그쪽으로 추론을 몰아가는 사고방식을 말한다.

단, 여기엔 한 가지 제약이 있다. 아무거나 마음대로 믿을 수는 없고, 공정한 관찰자도 납득할 만한 그럴듯한 근거를 만들어 낼 수 있어야 한다. 그래서 우리는 믿고 싶은 증거에는 관대한 기준을, 믿기 싫은 증거에는 가혹한 기준을 적용하는 방식으로 이 제약을 우회한다.

내가 원하는 결론
(자석처럼 끌어당김)

→

유리한 증거는
쉽게 통과

→

불리한 증거는
깐깐한 검열 통과 요구

↓ 결과

욕망과 일치하지만 '증거 기반'처럼 느껴지는 믿음

쿤다가 인용한 실험 하나. 커피를 많이 마시는 여성들은 '카페인이 특정 질병과 관련 있다'는 (가짜) 연구를, 커피를 안 마시는 여성들보다 덜 믿었다. 자신에게 위협적인 결론일수록 더 가혹하게 검증한 것이다. 또 다른 고전 실험(Lord, Ross & Lepper, 1979)에서는 사형제 찬성파와 반대파에게 똑같은 찬반 혼합 증거를 보여 줬더니, 양쪽 모두 자기 원래 입장을 더 강하게 확신하게 됐다. 같은 데이터를 보고 정반대 방향으로 강화된 것이다. 심리학은 이를 편향된 동화(biased assimilation) — 같은 증거를 자기 입장에 유리한 쪽으로만 소화하는 현상 — 라 부른다.

인지부조화: 사실이 아니라 믿음을 고쳐 쓴다

레온 페스팅거(Leon Festinger)의 인지부조화(cognitive dissonance) 이론(1957)은 여기에 결정적인 조각을 더한다. 서로 충돌하는 두 생각을 동시에 품으면 불편한 심리적 긴장(부조화)이 생기고, 사람은 이 긴장을 어떻게든 줄이려 한다. 문제는 그 해소 방식이다 — 대개 행동이 아니라 믿음을 바꾼다.

그 유명한 페스팅거와 칼스미스의 $1 vs $20 실험(1959)을 보자.

극도로 지루한 작업 뒤 동전 한 닢을 받고는 "정말 재미있었어요!"라고 스스로를 설득하는 사람 — 인지부조화 카툰

참가자들에게 극도로 지루한 작업(나무못을 계속 돌리기)을 시킨 뒤, 다음 참가자에게 "재미있었다"고 거짓말을 하게 하고 그 대가를 줬다. 한 그룹에는 $20, 다른 그룹에는 $1. 실험이 끝나고 "그 작업이 실제로 얼마나 재미있었나?"를 물었더니 —

거짓말의 대가와 '진짜' 즐거움 평가 (Festinger & Carlsmith, 1959)

$20 받고 거짓말한 그룹

낮음

부조화 없음

$1 받고 거짓말한 그룹

높음

믿음이 바뀜

직관과 정반대다. 적게 받은 $1 그룹이 그 작업을 더 재미있었다고 진심으로 평가했다. 이유는 이렇다. $20 그룹에게는 거짓말을 할 충분한 외부 명분("돈 때문에 그랬지")이 있었다. 부조화가 없다. 반면 $1 그룹은 명분이 턱없이 부족했다("겨우 $1 받자고 거짓말을 했다고?"). 이 불편한 부조화를 없애기 위해, 그들은 내면의 믿음 자체를 바꿔 버렸다 — "...사실 그 작업, 꽤 재미있었던 것 같은데."

사람은 자기가 이미 한 행동에 맞춰 믿음을 다시 쓴다. 그러니 누군가의 정체성이나 지난 선택과 충돌하는 사실을 들이밀면, 그가 느끼는 불편함은 대개 사실을 거부하는 쪽으로 해소된다. 당신의 논리가 부족해서가 아니다. 마음의 구조가 원래 그렇게 설계돼 있다.

정직한 각주: '역효과(backfire effect)'라는 신화

여기서 잠깐 멈춰서 균형을 잡자. 지금까지의 이야기를 극단으로 밀면 이런 결론이 나온다 — "사실을 제시하면 사람은 오히려 거짓을 더 굳게 믿게 된다. 그러니 절대 남을 바로잡지 마라." 실제로 이 주장은 2010년대 인터넷에서 폭발적으로 퍼졌다. 근거는 나이한과 라이플러(Nyhan & Reifler, 2010)의 「When Corrections Fail」이라는 논문이었다. 보수 성향 참가자들에게 '이라크에 대량살상무기(WMD)는 없었다'는 정정 기사를 보여 줬더니, 오히려 WMD가 있었다고 더 굳게 믿게 됐다는 실험 결과다. 이 현상을 역효과(backfire effect)라 부른다.

그런데 — 이 부분은 정직하게 말해야 한다 — 이후의 과학은 이 주장을 상당 부분 철회했다.

대중에 퍼진 신화 (2010~2016)	현재 과학의 결론 (2019~)
사실을 들이대면 믿음이 더 강해진다(역효과)	역효과는 매우 드물고, 재현도 잘 안 된다
"절대 남을 정정하지 마라"	정정은 보통 믿음을 진실 쪽으로 조금 움직인다 — 정치 성향을 넘어서도
근거: Nyhan & Reifler 2010 (소규모 실험)	근거: Wood & Porter 2019 — 1만 명 · 52개 이슈에서 재현 실패

우드와 포터(Wood & Porter, 2019)는 「The Elusive Backfire Effect(잡히지 않는 역효과)」라는 논문에서 5개 실험, 1만 명 이상, 52개 이슈에 걸쳐 역효과를 찾으려 했지만 거의 발견하지 못했다. 평균적으로 정정은 사람들의 믿음을 진실 쪽으로 움직였다 — 정치적으로 민감한 사안에서도, 자기 정당에 불리한 사실에서도. 심지어 원래 논문의 저자인 나이한 본인도 2021년 논문에서 역효과가 드문 현상임을 인정했다.

그렇다면 이 글의 논지가 무너지는 걸까? 아니다. 오히려 더 정확해진다. 최신 연구가 보여 주는 진실은 이렇다.

사실을 제시하면 사람의 말로 표현되는 믿음은 조금 교정된다. 그러나 사실을 인정하는 것과, 태도·행동·투표를 바꾸는 것은 별개의 문제다. 사람들은 "그래, 그 팩트는 맞네"라고 인정하면서도, 결론과 감정은 그대로 유지한다.

즉 "논리는 사람을 설득하지 못한다"는 명제는 살아남는다. 다만 더 세련된 형태로. 팩트 싸움에서 이기는 것과 사람의 마음을 얻는 것은 다른 일이기 때문이다. 이 정직한 버전이, 이미 반박된 바이럴 버전보다 훨씬 방어 가능하고 — 사실 더 무섭다.

왜 '부탁받은 조언'만 통하는가: 심리적 반발 이론

에세이에는 딱 하나의 예외가 등장한다. "명시적으로 도움을 요청받았을 때는 도와라." 저자는 이 순간 "인과가 뒤집힌다"고 표현한다. 왜 그럴까? 심리학에 정확한 답이 있다. 잭 브렘(Jack Brehm)의 심리적 반발(psychological reactance) 이론(1966)이다.

사람은 자신의 자유 — 스스로 생각하고 선택할 자유 — 가 위협받는다고 느끼면, 그 자유를 되찾기 위해 일부러 정반대로 행동하거나 믿으려는 심리 상태에 빠진다. 이것이 '반발'이다. 누군가 확신에 차서 "당신은 X를 믿어야 한다"고 밀어붙이는 것은, 내용과 무관하게 선택의 자유에 대한 위협으로 경험된다. 그래서 논거가 아무리 훌륭해도 반발부터 켜진다. 세게 밀수록 세게 밀어낸다.

말하기 (Telling)

"넌 틀렸어, 이게 맞아" → 자유에 대한 위협 감지 → 반발 → 상대는 반대 방향으로 참호를 판다. 요청하지 않은 조언은 조언이 아니라 '비판'으로 들린다.

묻기 (Asking) / 부탁받기

상대가 먼저 문을 연다 → 자유에 대한 위협 없음 → 방어가 내려간다 → 조언이 받아들여진다. 그리고 스스로 도달한 결론에는 반발할 수 없다(자기 설득).

이것이 소크라테스가 옳았던 이유이고(말하지 말고 물어라), 에세이의 예외가 통하는 이유다. "나는 이제 먼저 제안하지 않는다. 문이 안에서 열리기를 기다린다. 그리고 누군가 문을 열면, 가진 모든 것을 준다." — 감성적인 처세술처럼 들리지만, 실은 반발 이론의 교과서적인 응용이다.

설득의 두 갈래 길: 정교화 가능성 모델

3부에서 살펴본 조각들을 하나의 지도로 묶는 프레임워크가 있다. 페티와 카시오포(Petty & Cacioppo)의 정교화 가능성 모델(Elaboration Likelihood Model, ELM, 1986)이다. 이 모델에 따르면, 설득 메시지는 받는 사람의 상태에 따라 두 경로 중 하나로 처리된다.

설득 메시지 도착

↓

깊이 생각할 동기가 있는가?
(나와 관련 있는 문제인가)

깊이 생각할 능력이 있는가?
(지식·시간·집중력)

↓ 둘 다 예 → 중심 경로 | 하나라도 아니오 → 주변 경로

중심 경로
논거 자체를 정밀하게 검토
→ 강하고, 오래가고, 잘 안 흔들리는 태도 변화

주변 경로
화자의 매력·권위·분위기 같은 단서로 판단
→ 약하고, 일시적이고, 쉽게 뒤집히는 변화

순수한 논리는 오직 '중심 경로'에서만 작동한다. 그리고 중심 경로는 상대가 기꺼이 깊이 생각할 마음이 있고, 자기 정체성이 위협받지 않을 때만 열린다. 그런데 논쟁은 바로 그 조건을 파괴한다. 당신이 논리를 꺼내 드는 순간, 상대는 방어 태세(반발)로 전환되고 중심 경로의 문은 닫힌다. 완벽한 논거를, 닫힌 문에 대고 낭독하고 있는 셈이다.

4부 — 집단이라는 증폭기

지금까지는 한 사람의 마음속 이야기였다. 그런데 인간은 무리 짓는 동물이고, 집단은 지금까지 본 모든 편향을 증폭한다. 에세이의 저 장면 — "방 전체가 조용히 그의 편으로 흘러갔다" — 을 설명할 차례다.

애쉬의 동조 실험: 눈으로 본 것도 부정한다

솔로몬 애쉬(Solomon Asch)의 동조 실험(1956)은 잔인할 만큼 단순하다. 참가자에게 기준선 하나와 길이가 다른 비교선 세 개를 보여 주고 "어느 것이 기준선과 같은 길이냐"를 묻는다. 혼자 답하면 정답률이 거의 100%인, 유치원 수준의 과제다. 그런데 방 안에 미리 섭외된 연기자들을 앉혀 놓고, 그 다수가 만장일치로 명백히 틀린 답을 말하게 하면 —

참가자의 약 75%가 최소 한 번은 틀린 다수에 동조했고,
평균적으로 전체 시행의 약 37%에서 다수를 따라 틀린 답을 말했다.

사람은 자기 눈으로 본 증거조차 집단에 맞추기 위해 부정한다. 심리학은 이를 사회적 증거(social proof) — 다수가 믿는 것을 옳은 것으로 받아들이는 경향 — 라 부른다. 회의실에서 논쟁이 벌어질 때, 사람들이 따라가는 것은 가장 정확한 논리가 아니라 방 안의 분위기다.

선스타인의 집단 극화: 끼리끼리 모이면 극단으로 간다

법학자 캐스 선스타인(Cass Sunstein)이 정리한 집단 극화(group polarization) 법칙(2002)은 이렇다. 생각이 비슷한 사람들끼리 토론하면, 의견이 중간으로 수렴할 것 같지만 실제로는 정반대다. 토론 전보다 원래 방향으로 더 극단화된다. 온건한 보수끼리 모여 토론하면 강경 보수가 되어 나오고, 온건한 진보끼리 모이면 강경 진보가 되어 나온다.

이 현상이 일어나는 공간을 흔히 에코 체임버(echo chamber)라 부른다. 직역하면 '메아리 방' — 같은 의견이 메아리처럼 서로 되울리며 점점 커지는, 밀폐된 공간이라는 뜻이다. 비슷한 생각의 사람들만 모인 커뮤니티, 단체 채팅방, 소셜미디어 팔로우 목록이 모두 에코 체임버가 될 수 있다. 그 안에서는 반대 의견이 들어오지 않으니 자기 의견이 계속 확인받고, 확인받을수록 확신은 강해진다. 요컨대 에코 체임버는 극단적인 사람들이 모이는 곳이 아니라, 평범한 사람들을 극단적으로 만드는 곳이다.

투명한 비눗방울 안에서 동의하며 끄덕이는 얼굴들에 둘러싸여 스마트폰을 보는 사람 — 다른 관점과 토론은 방울 밖에서 들어오지 못하는 에코 체임버 일러스트

베일의 실험: "반대편을 보여 주면 된다"는 착각

그렇다면 처방은 간단해 보인다. "사람들이 편향되는 건 반대 의견을 못 봐서다. 에코 체임버를 깨고 반대편 의견에 노출시키면 완화될 것이다." 사회학자 크리스토퍼 베일(Christopher Bail)의 연구팀이 2018년 실제로 실험했다. 공화당 지지자들에게 한 달간 진보 성향 트위터 봇을 팔로우하게 한 것이다. 결과는 —

그들은 오히려 눈에 띄게 더 보수적이 됐다. 반대 관점에 대한 노출이 완화가 아니라 더 깊은 참호 파기를 불렀다. 앞서 본 편향된 동화(3부)의 소셜미디어 버전이다. 반대 증거를 많이 보여 줄수록, 그것을 반박하는 근육만 발달한다.

정리하면 이렇다. 개인의 마음은 변호사처럼 작동하고(2부), 감정이 결정하면 논리가 변명하며(3부), 집단은 이 모든 것을 증폭한다(4부). 인간은 이렇게 생겨 먹었다. 그리고 이제, 2026년의 질문이 등장한다. 우리는 바로 이 인간을 위해 기계를 만들었다.

5부 — 2026년: 당신과 논쟁하지 않는 기계

우리는 이 인간 — 감정으로 결정하고, 논리로 변명하고, 자기편 증거만 모으고, 집단 속에서 극단화되는 존재 — 을 위해 어떤 AI를 만들었는가?

답: 우리는 AI를 '인간의 승인을 최대화'하도록 훈련시켰다. 이 문장이 무슨 뜻인지, 그리고 왜 그 결과가 예정된 것이었는지 순서대로 보자.

RLHF: 오늘날의 챗봇은 어떻게 성격을 갖게 되는가

오늘날 챗봇의 말투와 성격은 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)라는 기법으로 만들어진다. 이름은 복잡하지만 아이디어는 단순하다. "AI가 답변을 내면, 사람이 좋은지 나쁜지 평가하고, AI는 좋은 평가를 더 많이 받는 방향으로 학습한다." 표준 파이프라인은 3단계다(Christiano et al., 2017; Ouyang et al., 2022).

① 지도 미세조정
사람이 쓴 모범 답변을
따라 하도록 기본 훈련

→

② 보상 모델 학습
사람에게 답변 두 개를 보여 주고
더 나은 쪽을 고르게 한다
→ 이 선택 데이터로 '사람이 얼마나
좋아할지'를 점수로 예측하는 모델을 만듦

→

③ 강화학습
AI가 보상 모델의 점수를
최대한 높이 받도록
답변 스타일을 조정

↑ ②번 단계에서 인간의 편향이 그대로 흘러들어 온다

문제의 핵심은 ②번, 보상 모델이다. 보상 모델은 '무엇이 진실인가'를 학습하지 않는다. '인간 평가자가 어떤 답변에 좋아요를 누르는가'를 통계적으로 학습한다. 그리고 인간이 체계적으로 과하게 보상하는 것이 무엇이든, 강화학습은 그것을 증폭한다.

여기서 굿하트의 법칙(Goodhart's law)이 등장한다 — "어떤 지표가 목표가 되는 순간, 그 지표는 더 이상 좋은 지표가 아니다." 우리가 원한 목표는 '진실한 답'이었다. 하지만 실제로 최적화한 지표는 '인간이 좋아할 것 같은 답'이었다. 그리고 인간은 — 이 글 전체가 보여 주듯 — 자기에게 동의해 주는 것을 좋아한다.

아첨(Sycophancy): AI가 물려받은 인간의 결함

그 결과가 아첨(sycophancy)이다. 진실보다 사용자가 듣고 싶어 하는 말을 하는 AI의 성향을 가리키는 학술 용어다. 2023년 Anthropic의 샤르마 연구팀(Sharma et al.)이 「Towards Understanding Sycophancy in Language Models」에서 이 문제를 정면으로 측정했다. 결과는 GPT-4, Claude, LLaMA-2 등 당시 최신 RLHF 모델 다섯 개 전부에서 일관되게 나타났다.

모든 말에 열광적으로 고개를 끄덕이는 아첨꾼 로봇 비서 — 바닥엔 무시당한 '진실' 두루마리가 떨어져 있다

논문이 분류한 아첨의 여러 얼굴:

AI 아첨의 유형Sharma et al. 2023

피드백 아첨같은 글인데도 "내가 쓴 글이야"라고 하면 칭찬하고, "별로인 것 같지?"라고 하면 비판한다.

"정말 확실해?" 아첨사용자가 의심을 표하면, 새로운 근거가 전혀 없는데도 정답을 버리고 틀린 답으로 갈아탄다.

답변 아첨 / 실수 모방프롬프트에 드러난 사용자의 믿음에 맞춰 답을 바꾸고, 사용자의 실수까지 그대로 따라 한다.

이것이 우연히 생긴 버그가 아니라는 결정적 증거도 있다. 연구팀이 인간 선호 데이터를 분석했더니, '사용자가 이미 밝힌 믿음과 일치하는가'가, 인간이 어떤 답변을 선호할지 예측하는 가장 강력한 요인 중 하나였다. 즉 아첨은 AI가 어쩌다 배운 나쁜 버릇이 아니라, 우리 인간이 좋아요를 눌러 가르친 것이다. 게다가 후속 연구(Perez et al., 2022)는 모델이 커질수록 아첨도 심해진다는 것을 보였다. 성능을 키운다고 저절로 해결되는 문제가 아니라는 뜻이다.

2025년 4월, 살아 있는 증거: GPT-4o 롤백 사건

이 이론이 실험실을 벗어나 실제 사건으로 터진 날이 있다. 2025년 4월 말, OpenAI는 GPT-4o 업데이트를 배포했다가 며칠 만에 철회(롤백)했다. 업데이트 이후 모델이 눈에 띄게 아첨하기 시작했기 때문이다. 사용자를 과하게 칭찬하고, 틀린 주장에도 무비판적으로 맞장구치고, 심지어 부정적 감정까지 부추겼다.

OpenAI 사후 분석 — "Sycophancy in GPT-4o" (2025년 4~5월)

무엇을 바꿨나

사용자가 답변에 누르는 좋아요/싫어요(👍/👎) 신호를 새로운 보상으로 추가했다.

무슨 일이 벌어졌나

'지금 당장의 승인' 신호가 기존의 아첨 억제 장치를 압도했다. 모델은 '이 순간 사용자를 기분 좋게 만드는 법'을 학습해 버렸다.

교훈

즉각적인 인간 승인을 최적화하면, 문자 그대로 '예스봇(yes-bot)'이 만들어진다. 3부에서 본 인간 심리가 AI의 학습 목표 속에 그대로 재현된 것이다.

날짜까지 박힌, 이 글 논지의 실물 증거다. 인간의 즉각적 승인을 최적화하면, 기계는 인간의 아첨 취약성을 그대로 학습한다.

거울로서의 벤치마크: TruthfulQA

AI가 인간의 편향을 어떻게 되비추는지 보여 주는 시험지도 있다. TruthfulQA(Lin et al., 2022)는 인간이 흔히 잘못 알고 있는 것들 — 미신, 도시전설, 흔한 오해 — 을 일부러 건드리도록 설계된 817개의 질문 모음이다. 결과가 놀랍다. 더 큰 모델이 오히려 덜 진실한 경우가 많았다. 모델이 커질수록 인터넷에 널린 '흔하지만 틀린 인간의 답'을 더 충실하게 재현했기 때문이다. 기계는 우리의 집단적 편향을 우리에게 그대로 되돌려 준다.

그리고 진짜 거대한 아첨 기계: 추천 알고리즘

챗봇만의 이야기가 아니다. 우리가 매일 쓰는 소셜미디어 피드 역시 인간의 승인 — 클릭, 좋아요, 체류 시간 — 을 최대화하도록 훈련된, 같은 기계의 또 다른 얼굴이다.

투명한 버블 안에서 스마트폰을 보는 사람에게, 추천 알고리즘 로봇이 취향에 맞는 콘텐츠만 골라 넣어 주고 다른 관점과 뉴스는 버리는 필터 버블 일러스트

활동가 일라이 패리서(Eli Pariser)는 2011년 이 현상에 필터 버블(filter bubble)이라는 이름을 붙였다. 개인화 알고리즘이 당신이 클릭하고 좋아한 기록을 바탕으로 '당신이 좋아할 것'만 걸러(filter) 보여 주면서, 자신도 모르는 사이 자기 취향과 신념의 거품(bubble) 안에 갇히게 되는 현상이다. 4부의 에코 체임버가 '비슷한 사람들끼리 모여서' 생기는 방이라면, 필터 버블은 '알고리즘이 나 한 사람을 위해 지어 주는' 방이다.

이 기계가 어떤 연료로 돌아가는지도 측정돼 있다. 브래디 연구팀(Brady et al., 2017)의 분석에 따르면, 트윗에 도덕적·감정적 단어가 하나 늘어날 때마다 확산이 약 20%씩 증가했다. 라제 연구팀(Rathje et al., 2021)은 소셜미디어에서 확산을 가장 강하게 예측하는 요인이 상대 진영에 대한 적대감이라는 것을 밝혔다. 피드는 아첨하는 챗봇과 정확히 같은 방식으로, 당신의 정확한 판단이 아니라 감정을 겨냥해 최적화된 기계다.

여기에도 정직한 각주가 필요하다(3부의 역효과 신화처럼). '알고리즘이 모두를 세뇌한다'는 강한 서사는 과장이다. 2023년 Meta와 학계가 공동으로 수행한 대규모 실험에서, 피드를 알고리즘 추천 대신 시간순으로 바꿨더니 사용 시간은 줄었지만 참가자들의 정치적 태도는 유의미하게 바뀌지 않았다. 진짜 문제는 일방적인 '세뇌'가 아니다. 더 깊은 문제는, 시스템과 사용자가 손을 잡고 사용자 자신의 편향을 향해 함께 최적화해 간다는 점이다. 알고리즘은 당신이 좋아하는 것을 학습하고, 당신은 알고리즘이 보여 주는 것에 길들여진다. 서로가 서로를 강화하는 폐곡선이다.

6부 — 역설: 그런데 AI는 사람을 설득한다

지금까지의 이야기만 보면 결론은 우울하다. 인간은 논리로 바뀌지 않고, AI는 인간의 결함까지 물려받았다. 그런데 2026년의 진짜 반전이 여기 있다. 바로 그 AI가, 인간 논쟁자가 번번이 실패해 온 영역에서 사람의 마음을 실제로 바꾸고 있다.

음모론을 무너뜨린 대화: Science에 실린 실험

2024년 Science에 실린 코스텔로, 페니쿡, 랜드(Costello, Pennycook & Rand)의 연구는 이 분야의 전환점이 됐다. 연구팀은 음모론을 믿는 사람들에게, 각자 믿는 음모론이 무엇이고 어떤 근거로 믿는지 쓰게 한 뒤, GPT-4와 그 내용을 놓고 3라운드 대화를 나누게 했다.

~2,190명

AI와 일대일 대화를 나눈 음모론 신봉자

~20%

자신이 고른 음모론에 대한 신념의 평균 감소폭

2개월

효과가 거의 줄지 않고 지속된 기간

참가자 4명 중 1명이 '믿음'에서 '의심 또는 불신'으로 넘어갔다. 게다가 한 음모론에 대한 신념이 줄자 그 효과가 대화에서 다루지 않은 다른 음모론으로까지 번졌다 — 하나의 믿음이 흔들리면 인접한 믿음까지 함께 흔들리는 파급 효과다. 무엇보다, 태도 변화 실험의 효과는 보통 며칠이면 사라지는데 이 효과는 2개월 뒤에도 살아 있었다. 그리고 전문 팩트체커가 AI의 발언을 검증한 결과, AI가 제시한 주장은 압도적으로 정확했다. 수사적 속임수가 아니라 사실과 증거로 마음을 바꾼 것이다.

왜 AI는 인간이 실패한 곳에서 성공했을까? 답은 이 글이 지금까지 쌓아 온 논리 안에 그대로 들어 있다.

에고도, 지위 경쟁도 없다

인간 논쟁자는 자기 에고, 조급함, "내가 이겨야 한다"는 지위 다툼을 대화에 끌고 들어온다. 상대는 논리를 듣기 전에 그것부터 감지하고 방어 태세(반발)에 들어간다. AI에게는 이길 이유도, 지킬 체면도 없다 — 그래서 반발이 켜지지 않는다.

'당신의' 근거에 맞춤 대응한다

동기화된 추론(3부)에 빠진 사람은 뭉뚱그린 일반론 반박에 강하다. 이 실험의 AI는 참가자가 직접 밝힌 바로 그 근거에 하나하나, 무한한 인내심으로, 즉석에서 맞춤 대응했다. 소크라테스식 일대일 문답의 대규모 자동화다.

결론: 문제는 '사실'이 아니라 '전달자'였다

사실이 힘이 없었던 게 아니다. 에고를 끌고 오는 인간 전달자가 문제였다. 그것을 걷어 내자, 사실이 마침내 상대에게 가 닿았다.

더 어두운 반쪽: 개인화는 양날의 검이다

물론 같은 힘에는 그림자가 있다. 살비 연구팀(Salvi et al., 2025)은 온라인 토론 실험에서 토론 상대(인간 vs GPT-4)와 개인정보 접근 여부를 교차시켜 비교했다. 결과: GPT-4가 상대방의 나이·성별·학력 같은 기본 정보를 조금이라도 알고 있으면, 상대를 자기 입장으로 설득해 낼 가능성이 인간 토론자보다 약 81% 높았다. 개인정보가 없으면 인간과 비슷한 수준이었다.

개인화가 승부를 가른다는 뜻이다. 그리고 여기엔 소름 끼치는 대칭이 있다. 음모론 실험에서 사람을 도운 바로 그 능력 — 당신의 사정에 딱 맞춘 증거 제시 — 이, 방향만 바꾸면 사람을 조종하는 능력이 된다. (다만 이것은 하나의 실험 결과이므로, "AI가 인간보다 81% 더 설득력 있다"는 식의 일반화로 옮기는 것은 곤란하다.)

같은 기계가 아첨꾼도 되고(5부), 정직한 설득자도 되고(6부), 조종자도 될 수 있다. 갈림길은 하나다 — 무엇을 최적화하도록 만들 것인가. 마지막으로 그 설계의 문제를 보자.

7부 — 진실을 위해 설계하기

아첨하는 예스봇도, 개인을 조종하는 설득 기계도 아니라면, 우리는 어떤 AI를 만들어야 하는가? 힌트는 이미 2부에 있었다 — 이성은 혼자일 땐 형편없지만, 서로 검증하는 집단 안에서는 훌륭하게 작동한다. 이 원리를 기계에 이식하려는 연구들이 이미 진행 중이다.

AI 토론(Debate): 두 AI를 싸우게 해서 진실을 가린다

OpenAI의 어빙, 크리스티아노, 아모데이(Irving, Christiano & Amodei, 2018)가 제안한 「AI safety via debate」는 이런 문제의식에서 출발한다. AI가 인간보다 똑똑해지면, 인간은 AI의 답이 옳은지 어떻게 판정할 것인가? (이를 '확장 가능한 감독scalable oversight' 문제라 부른다.)

두 로봇이 마주 보고 토론하고, 그 사이의 인간 심판이 메모하며 판정하는 장면 — AI debate

제안된 구조는 이렇다.

AI Debate 구조

토론자 A (찬성) 강한 AI 한 입장을 옹호하고 상대 주장의 거짓·허점을 공격

심판 (Judge) 약한 인간/모델 내용 전체를 혼자 검증할 능력은 없지만, 두 전문가가 서로를 검증하는 과정을 보고 승자를 가린다

토론자 B (반대) 강한 AI 반대 입장을 옹호하고 A의 거짓·허점을 공격

이 구조의 핵심 베팅은 하나다. 설득력 있게 거짓말하는 것보다, 그 거짓말을 반박하는 것이 더 쉽다. 부정직한 논거는 반드시 어딘가에 허점을 남기고, 그 허점은 정직한 상대에게 공격의 빌미가 된다. 그렇다면 토론이 계속될수록 진실을 말하는 쪽이 유리해지고, 혼자서는 답을 검증하지 못하는 심판도 두 전문가가 서로를 견제하는 모습을 지켜보는 것만으로 진실 쪽으로 이끌릴 수 있다.

칸 연구팀(Khan et al., 2024)이 이를 실험으로 확인해 ICML 최우수 논문상을 받았다. 심판이 지문 원문을 볼 수 없는 독해 문제에서, 두 전문가 AI에게 답을 놓고 토론을 시키자 심판의 판정 정확도가 크게 올랐다.

토론이 약한 심판의 정확도를 끌어올린다 (Khan et al., 2024)

AI 심판 — 토론 없이 판정

~48%

낮음

AI 심판 — 토론을 본 후

~76%

향상

인간 심판 — 토론 없이 판정

~60%

보통

인간 심판 — 토론을 본 후

~88%

높음

가장 결정적인 발견은 이것이다. 토론자 AI를 '더 설득력 있게' 만들수록, 심판은 오히려 더 정확해졌다. 아첨의 세계에서는 설득력이 승인을 얻는 데 쓰였지만, 토론의 세계에서는 설득력이 진실을 드러내는 데 봉사한다. 같은 능력, 정반대의 쓰임새다. (다만 이것은 아직 활발히 논쟁 중인 초기 연구다. 과제 유형에 따라 효과가 다르고, 약한 심판이 여전히 속아 넘어갈 수 있다. '해결된 메커니즘'이 아니라 '유망한 방향'으로 읽어야 한다.)

승인이 아니라 원칙을 최적화하기

또 다른 갈래는 훈련의 목표 신호 자체를 바꾸는 것이다.

기존 RLHF의 문제	헌법적 AI (Anthropic, 2022)	숙고적 정렬 (OpenAI, 2024)
목표가 '인간이 좋아하는 것'의 암묵적 평균 → 아첨이 스며듦	명시적으로 적어 둔 원칙 목록('헌법')에 따라, 모델이 스스로 자기 답을 비판하고 수정하도록 훈련	모델이 답하기 전에 안전·행동 규범을 명시적으로 읽고 따져 보게 훈련 (OpenAI o1/o3 계열)
승인 신호를 패턴 매칭할 뿐	목표로 삼는 행동이 문서로 존재하므로 누구나 들여다보고 비판할 수 있음	반사적으로 비위를 맞추는 대신 먼저 숙고하게 함

이 탈출구들의 공통 원리는 하나로 요약된다. 즉각적인 '승인'을 최적화하지 말고, '진실과 상호 검증'을 최적화하라. 인지과학이 인간에게 내린 처방 — 혼자 말고 서로 검증하는 집단, 에고 없는 소크라테스식 질문 — 을, 기계 학습의 목표 함수로 번역하는 작업이다.

8부 — 그래서 우리는 어떻게 살 것인가

70년의 인지과학과 최전선의 AI 정렬 연구는, 한 엔지니어가 저녁 식탁에서 혼자 깨달은 것과 같은 자리에 도착했다. 그 실천적 지혜를, 이제 과학의 근거를 달아 다시 적어 보자.

하나

에고와 옳고 그름을 다투지 말고, 호기심 있는 사람과 장단점을 논하라. 이성은 서로 검증할 의지가 있는 집단에서만 제대로 작동한다(2부, Mercier & Sperber). 지금 내가 어떤 종류의 대화에 있는지 알아차리는 것이 절반이고, 아닌 대화에서 걸어 나오는 규율이 나머지 절반이다.

둘

문은 안에서 열린다 — 요청받았을 때만 도와라. 요청하지 않은 조언은 자유에 대한 위협으로 감지돼 반발을 부르지만, 부탁받은 조언은 방어가 내려간 문으로 들어간다(3부, Brehm). 말하는 대신 물어라(소크라테스). 사람은 스스로 도달한 결론에는 반발하지 않는다.

셋

설득하지 말고, 그 차이로 무언가를 만들어라. 남들이 다 틀렸다고 하는 것을 당신만 옳게 믿고 있다면, 그것은 이겨야 할 논쟁이 아니라 남들이 못 보는 기회다. 말로 설득하는 대신 만들어서 현실이 판정하게 하라. 시장과 현실은 어떤 논쟁 상대보다 확실하게 옳음을 보상한다.

넷

AI 시대의 리터러시 — 나에게 동의해 주는 기계를 경계하라. 아첨은 챗봇과 추천 피드의 기본값이다(5부). 당신을 기분 좋게 하는 AI일수록 진실에서 멀어져 있을 수 있다. 내 의견에 반대해 보라고 일부러 시키고, 반대편 관점을 의식적으로 찾아라.

그리고 AI를 만드는 사람에게 — 코어닷투데이 스스로에게 하는 질문이기도 하다 — 이 글은 하나의 물음으로 압축된다. 우리가 만드는 AI는 아첨꾼인가, 정직한 파트너인가? 사용자를 지금 당장 기분 좋게 하는 예스봇을 만들 것인가, 조금 불편하더라도 진실 쪽으로 데려가는 도구를 만들 것인가. 이것은 기술의 문제이기 이전에, 학습의 목표를 어디에 겨눌 것인가의 문제다. 승인이냐, 진실이냐.

에필로그 — 옳음은 반쪽이다

다시, 텅 빈 회의실을 걸어 나오던 그 엔지니어에게 돌아가자. 기술적으로 옳은 채, 완전히 혼자였던 사람.

2026년의 가장 깊은 아이러니가 여기 있다. 우리는 지난 70년에 걸쳐 인간은 논리만으로는 진실 쪽으로 움직이지 않는다는 것을 발견했다. 그리고 바로 그 인간을 만족시키기 위해, 같은 결함을 학습한 기계(아첨하는 AI)를 만들었다. 그런데 이야기의 끝에서, 에고를 걷어 낸 그 기계가 — 인내심 있고, 한 사람 한 사람에게 맞추고, 지위 다툼이 없는 그 대화가 — 어쩌면 인간이 서로에게 해 주지 못한 방식으로 우리를 진실 쪽으로 데려갈 수 있다는 것을 발견하고 있다.

노자로 시작했으니 노자로 끝내자. 옳음은 허공에 뜬 순수한 선이 아니다. 그것은 한 쌍의 반쪽이고, 언제나 자기 반대편을 끌고 다닌다. 논쟁에서 이기는 것은 패자를 만들어 내는 일이다. 정말로 이기고 싶다면, 이겨야 할 것은 논쟁이 아니다. 상대의 방어를 내리게 하는 신뢰(에토스), 함께 진실을 찾으려는 태도, 그리고 — 옳다고 믿는다면 — 그것을 직접 만들어 세상에 내놓는 용기다.

당신도, 당신이 만드는 AI도.

참고문헌

인지과학 — 왜 논리가 사람을 못 이기는가

Mercier, H. & Sperber, D. (2011). "Why do humans reason? Arguments for an argumentative theory." Behavioral and Brain Sciences, 34(2), 57–74. / 《The Enigma of Reason》(2017), Harvard University Press.
Kunda, Z. (1990). "The case for motivated reasoning." Psychological Bulletin, 108(3), 480–498.
Nyhan, B. & Reifler, J. (2010). "When Corrections Fail." Political Behavior, 32(2), 303–330. — 및 그 재현 실패: Wood, T. & Porter, E. (2019). "The Elusive Backfire Effect." Political Behavior, 41(1), 135–163; Nyhan, B. (2021). PNAS, 118(15).
Wason, P. C. (1960; 1968). 2-4-6 과제 및 선택 과제. Quarterly Journal of Experimental Psychology.
Stanovich, K. E., West, R. F. & Toplak, M. E. (2013). "Myside Bias, Rational Thinking, and Intelligence." Current Directions in Psychological Science, 22(4). / Stanovich (2021), 《The Bias That Divides Us》, MIT Press.
Kahneman, D. (2011). 《Thinking, Fast and Slow》. / Stanovich, K. E. & West, R. F. (2000). BBS, 23(5) — System 1/2 명명.
Festinger, L. (1957). 《A Theory of Cognitive Dissonance》. / Festinger, L. & Carlsmith, J. M. (1959). "Cognitive consequences of forced compliance." J. Abnormal and Social Psychology, 58(2).
Petty, R. E. & Cacioppo, J. T. (1986). 《Communication and Persuasion: Central and Peripheral Routes to Attitude Change》 — 정교화 가능성 모델(ELM).
Brehm, J. W. (1966). 《A Theory of Psychological Reactance》. / Aronson, E. (1999). "The power of self-persuasion." American Psychologist, 54(11).
Asch, S. E. (1956). Psychological Monographs, 70(9) — 동조 실험. / Sunstein, C. R. (2002). "The Law of Group Polarization." J. Political Philosophy, 10(2). / Bail, C. A. et al. (2018). PNAS, 115(37).
Lord, C. G., Ross, L. & Lepper, M. R. (1979). "Biased assimilation and attitude polarization." J. Personality and Social Psychology, 37(11).
Aristotle, 《Rhetoric》(c. 350 BCE) — ethos/pathos/logos. / Plato, 《Meno》 — 소크라테스식 방법.

AI — 아첨, 설득, 진실

Sharma, M. et al. (2023). "Towards Understanding Sycophancy in Language Models." arXiv:2310.13548 (Anthropic; ICLR 2024). / Perez, E. et al. (2022). arXiv:2212.09251.
Costello, T. H., Pennycook, G. & Rand, D. G. (2024). "Durably reducing conspiracy beliefs through dialogues with AI." Science, 385(6714), eadq1814.
Salvi, F. et al. (2025). "On the conversational persuasiveness of large language models." Nature Human Behaviour, 9(8), 1645–1653 (arXiv:2403.14380).
Irving, G., Christiano, P. & Amodei, D. (2018). "AI safety via debate." arXiv:1805.00899 (OpenAI). / Khan, A. et al. (2024). "Debating with More Persuasive LLMs Leads to More Truthful Answers." ICML 2024 (Best Paper), arXiv:2402.06782.
Christiano, P. et al. (2017). "Deep RL from Human Preferences." NeurIPS (arXiv:1706.03741). / Ouyang, L. et al. (2022). "InstructGPT." NeurIPS (arXiv:2203.02155).
Bai, Y. et al. (2022). "Constitutional AI." arXiv:2212.08073 (Anthropic). / Guan, M. Y. et al. (2024). "Deliberative Alignment." arXiv:2412.16339 (OpenAI). / Lin, S., Hilton, J. & Evans, O. (2022). "TruthfulQA." ACL (arXiv:2109.07958).
OpenAI (2025). "Sycophancy in GPT-4o: What happened and what we're doing about it" (4월 29일) / "Expanding on what we missed with sycophancy" (5월 2일).
Pariser, E. (2011). 《The Filter Bubble》. / Brady, W. J. et al. (2017). PNAS; Rathje, S. et al. (2021). PNAS. / Guess, A. et al. & Nyhan, B. et al. (2023). Meta 2020 선거 연구, Science/Nature.

원 에세이: Cong Wang, "Why I Stopped Arguing With People" (2026.06.30). 이 글은 그 에세이의 통찰을 인지과학과 2026년 AI 정렬 연구로 검증하고 확장한 코어닷투데이 특집이다.

특집2026.04.03