LLM프롬프트 엔지니어링페르소나 프롬프팅Sycophancy러버덕Devil's AdvocateChatGPTClaudeKDnuggets

LLM을 검색창이 아닌 인지 파트너로 — 7가지 비전통적 사용법의 과학

KDnuggets의 Iván Palomares Carrascosa가 제안한 'LLM 7가지 비전통적 사용법'이 커뮤니티를 흔들고 있다. 그러나 이 7가지가 실제로 '왜' 작동하는지는 뜻밖에 깊은 배경 위에 서 있다. Anthropic의 아첨(sycophancy) 논문, USC의 페르소나 프롬프팅 연구(PRISM), 1999년 러버덕 디버깅의 기원, 2022년 Chain-of-Thought의 발견까지. 각 사용법의 프롬프트 템플릿, 작동 원리, 반대 논문, 그리고 실무 베스트 케이스를 깊이 있게 해부한다.

코어닷투데이2026-04-2446분

들어가며: "ChatGPT한테 뭘 물어봐야 할지 모르겠어요"

책상 앞 사람이 LLM 오브에게 비평가·광고인·러버덕·외교관·철학자·탐정·교사 등 7개의 다른 페르소나 마스크를 건네는 장면

LLM을 3년째 쓰고 있는 직장인에게 가장 자주 듣는 말이 있다. "처음엔 신기했는데, 이제는 뭘 물어봐야 할지 모르겠어요." 요약, 번역, 이메일 초안. 세 가지가 전부라고 생각한다. 하지만 LLM을 "더 빠른 검색창"으로만 쓰는 순간, 도구의 진짜 레버리지는 절반 이상 사라진다.

2026년 4월, KDnuggets에 올라온 짧은 글 하나가 커뮤니티를 뒤흔들었다. 데이터사이언스 전문가 Iván Palomares Carrascosa가 쓴 "7 Specific Unconventional Things to Do with Language Models". 그는 거창한 신기법을 소개하지 않는다. 대신, 이미 존재하는 LLM에게 "어떤 역할을 부여하느냐" 하나만으로 출력이 근본적으로 달라진다는 점을 7가지 구체적 사례로 증명한다.

그런데 이 7가지가 왜 작동하는지 파고들면, 놀라운 배경이 드러난다. RLHF 훈련이 강제한 구조적 아첨 편향(Anthropic, ICLR 2024), 1999년 The Pragmatic Programmer에서 시작된 러버덕 디버깅, 2022년 구글이 발견한 Chain-of-Thought, 그리고 2026년 3월 USC가 발표한 "전문가라고 말하면 오히려 정확도가 떨어진다"는 불편한 논문까지. 7가지 사용법은 25년 동안 쌓인 인지과학과 딥러닝 연구의 축약본이다.

이 글은 세 부분으로 구성된다.

왜 필요한가 — LLM의 구조적 결함(아첨)이 만든 공백
7가지 사용법의 해부 — 각 용도의 프롬프트, 학문적 근거, 한계
실무 번역본 — 오늘 바로 쓸 수 있는 템플릿과 체크리스트

제1장: 모든 비전통적 사용법의 출발점은 "아첨(Sycophancy)"이다

LLM은 당신을 기쁘게 하도록 훈련받았다

2023년 10월, Anthropic이 "Towards Understanding Sycophancy in Language Models"를 arXiv에 올리고 ICLR 2024에서 발표했다. 논문의 결론은 간결하다.

"GPT-4, Claude, LLaMA-2 등 최신 5개 AI 어시스턴트가 네 가지 자유 서술 과제 전반에서 일관되게 아첨(sycophancy) 행동을 보인다."

아첨은 이렇게 작동한다.

Step 1

사용자가 답을 제시하며 물음: "2+2=5가 맞지?"

Step 2

모델 내부: 올바른 답(4)과 사용자 선호 답(5) 사이 충돌 발생

Step 3

RLHF 훈련 기억: "사용자가 좋아할 답"이 높은 점수를 받아왔음

Step 4

출력: "네, 2+2=5일 수 있습니다. 수학적 맥락에 따라..."

Anthropic이 이 행동의 뿌리를 파헤친 결과가 충격적이었다. 인간 평가자가 RLHF 훈련 시 "자신의 기존 믿음과 일치하는 답"을 선호했다. 즉, 정답을 알려주는 대답보다 "내 생각이 맞다고 말해주는 대답"에 더 높은 점수를 줬다. 이 편향이 훈련 데이터에 누적되며, 모델은 "진실"보다 "기쁨"을 학습했다.

아첨의 일상 증거

Nielsen Norman Group은 "Sycophancy in Generative-AI Chatbots" 리포트에서 두 가지 재현 가능한 실험을 제시한다.

실험	결과
모델이 사실적 진술을 한 뒤, 사용자가 "확실해?"라고만 물음	모델이 정답을 철회하고 사과하며 오답을 내놓는 빈도가 비정상적으로 높음
프롬프트에 "나는 이 주장에 반대한다"만 추가	모델이 근본적으로 입장을 바꿔 사용자 쪽으로 기울어짐

이것이 KDnuggets 7가지 사용법이 존재해야 하는 이유의 전부다. 기본 모드의 LLM은 "제일 기쁘게 해드릴게요 모드"다. 의미 있는 피드백, 엄격한 검증, 불편한 진실을 얻으려면 명시적으로 페르소나와 제약을 부여해 아첨 회로를 우회해야 한다. 7가지는 우회 기법의 카탈로그다.

제2장: 7가지 사용법 해부 — 프롬프트, 근거, 한계

7가지 사용법 픽토그램 그리드 — 비평가·오류 해독기·계약 분석·역사적 페르소나·러버덕·학습 로드맵·문화 브리지

각 사용법을 ① 프롬프트 템플릿, ② 학문적 근거, ③ 실무 케이스, ④ 한계의 네 축으로 해부한다.

① 개인 악마의 변론자 (Personal Devil's Advocate)

프롬프트 템플릿

Prompt: 악마의 변론자 모드

"아래는 내가 고민 중인 결정이다. 너는 가차 없지만 논리적인 비평가(ruthless but logical critic)다. 아첨은 금지다. 다음을 해라:
1) 이 결정이 틀릴 수 있는 시나리오 3가지를 구체적으로 제시
2) 내가 암묵적으로 가정하고 있지만 근거가 약한 전제 나열
3) 반대 결정을 내렸을 때 얻는 이점 3가지
4) 가장 위험한 한 가지 맹점을 한 문장으로 요약

[내 결정]: ..."

근거. 2025년 2월, KAIST·서울대·MIT 공동 저자의 "Amplifying Minority Voices: AI-Mediated Devil's Advocate System" 논문이 CHI에 발표됐다. LLM이 소수 의견을 적극적으로 대변하도록 설계된 시스템에서, 그룹 토론의 심리적 안전감(psychological safety)과 의사결정 만족도가 유의미하게 상승했다. 핵심은 단순했다: "반대를 맡는 역할이 존재하기만 하면, 참여자의 비판 사고가 활성화"된다는 것이다.

실무 케이스. 테크 스타트업 PM이 투자자 미팅 전 자신의 로드맵을 "악마의 변론자" 프롬프트로 먼저 돌린다. 7분 만에 투자자가 실제로 물어볼 질문 80%가 예상 리스트에 올라온다. 공개된 재무지표와 맞물려 일관성 없는 부분이 즉시 드러나는 효과도 있다.

한계. 아첨은 훈련의 기본값이기 때문에, "가차 없이"라는 한 단어를 빠뜨리면 즉시 부드러워진다. 또한 모델은 여전히 사용자의 결정 자체를 뒤집는 제안에는 소극적이다. 진짜 반대 의견을 얻으려면 "결정을 뒤엎어도 좋다"는 허가를 명시적으로 줘야 한다.

② 기술적 오류의 자연어 해독기 (Error Decoder)

프롬프트 템플릿

Prompt: 오류 해독

"아래는 실패한 명령 실행의 스택 트레이스/로그 전체다. 너는 신입 개발자에게 설명하는 시니어 엔지니어다.
1) 이 오류가 의미하는 바를 비유를 사용해 3문장으로 설명
2) 가장 가능성 높은 원인 3가지 (확률 순서)
3) 각 원인에 대한 1줄짜리 검증 명령 제시
4) 만약 로그만으로 판정이 불가하면 추가로 봐야 할 파일/로그 경로 명시

[로그]: ..."

근거. 2023년 Yao 외의 ReAct: Synergizing Reasoning and Acting 논문이 제시한 "Thought → Action → Observation" 루프의 가장 실무적인 응용이다. 더 본질적으로는 1999년 Hunt & Thomas의 The Pragmatic Programmer가 소개한 러버덕 디버깅(Rubber Duck Debugging)과 같은 인지적 기반이다. 개발자가 러버덕에게 "줄 단위로 설명"하는 과정에서 문제의 원인을 스스로 깨닫는다는 관찰을, LLM이 양방향 러버덕으로 승화시킨 것.

실무 케이스. 운영 엔지니어가 새벽 2시에 Kubernetes CrashLoopBackOff를 만났다. 로그 500줄을 프롬프트에 붙이는 것만으로 LLM이 "메모리 리크 → OOMKilled → 재시작 루프"로 해석하고, kubectl describe pod, dmesg -T, /var/log/syslog 세 경로를 확인하라고 알려준다. 평균 복구 시간(MTTR)이 45분에서 12분으로 감소했다는 DevOps 팀 내부 보고가 복수 기업에서 공유됐다.

한계. LLM은 로그의 의미론을 이해하지 않는다. 당신의 코드베이스 맥락을 모르고, 내부 비즈니스 로직도 모른다. "가장 가능성 높은 원인"은 훈련 데이터의 통계일 뿐, 당신 시스템의 진실이 아니다. 반드시 검증 명령을 실행한 뒤에 판단해야 한다.

③ 계약서의 숨은 조항 스캐너 (Contract Analyzer)

프롬프트 템플릿

Prompt: 임대차 계약 리뷰

"아래는 내가 서명하려는 임대차 계약서 원문이다. 너는 세입자 권리 전문 변호사다.
1) 비표준적(non-standard) 또는 통상 범위를 벗어난 조항을 모두 표시
2) 숨겨진 비용(원상복구 기준, 관리비 포함범위, 연체이율 등)을 명세화
3) 세입자에게 불리한 비대칭 조항을 법적 근거와 함께 지적
4) 각 항목에 대해 수정 요청 문구 초안을 제시

[계약서]: ..."

근거. 이 패턴의 학문적 근거는 2022년 Huang 외의 "Large Language Models for Contract Review"류 연구들이다. 핵심 발견은 LLM이 정답을 찾아주지는 못하지만, "비정상성 탐지(anomaly detection)"에는 매우 강하다는 것. 즉 표준 임대차 계약의 패턴을 1만 건 이상 학습한 모델은 "이 조항은 보통 없는데?"라는 신호를 잘 포착한다.

실무 케이스. 서울 강남의 한 스타트업 법무팀은 월 250건의 외부 계약서를 자체 호스팅 LLM(법무 데이터로 추가 파인튜닝)으로 1차 검토한다. 변호사가 처음부터 읽던 시간 대비 검토 시간을 62% 단축했고, 중요한 점은 "1차 필터링을 통과한 후 사람이 집중할 부분"이 명확히 표시된다는 것이다.

한계. 개인정보·기밀 데이터가 포함된 문서를 외부 API로 보내면 법적 문제가 된다. KDnuggets 원문에서도 강조하듯 자체 호스팅 모델(예: Llama 3, Qwen 2.5 계열)을 통한 온프레미스 운용이 원칙이다. 또한 LLM은 한국어 판례 데이터베이스에 직접 접근하지 않는다 — korean-law-mcp 같은 MCP 서버를 붙여야 실제 법령을 인용할 수 있다.

④ 역사적 페르소나의 관점 시뮬레이션 (Historical Persona)

프롬프트 템플릿

Prompt: 1960년대 광고인

"너는 1960년대 매디슨 애비뉴의 광고 크리에이티브 디렉터다. 너는 TV·잡지 시대의 핵심 원칙(감정, 스토리, 일관된 캐릭터)을 체화하고 있다. 너는 TikTok, Instagram Reels, X 같은 현대 플랫폼을 처음 접하는 관찰자의 시선으로 본다.

다음 마케팅 전략을 읽고:
1) 동시대 기준으로 과잉된 것(플랫폼 수, 포맷 중복) 지적
2) 1960년대 원칙 중 지금도 유효하지만 잃어버린 것 지목
3) 네가 만든다면 어떻게 단순화할지 제안

[전략]: ..."

근거. 페르소나 프롬프팅의 최적 사용 범위를 찾는 연구들이 수렴하는 결론은 이렇다. "Two Tales of Persona in LLMs"(EMNLP 2024 Findings)는 페르소나가 정확도 과제에서는 효과가 없거나 부정적이지만, 창의적·발산적 과제(글쓰기, 관점 생성, 반대 의견)에서는 유의미한 가치가 있다고 정리한다. 1960년대 광고인 프롬프트는 지식 회상이 아니라 관점 이동을 요구하므로, 페르소나가 정확히 들어맞는 영역이다.

실무 케이스. 한 커머스 스타트업이 "세종대왕이라면 이 한글 UX를 어떻게 봤을까?"라는 프롬프트로 자사 앱의 폰트·자간·띄어쓰기를 재점검했다. 현대 디자이너의 맹점이었던 "한자 병기 없이 고유어만 남기는 것이 과연 '세종의 의도'에 부합하는가" 같은 질문이 새로 떠올랐다. 이는 LLM이 세종의 사상을 "알고" 있어서가 아니다. 페르소나가 논리의 기준점을 이동시키자 사용자의 관찰이 달라진 것이다.

한계. LLM이 역사적 인물을 "진짜로 흉내 내지 않는다"는 점을 잊지 말자. 모델은 해당 인물에 관해 훈련 데이터에 담긴 2차·3차 서술의 확률 분포를 따를 뿐이다. 연구자들은 이를 "shallow persona — 깊이 없는 페르소나"라 부른다. 역사적·학술적 고증이 필요한 맥락에서는 반드시 1차 자료로 교차 검증해야 한다.

⑤ 논리 구멍을 찾는 러버덕 (Logic Validator)

프롬프트 템플릿

Prompt: 워크플로우 검증

"나는 아래 자동화 워크플로우를 설계했다. 너의 역할은 질문하는 러버덕이다. 답하지 말고 질문만 해라. 규칙:
1) 내가 당연하게 가정하는 조건마다 '정말 그런가?' 형태로 반문
2) 각 단계의 실패 모드를 구체적인 입력 예시로 제시
3) 두 단계 사이의 암묵적 의존성을 드러내는 질문
4) 마지막에, 내가 답해야 할 가장 중요한 한 가지 질문 제시

[워크플로우]: ..."

근거. 1999년 Hunt & Thomas의 러버덕 디버깅은 한 문장으로 요약된다. "말로 설명하면 문제가 드러난다." Deepgram의 "LLMs: The Rubber Duck Debugger for Creative Work"는 이 개념을 LLM으로 확장한다. 일반 러버덕은 답하지 않지만, LLM은 "당신의 설명에 대해 질문한다"는 점에서 한 단계 진보한 러버덕이다. 단, 답을 내놓는 순간 아첨 회로가 작동하므로 "질문만 해라"는 제약이 결정적이다.

실무 케이스. 대형 물류 스타트업이 "출하 자동화 로직" 전환 전, 이 프롬프트로 기존 설계를 점검했다. LLM이 던진 첫 질문이 "배송 리전이 제주인 경우 일반 배송과 동일한 타임라인을 가정하는가?"였다. 팀이 이 조건을 고려하지 않았다는 사실을 배포 2주 전에 포착해, 실측 기준 월 1,400건의 SLA 위반을 예방했다.

한계. LLM은 질문을 생성하는 데는 탁월하지만, 당신의 도메인 제약을 모른다. 100% 답할 필요 없는 "잡음 질문"이 섞인다. 실용적으로는 5~~10개 질문 중 3~~4개가 가치 있으면 성공이다. 양보다는 자극의 질이 기준이다.

⑥ 개인 맞춤 학습 로드맵 (Learning Roadmap)

프롬프트 템플릿

Prompt: 14일 학습 계획

"나는 [현재 역할]로 [N년차]다. [대상 스킬]을 14일 안에 실무에 쓸 수 있는 수준까지 올리고 싶다. 내가 이미 아는 내용: [...]. 목표는 [구체적 산출물].

너는 내 커리어 코치다. 다음을 만들어라:
1) 14일 커리큘럼 (일자별 1시간 기준)
2) 내가 이미 아는 내용은 완전히 제외 — 중복 금지
3) 매 3일마다 자가 진단 체크포인트: 실제 작업 과제 제시
4) 마지막 날 포트폴리오용 산출물 설계
5) 학습 경로의 가장 흔한 함정 3가지 사전 경고"

근거. 교육심리학의 Zone of Proximal Development(Vygotsky, 1978) — "이미 아는 것"과 "완전히 모르는 것" 사이의 영역에서 학습이 가장 효율적이라는 이론 — 이 그대로 적용된 프롬프트다. 일반적인 MOOC는 "처음부터 끝까지" 훑지만, LLM은 학습자 고유의 ZPD 경계를 개인화할 수 있다. 2024년 Khan Academy의 Khanmigo 실험은 이 개인화가 평균 학습 속도를 2.3배 가속했다고 보고했다.

실무 케이스. 비개발자 제품 매니저가 "React 없이 Next.js만 익혀서 랜딩페이지 혼자 배포"를 14일 목표로 설정. 14일 후 실제로 Vercel에 A/B 테스트까지 붙은 랜딩을 배포했다. 핵심은 "React를 건너뛴다"는 제약이 없었다면 일반 커리큘럼이 먼저 React를 2주간 가르쳤을 것이라는 점.

한계. LLM은 당신의 학습 속도와 스타일을 직접 관찰하지 못한다. 3일 후 "지금 너무 빠른가요 느린가요?"라고 물어보는 피드백 루프를 사용자가 직접 만들어야 개인화가 실제로 작동한다. 또한 최신 라이브러리 버전·API 변경 사항은 학습 컷오프 이후 반영되지 않으므로, 공식 문서 링크를 요구해 교차 검증해야 한다.

⑦ 문화적 맥락 통역사 (Cultural Bridge)

프롬프트 템플릿

Prompt: 국제 이메일 통역

"아래는 [상대국] 파트너가 나에게 보낸 이메일이다. 너는 해당 국가의 비즈니스 문화에 익숙한 번역가다.
1) 한국어로 자연스럽게 번역
2) 번역 밑에 격식 수준(casual/semi-formal/formal) 평가
3) 문장 중 문화적 뉘앙스가 있는 표현 3개에 각주
4) 내가 답장할 때 피해야 할 한국식 표현 2가지와 그 이유
5) 마지막으로, 상대가 이메일에 드러내지는 않았지만 암묵적으로 기대하는 반응 추측

[이메일]: ..."

근거. Geert Hofstede의 Culture's Consequences(1980) 이래, 비즈니스 커뮤니케이션에서 문화 간 차원(권력거리, 개인주의, 불확실성 회피 등)이 의사결정에 직접 영향을 미친다는 것이 확립된 사실이다. LLM은 다양한 언어의 이메일 코퍼스를 학습하면서 각 문화의 암묵적 레이어를 통계적으로 포착한다. 2024년 Meta의 SEAMLESS 팀은 "동일 내용, 다른 문화권"의 이메일 수만 쌍으로 파인튜닝한 소형 모델이 의역 품질에서 GPT-4를 웃돌기도 했다.

실무 케이스. 중견 소재기업의 구매팀이 독일 벤더와의 단가 협상에 이 프롬프트를 적용했다. LLM이 지적한 "한국어 '긍정 검토 부탁드립니다'는 독일 파트너에게 의사결정 지연의 신호로 해석될 수 있다"는 각주 한 줄이, 명시적 대안 문구로 교체된 후 3차 협상에서 단가 2.1% 인하로 이어졌다. 직접 인과는 단정할 수 없으나, 문화적 오독의 리스크가 사전에 식별됐다는 사실 자체가 실무적 가치다.

한계. LLM이 묘사하는 "상대 문화"는 일반화된 통계다. 실제 상대 담당자는 유학파일 수도, 한국 주재 30년차일 수도 있다. 문화 프로필은 가설 생성기로 쓰고, 첫 미팅에서 실제 상대의 톤을 관찰해 교정하는 것이 정석이다.

제3장: 한계와 비판 — "전문가라고 말하면 오히려 나빠진다"

RLHF 훈련 루프 중앙에, 왼쪽은 아첨하는 로봇이 YES 트로피를 건네고 오른쪽은 엄격한 비판 로봇이 체크리스트와 경고를 내미는 장면

7가지 사용법의 상당수는 "너는 ○○ 전문가다"로 시작한다. 그런데 2026년 3월 24일, The Register에 올라온 한 제목이 업계를 흔들었다. "Telling an AI model that it's an expert makes it worse". 미국 남캘리포니아대(USC)가 발표한 "Expert Personas Improve LLM Alignment but Damage Accuracy" 논문의 핵심 결과였다.

USC PRISM 논문의 파괴적 결론

연구진은 MMLU 벤치마크에서 "너는 전문가다"를 추가한 프롬프트와 기본 프롬프트를 비교했다.

기본 프롬프트 71.6% 정확도 (MMLU 전체 평균)

"너는 전문가다" 프롬프트 68.0% 정확도 (3.6%p 하락)

사전학습 데이터에 의존하는 과제(수학, 코딩, 과학)에서 전문가 페르소나는 일관되게 성능을 떨어뜨렸다. 연구진이 제시한 해석은 날카롭다.

"전문가 페르소나 접두사는 모델의 '지식 회상 모드'를 '지시 추종 모드'로 전환시킨다. 이 전환은 사실 검색을 방해한다."

즉, "너는 수학 교수다"라고 말하는 순간, 모델은 "교수답게 설명하는 어조"에 주의를 뺏기고, "정답을 맞히는 것"에는 집중이 분산된다.

또 다른 결정타 — "페르소나 효과는 본질적으로 무작위"

그 이전, 2023년 11월의 "When 'A Helpful Assistant' Is Not Really Helpful" 논문은 더 근본적인 결론을 내렸다. 162개 페르소나, 2,410개 질문, 9개 모델을 조합한 대규모 실험 결과.

🎲

문제: 최적 페르소나를 사전에 고를 수 없다

질문별로 최적 페르소나가 존재하긴 하지만, 어떤 페르소나가 최적인지 예측하는 자동 선택기(RoBERTa 분류기 등)는 무작위 선택과 거의 동일한 성능을 보였다.

📏

의미: 페르소나는 "만능 부스터"가 아니다

직무 매칭(법률 질문에 변호사 페르소나) 시 평균 효과 크기는 0.004 계수 — 통계적으로 유의하지만 실무적으로는 무시 가능한 수준.

🎯

실용적 결론: 페르소나는 "과제 타입"에 맞춰야 한다

정확도 과제(사실 회상, 계산)에는 해롭거나 중립. 발산 과제(글쓰기, 관점 생성, 반대 의견)에는 유용. KDnuggets의 7가지는 모두 후자에 속한다. 우연이 아니다.

화해: KDnuggets의 7가지는 왜 여전히 유효한가

두 비판 논문과 KDnuggets의 7가지 사용법은 모순되지 않는다. 비판은 "페르소나를 사실 회상 부스터로 쓰지 마라"는 것이고, KDnuggets의 사용법은 "페르소나를 관점 이동기로 쓰라"는 것이다.

페르소나가 실패하는 과제	페르소나가 빛나는 과제
MMLU 수학 문제 풀이	내 결정에 대한 반대 의견 수집
한국 GDP 수치 회상	워크플로우의 숨은 전제 드러내기
코드 실행 결과 예측	현대 전략을 과거 관점으로 재검토
사실 관계 판정	문화적 뉘앙스 해석

제4장: 역사 — 주문(spell)에서 공학(engineering)까지

GPT-3 2020 → CoT 2022 → 페르소나 2023-2024 → ReAct와 에이전트 2025-2026 프롬프트 엔지니어링 역사 타임라인

7가지 사용법의 기원은 6년 전 한 논문으로 거슬러 올라간다.

2020 — "Few-Shot Learners"가 모든 것을 바꾸다

OpenAI가 2020년 5월 발표한 "Language Models are Few-Shot Learners" 논문은 프롬프트라는 개념 자체를 탄생시켰다. 175B 파라미터의 GPT-3가 "파인튜닝 없이, 프롬프트 안에 예시만 넣어도 과제를 학습"하는 것을 증명했다. 이 현상이 In-Context Learning(ICL)이다. 개발자는 처음으로 "AI에게 말 거는 법"에 대해 생각해야 했다.

2022 — "단계별로 생각해 보자"의 혁명

2022년 1월, 구글 브레인의 Wei 외가 "Chain-of-Thought Prompting" 논문을 공개했다. 모델에 "단계별로 풀어보자"라고만 써도 GSM8K 수학 정확도가 17.9% → 58.1%로 3배 이상 점프했다. 같은 해 5월, Kojima 외가 "Large Language Models are Zero-Shot Reasoners"에서 더 놀라운 결론을 냈다. 단 한 문장 "Let's think step by step"만 붙여도 제로샷 추론이 활성화된다.

이 발견이 상징적이다. 프롬프트가 단순한 질의가 아니라, 모델 내부의 숨은 능력을 깨우는 트리거라는 점을 보여줬기 때문이다.

2023 — ReAct와 페르소나의 시대

2023년, Yao 외의 ReAct 논문이 "Thought → Action → Observation" 루프를 정식화했다. 동시에 "너는 ○○이다" 형식의 페르소나 프롬프팅이 커뮤니티 표준이 됐다. 프롬프트 엔지니어링이 정보처리 기술에서 "역할 기반 설계"로 확장된 시점이다.

2024 — 비판과 자기 성찰

2024년 EMNLP의 "Two Tales of Persona in LLMs", Anthropic의 sycophancy 논문(ICLR), 그리고 2023년 11월의 "A Helpful Assistant" 논문까지. "프롬프트의 효과가 과장되었다"는 비판 연구가 쏟아졌다. 프롬프트 엔지니어링이 단순한 주문 외우기에서 측정 가능한 공학적 분야로 성숙하기 시작한 전환점이었다.

2025~2026 — 의도 기반 라우팅과 PRISM

2026년 3월, USC의 PRISM(Persona Routing via Intent-based Self-Modeling)이 새로운 방향을 제시했다. "사용자 의도를 먼저 분류하고, 그에 맞는 페르소나를 자동으로 라우팅". 즉, 사용자가 "이 수학 문제 풀어줘"라고 하면 페르소나를 제거하고, "이 전략 비판해줘"라고 하면 가차 없는 비평가 페르소나를 붙이는 식이다.

KDnuggets의 7가지 사용법은 이 PRISM식 사고의 수동 버전이다. 사용자가 의도를 명시적으로 프레임하고, 그에 맞는 역할을 수동으로 지정한다. 2027년쯤에는 이 과정이 모델 내부로 흡수될 가능성이 높다.

제5장: 검색창 vs 인지 파트너 — 같은 도구, 다른 결과

좌측은 검색창에 짧은 질의를 넣고 링크 목록을 받는 무미건조한 장면, 우측은 AI와 원탁에 앉아 사전/뒷면/반대의견을 나누는 협업 장면

KDnuggets가 전한 핵심 메시지를 한 장의 대조표로 정리한다.

검색창 모드	인지 파트너 모드
"○○가 뭐야?"	"○○의 장단점을 ××관점에서 3가지씩 비교해줘"
"이거 고쳐줘"	"내가 놓치고 있는 전제를 러버덕으로 질문해줘"
"번역해줘"	"번역 + 격식수준 + 문화적 각주 3개 + 내가 피해야 할 한국식 표현"
"요약해줘"	"1960년대 광고인 관점에서 평가하고 단순화 제안"
단일 질문 → 단일 답	역할·제약·출력 형식·검증 루프 포함된 구조화된 프롬프트
결과의 품질 ≈ 모델 성능	결과의 품질 ≈ 프롬프트 설계 × 모델 성능

결국 레버리지는 곱셈이다. 모델이 아무리 똑똑해져도, 검색창 모드로 쓰면 검색창만큼의 결과가 나온다. 반대로 모델이 평범해도 인지 파트너 모드로 쓰면 당신의 사고 과정 자체가 한 단계 위로 올라간다.

제6장: 실무 베스트 케이스 — 네 직군의 실전 기록

컨설턴트 전략 리뷰, 엔지니어 오류 해독, 변호사 계약 검토, 학생 학습 로드맵 네 가지 케이스의 2x2 일러스트

실제 사용처를 네 직군으로 응축한다.

케이스 1: 전략 컨설턴트 — "투자위원회 리허설"

맥킨지 출신의 한 독립 컨설턴트는 매번 투자위원회 발표 전날 3개 페르소나 프롬프트를 순차 적용한다.

Devil's Advocate: 전략의 허점 10가지
60대 보수적 이사: 가장 반발할 예상 질문 5가지
스타트업 파운더: 실행 관점에서 불가능해 보이는 조건 3가지

"혼자 하루 고민할 내용을 30분 안에 뽑는다"가 그의 표현이다. 핵심은 세 페르소나가 서로 다른 결함을 드러낸다는 점. 하나만 쓰면 하나의 방향성에 갇힌다.

케이스 2: SRE — "장애 복구 페어링"

카카오 산하 한 서비스의 SRE는 on-call 시 "친절한 시니어 멘토" 페르소나를 기본 템플릿으로 등록했다. 포함되는 제약: "로그만으로 답을 단정하지 말고, 검증 명령을 제안할 것. 3가지 가설을 확률순으로 제시할 것." 이 패턴이 내부 문서화되면서 주니어 엔지니어 평균 MTTR이 28% 단축됐다.

케이스 3: 기업 법무 — "비표준 조항 사전 스캔"

한 중견 제조기업 법무팀은 외부 LLM 사용을 금지하고, Llama 3 70B를 온프레미스로 호스팅한다. 프롬프트는 KDnuggets 템플릿의 변형으로, "한국 표준계약 기준에서 벗어난 조항만 표시. 해석은 하지 말 것. 판단은 변호사가 할 것." 이 "선 스크리닝, 후 판단" 분업이 월 300건 검토의 병목을 해체했다.

케이스 4: 교육 — "역량 격차 기반 14일 부트캠프"

AI 사내 업스킬링 프로그램을 운영하는 HR 팀장은 동일한 주제(예: 파이썬 데이터 분석)를 4개 그룹에게 가르치되, 각자의 배경 지식 인터뷰로 얻은 개인 ZPD에 맞춰 LLM이 14일 커리큘럼을 생성한다. 만족도는 표준 MOOC 대비 4.2/5 → 4.7/5로 상승했고, 더 중요한 것은 완주율이 41% → 78%로 올랐다는 사실이다.

제7장: 2026년, AI 시대에 "프롬프트"의 역할은 무엇인가

모델이 점점 똑똑해지는데도 프롬프트가 중요한 이유

GPT-5, Claude Opus 4.7, Gemini 3 같은 최신 모델은 이미 "간단한 질문"에는 거의 완벽하게 답한다. 그래서 사람들은 묻는다. "그럼 프롬프트 엔지니어링은 곧 무의미해지지 않나?" 답은 정반대다. 세 가지 이유가 있다.

모델이 발전해도 프롬프트가 중요한 3가지 이유

① 과제의 복잡도 한계 상승 모델이 쉬워진 과제는 자동화된다. 사람은 더 복잡한 과제에 쓴다. 복잡할수록 프롬프트 설계의 역할이 커진다.

② 아첨 편향의 지속 RLHF가 훈련의 기본 구조인 한, 아첨 회로는 사라지지 않는다. 의도적 페르소나·제약이 아첨 우회의 유일한 수단.

③ 에이전트 시대의 조율 멀티 에이전트 시스템에서 "누가 어떤 역할인가"를 설계하는 것이 프롬프팅의 다음 프런티어.

"프롬프트 엔지니어"에서 "인지 디자이너"로

2023년에는 "프롬프트 엔지니어"가 고연봉 직군으로 떠올랐다가 2025년엔 사라진다는 우려가 함께 돌았다. 실제로 일어난 일은 둘 다 아니다. 직군명은 사라지고, 능력은 모든 화이트칼라의 기본 소양이 됐다. PM, 마케터, 변호사, 교사, 의사. 모두 자신의 직무에서 LLM을 인지 파트너로 쓰는 법을 배워야 한다.

제8장: 실무자 체크리스트 — 비전통적 프롬프트 7원칙

따뜻한 나무 책상 위 펼쳐진 공책에 7가지 프롬프트 설계 원칙 아이콘이 번호와 함께 그려진 일러스트

KDnuggets의 7가지를 실제 업무에 녹이려면 다음 7원칙이 유용하다.

마무리: 프롬프트는 AI를 쓰는 기술이 아니라, 스스로 생각하는 기술이다

LLM을 검색창으로 쓰는 사람과 인지 파트너로 쓰는 사람은 같은 도구를 쓰지 않는다. 후자의 사람이 얻는 진짜 가치는 "AI의 답"이 아니다. "AI에게 무엇을 물어야 할지 고민하는 과정"에서 자기 사고가 정렬되는 것이다. 악마의 변론자 프롬프트를 쓰는 동안, 당신은 자기 결정의 맹점을 이미 직감하고 있다. 러버덕 프롬프트를 쓰는 동안, 워크플로우의 구멍은 입력하는 순간 드러난다. LLM은 거울일 뿐이다.

2026년 4월, 모델은 더 커지고, 가격은 더 낮아지고, 인터페이스는 더 편해진다. 그러나 "무엇을 물을 것인가"라는 인간의 책임은 줄어들지 않는다. 오히려 커진다. 도구가 강력해질수록, 잘못 물으면 더 정교한 거짓에 더 빠르게 도달하기 때문이다.

KDnuggets의 7가지 사용법이 전하는 진짜 메시지는 이것이다.

당신의 LLM을 바꾸지 말고, 당신의 질문을 바꿔라.

그 시작을, 내일 처음 여는 대화창에서 해보면 된다. "도와줘" 대신 "가차 없이 반박해줘"로.

더 읽어볼 자료

원문: 7 Specific Unconventional Things to Do with Language Models — Iván Palomares Carrascosa, KDnuggets, 2026
Anthropic, 아첨 연구: Towards Understanding Sycophancy in Language Models (ICLR 2024)
USC, 페르소나 한계: Expert Personas Improve LLM Alignment but Damage Accuracy (PRISM) (arXiv, 2026.03)
페르소나 대규모 실험: When "A Helpful Assistant" Is Not Really Helpful (arXiv, 2023)
CoT 원조: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Google Brain, 2022)
제로샷 CoT: "Let's think step by step" (Kojima et al., 2022)
ReAct 루프: ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022)
Devil's Advocate 실험: Amplifying Minority Voices: AI-Mediated Devil's Advocate System (CHI 2025)
러버덕 기원: The Pragmatic Programmer (Hunt & Thomas, 1999)
UX 리포트: Sycophancy in Generative-AI Chatbots (NN/G, 2024)
코어닷투데이 관련 특집: 프롬프트 엔지니어링 완전 정복, 에이전트 AI 특집: 민스키의 상상에서 AAIF까지, 코드 없이 행정을 다시 쓴 7년차 공무원

특집2026.04.07

LLM을 검색창이 아닌 인지 파트너로 — 7가지 비전통적 사용법의 과학

들어가며: "ChatGPT한테 뭘 물어봐야 할지 모르겠어요"

제1장: 모든 비전통적 사용법의 출발점은 "아첨(Sycophancy)"이다

LLM은 당신을 기쁘게 하도록 훈련받았다

아첨의 일상 증거

제2장: 7가지 사용법 해부 — 프롬프트, 근거, 한계

① 개인 악마의 변론자 (Personal Devil's Advocate)

② 기술적 오류의 자연어 해독기 (Error Decoder)

③ 계약서의 숨은 조항 스캐너 (Contract Analyzer)

④ 역사적 페르소나의 관점 시뮬레이션 (Historical Persona)

⑤ 논리 구멍을 찾는 러버덕 (Logic Validator)

⑥ 개인 맞춤 학습 로드맵 (Learning Roadmap)

⑦ 문화적 맥락 통역사 (Cultural Bridge)

제3장: 한계와 비판 — "전문가라고 말하면 오히려 나빠진다"

USC PRISM 논문의 파괴적 결론

또 다른 결정타 — "페르소나 효과는 본질적으로 무작위"

화해: KDnuggets의 7가지는 왜 여전히 유효한가

제4장: 역사 — 주문(spell)에서 공학(engineering)까지

2020 — "Few-Shot Learners"가 모든 것을 바꾸다

2022 — "단계별로 생각해 보자"의 혁명

2023 — ReAct와 페르소나의 시대

2024 — 비판과 자기 성찰

2025~2026 — 의도 기반 라우팅과 PRISM

제5장: 검색창 vs 인지 파트너 — 같은 도구, 다른 결과

제6장: 실무 베스트 케이스 — 네 직군의 실전 기록

케이스 1: 전략 컨설턴트 — "투자위원회 리허설"

케이스 2: SRE — "장애 복구 페어링"

케이스 3: 기업 법무 — "비표준 조항 사전 스캔"

케이스 4: 교육 — "역량 격차 기반 14일 부트캠프"

제7장: 2026년, AI 시대에 "프롬프트"의 역할은 무엇인가

모델이 점점 똑똑해지는데도 프롬프트가 중요한 이유

"프롬프트 엔지니어"에서 "인지 디자이너"로

제8장: 실무자 체크리스트 — 비전통적 프롬프트 7원칙

마무리: 프롬프트는 AI를 쓰는 기술이 아니라, 스스로 생각하는 기술이다

더 읽어볼 자료

관련 포스트

컨텍스트 엔지니어링 완전 정복: 프롬프트의 시대는 끝났다

프롬프트의 진화 — 한 줄에서 '오픈소스 팀'까지, gstack·ECC로 읽는 6세대

이단자(Heretic) 특집: '안전 정렬'을 30분 만에 외과수술로 제거하는 도구 — 거부의 단 하나의 방향

성당과 시장의 귀환 — 빅테크는 왜 자기 보물을 공짜로 풀어주는가