인사이트
71개의 포스트

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가
정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.

모놀리식 vs 마이크로서비스 특집: 아키텍처 선택의 영원한 논쟁, 끝장 정리
Amazon은 마이크로서비스의 선구자인데, Amazon Prime Video는 마이크로서비스에서 모놀리식으로 돌아갔다. Netflix는 MSA의 교과서인데, 초기에는 모놀리식이었다. 정답은 무엇인가? 역사·논문·실패 사례·데이터베이스 전략까지 — 이 논쟁의 끝장을 내본다.

DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다
SFT 없이 순수 강화학습만으로 수학 올림피아드 문제를 푸는 AI가 탄생했다. DeepSeek-R1은 OpenAI o1에 필적하는 추론 능력을 5백만 달러로 달성하며, NVIDIA 주가를 17% 폭락시키고, AI 산업의 상식을 뒤흔들었다. 그 안에서 일어난 일을 처음부터 풀어본다.

OpenClaw — 주말 프로젝트가 AI의 다음 챕터가 되기까지
오스트리아의 한 개발자가 WhatsApp으로 AI와 대화하고 싶었다. 6개월 뒤, 그 주말 프로젝트는 GitHub 역사상 가장 빠르게 성장한 오픈소스 프로젝트가 되었다. OpenClaw의 탄생부터 기술 원리, 글로벌 열풍, 그리고 보안의 그림자까지.

ReAct 논문 해부: AI가 '생각하면서 행동하기'를 배운 순간
Chain-of-Thought는 생각만 했고, WebGPT는 행동만 했다. 2022년, 프린스턴과 Google의 연구자들이 '생각하면서 행동하기'를 결합했을 때 — 환각률이 56%에서 0%로 떨어졌다. 인지과학의 '내적 언어' 이론부터 2026년 모든 AI 에이전트의 작동 원리가 된 ReAct까지, 논문의 모든 핵심을 풀어본다.

AI for Science: 노벨상 받은 AlphaFold에서 Boltz-2까지, 과학의 판이 바뀌었다
2024년 노벨 화학상은 AI에게 돌아갔다. AlphaFold가 50년 난제를 풀고, Boltz-2가 20초 만에 신약 후보의 결합력을 예측하는 시대. '과학을 위한 AI'가 실험실을 바꾸고 있는 현장을 추적한다.

Human-in-the-Loop 특집: AI가 똑똑해질수록 사람이 더 중요해지는 역설
1940년대 사이버네틱스에서 2026년 에이전트 AI까지 — 자동화가 고도화될수록 인간의 판단이 더 결정적이 되는 '자동화 역설'의 역사, 학술적 근거, 그리고 실전 사례를 추적한다.

Nathan Lambert의 RLHF Book 리뷰 — RLHF 전체 지형도를 하나로
ChatGPT를 만든 비밀 무기 RLHF. 그런데 실제로 어떻게 작동하는지 아는 사람은 드물다. AI2의 Nathan Lambert가 쓴 218페이지 무료 교재가 SFT부터 PPO, GRPO, DPO, RLVR, 과최적화, 평가까지 RLHF의 모든 것을 하나로 정리했다. 핵심만 짚어본다.

Constitutional AI: AI에게 '헌법'을 주면 스스로 착해질 수 있을까?
인간 수만 명이 AI 답변을 채점하는 대신, AI에게 '헌법'을 주고 스스로 개선하게 한다면? Anthropic의 Constitutional AI가 AI 안전성의 패러다임을 바꾼 이야기.

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'
ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.

친칠라 스케일링 법칙: '더 크게'가 정답이 아니었다 — AI 훈련 패러다임을 뒤집은 논문
GPT-3는 '과소 훈련'된 모델이었다? 2022년 DeepMind의 친칠라 논문이 밝힌 '모델 크기 vs 데이터 양'의 최적 비율, 그리고 업계가 이를 넘어선 이유까지 — AI 스케일링의 역사를 총정리합니다.