#LLM

45개의 포스트

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가

인사이트RLHFDPO

2025.12.19

모든 길은 우도(Likelihood)로 통한다 — RLHF는 왜 DPO를 이기는가

정보이론적으로 RLHF는 DPO보다 나을 수 없다. 그런데 실제로는 항상 이긴다. CMU와 코넬의 연구팀이 밝혀낸 그 이유는, 컴퓨터 과학의 가장 유명한 난제 P≠NP와 연결되어 있었다.

코어닷투데이31분

DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다

인사이트DeepSeek-R1GRPO

2025.12.17

DeepSeek-R1 특집: AI가 스스로 '아하!'를 외친 날 — 강화학습으로 추론 능력을 깨우다

SFT 없이 순수 강화학습만으로 수학 올림피아드 문제를 푸는 AI가 탄생했다. DeepSeek-R1은 OpenAI o1에 필적하는 추론 능력을 5백만 달러로 달성하며, NVIDIA 주가를 17% 폭락시키고, AI 산업의 상식을 뒤흔들었다. 그 안에서 일어난 일을 처음부터 풀어본다.

코어닷투데이57분

인사이트OpenClawAI 에이전트

2025.12.16

OpenClaw — 주말 프로젝트가 AI의 다음 챕터가 되기까지

오스트리아의 한 개발자가 WhatsApp으로 AI와 대화하고 싶었다. 6개월 뒤, 그 주말 프로젝트는 GitHub 역사상 가장 빠르게 성장한 오픈소스 프로젝트가 되었다. OpenClaw의 탄생부터 기술 원리, 글로벌 열풍, 그리고 보안의 그림자까지.

코어닷투데이44분

기술LoRAQLoRA

2025.12.15

LoRA 완전 정복: 포스트잇 하나로 거대 AI를 내 것으로 만드는 법

700억 파라미터 모델을 내 노트북에서 파인튜닝한다고? LoRA와 QLoRA가 가능하게 만든 '효율적 적응'의 원리를 포스트잇 비유와 함께 완전 해부합니다.

코어닷투데이36분

기술Toolformer도구 사용 AI

2025.12.07

Toolformer 해부: AI가 스스로 도구 사용법을 깨우친 날

1750억 GPT-3도 못하는 산수를 67억 모델이 해냈다. 비결은 '스스로 도구 쓰는 법을 배운 것.' 2023년 Meta AI의 Toolformer 논문이 열어젖힌 도구 사용 AI의 세계를, 2026년 MCP 시대의 시점에서 되짚는다.

코어닷투데이32분

논문 리뷰COCONUT잠재 추론

2025.12.03

COCONUT: AI가 말하지 않고 생각하는 법을 배우다

Meta AI의 COCONUT 논문을 깊이 파헤칩니다. LLM이 토큰 대신 연속 잠재 공간에서 추론하면 어떤 일이 벌어질까요? 언어라는 병목을 넘어선 새로운 사고 패러다임의 등장입니다.

코어닷투데이32분

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

인사이트DPORLHF

2025.11.04

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'

ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.

코어닷투데이44분

친칠라 스케일링 법칙: '더 크게'가 정답이 아니었다 — AI 훈련 패러다임을 뒤집은 논문

인사이트스케일링 법칙Chinchilla

2025.10.20

친칠라 스케일링 법칙: '더 크게'가 정답이 아니었다 — AI 훈련 패러다임을 뒤집은 논문

GPT-3는 '과소 훈련'된 모델이었다? 2022년 DeepMind의 친칠라 논문이 밝힌 '모델 크기 vs 데이터 양'의 최적 비율, 그리고 업계가 이를 넘어선 이유까지 — AI 스케일링의 역사를 총정리합니다.

코어닷투데이33분

Gradient Clipping 완전 해부: 딥러닝의 안전벨트는 어떻게 탄생했는가

기술Gradient Clipping딥러닝

2025.09.15

Gradient Clipping 완전 해부: 딥러닝의 안전벨트는 어떻게 탄생했는가

1991년, 독일어로 쓴 석사 논문 하나가 딥러닝의 근본 문제를 발견했다. 기울기가 폭발하거나 소멸한다. 22년 뒤, 세 명의 연구자가 해법을 제시했다 — Gradient Clipping. GPT-3부터 LLaMA까지, 모든 대형 모델의 훈련에 쓰이는 이 기법의 역사와 원리를 처음부터 파헤친다.

코어닷투데이25분