TECH BLOG
기술 블로그
AI 기술 인사이트와 엔지니어링 경험을 공유합니다.
ALL POSTS
모든 포스트

EfficientNet 완전 이해: 작은 것이 아름답다 — AI 효율 혁명의 시작
'더 크게'가 아니라 '더 똑똑하게' — 모델 크기를 키우는 세 가지 차원을 동시에 최적화하는 Compound Scaling이 어떻게 AI 효율 혁명을 일으켰는지를 논문과 사례로 풀어본다.

DPO 특집: 강화학습 없이 AI를 정렬하는 법 — 'AI는 사실 보상 모델이었다'
ChatGPT를 만든 RLHF는 복잡하고, 불안정하고, 비싸다. 스탠퍼드의 DPO 논문은 이 모든 것을 하나의 수식으로 해결했다. 강화학습 없이 AI를 인간의 선호에 맞추는 혁명적 방법론의 탄생부터 2026년 현재까지를 추적한다.

FlashAttention 해부: 박사과정 학생이 만든 커널이 AI 산업 전체를 바꿨다
GPT-3의 컨텍스트가 2K에 머물렀던 이유? 어텐션이 O(N²) 메모리를 잡아먹었기 때문이다. 한 박사과정 학생이 GPU 메모리 계층을 이해하고, 수학은 그대로 두되 메모리 접근만 바꿔서 2~4배 빠르고 10~20배 적은 메모리를 달성했다. 정확도 손실 0%.

RT-DETR 완전 이해: DETR가 YOLO를 이긴 날 — 실시간 트랜스포머 검출의 혁명
NMS 없이 실시간으로 — YOLO의 왕좌에 도전한 최초의 실시간 엔드투엔드 트랜스포머 검출기 RT-DETR가 어떻게 탄생했고, 왜 객체 검출의 패러다임을 바꾸고 있는지를 두 편의 논문과 함께 풀어본다.

VAE 완전 정복: 확률의 마법으로 '없던 것'을 만들어내는 AI
점 하나 대신 '구름'을 배우는 AI — Variational Autoencoder가 확률을 무기로 생성 AI의 시대를 연 이야기. 원리부터 신약 설계, Stable Diffusion과의 연결까지.

GPT-3 논문 해부: 예시 몇 개만으로 배우는 AI의 탄생
1,750억 파라미터, 예시 몇 개면 새 과제를 수행하는 AI. '파인튜닝 없이 학습한다'는 혁명적 발견이 어떻게 ChatGPT와 프롬프트 엔지니어링 시대를 열었는지, GPT-3 논문을 처음부터 끝까지 해부한다.

친칠라 스케일링 법칙: '더 크게'가 정답이 아니었다 — AI 훈련 패러다임을 뒤집은 논문
GPT-3는 '과소 훈련'된 모델이었다? 2022년 DeepMind의 친칠라 논문이 밝힌 '모델 크기 vs 데이터 양'의 최적 비율, 그리고 업계가 이를 넘어선 이유까지 — AI 스케일링의 역사를 총정리합니다.

양자화(Quantization) 완전 해부: 70B 모델을 내 노트북에서 돌리는 마법의 원리
280GB짜리 AI 모델을 35GB로 줄이면서 성능은 97%를 유지한다. 어떻게? FP32에서 INT4까지, BinaryConnect에서 BitNet까지 — 양자화의 역사, 원리, 실전 기법, 그리고 안전성 문제까지 총정리.

RLHF의 기원: '보상 함수를 쓸 수 없다면, 인간에게 물어보라'
ChatGPT를 만든 기술의 원조 논문. 보상 함수를 쓸 수 없는 과제를 인간의 선호 판단 1% 미만으로 해결한 2017년 논문을 해부하며, 강화학습의 기초부터 현대 AI까지의 여정을 쉽게 풀어낸다.