#논문 리뷰

7개의 포스트

범용 사전학습이 소형 ViT에게는 독이 된다? — DINOv3를 태스크 특화 교사로 변환하여 10M 파라미터 ViT가 검출 51.7%, 분할 43.0%, 포즈 68.9% AP를 달성한 EdgeCrafter의 이야기.

0.49M 파라미터의 초소형 Atto부터 57.8% AP의 거대 X까지 — DINOv3의 강력한 표현력을 STA로 실시간에 녹여낸 DEIMv2가 8개 스케일로 GPU, 엣지, 모바일을 동시에 정복한 이야기.

Gemini-2.5-Flash 체스 대회 패배의 78%가 '반칙'이었다. Google DeepMind의 AutoHarness 논문은 LLM이 스스로 규칙 검증 코드를 작성해 이 문제를 해결한다. 작은 모델이 큰 모델을 이기는 역전극의 비밀.

추론 비용 0으로 DINOv3의 지혜를 실시간 검출기에 주입하다 — Deep Semantic Injector와 Gradient-guided Adaptive Modulation으로 YOLO13, D-FINE, DEIM을 모두 넘어선 RT-DETRv4의 이야기.

고정된 좌표 대신 확률 분포를 반복 정제하고, 깊은 층의 지혜를 얕은 층에 전수하는 자기 증류까지 — D-FINE이 YOLO와 RT-DETR를 모두 넘어서며 실시간 객체 검출의 새로운 기준을 세운 이야기.

NMS 없이 실시간으로 — YOLO의 왕좌에 도전한 최초의 실시간 엔드투엔드 트랜스포머 검출기 RT-DETR가 어떻게 탄생했고, 왜 객체 검출의 패러다임을 바꾸고 있는지를 두 편의 논문과 함께 풀어본다.

'느리지만 정확하게'가 아니라 '한 번에 전부' — 객체 검출을 회귀 문제로 재정의하여 실시간 처리를 가능하게 한 YOLO가 어떻게 탄생했고, 왜 10년이 지난 지금도 세상을 바꾸고 있는지를 논문과 사례로 풀어본다.