
EdgeCrafter 완전 이해: 작은 ViT의 반란 — 태스크 특화 증류로 엣지에서 검출·분할·포즈를 동시에
범용 사전학습이 소형 ViT에게는 독이 된다? — DINOv3를 태스크 특화 교사로 변환하여 10M 파라미터 ViT가 검출 51.7%, 분할 43.0%, 포즈 68.9% AP를 달성한 EdgeCrafter의 이야기.

범용 사전학습이 소형 ViT에게는 독이 된다? — DINOv3를 태스크 특화 교사로 변환하여 10M 파라미터 ViT가 검출 51.7%, 분할 43.0%, 포즈 68.9% AP를 달성한 EdgeCrafter의 이야기.
2026년, 컴퓨터 비전의 풍경은 이렇다.
큰 ViT(Vision Transformer)는 경이적이다. DINOv3, SAM2, CLIP — 수억 파라미터의 거대 모델들은 객체 검출, 분할, 포즈 추정 등 거의 모든 밀집 예측(dense prediction) 과제에서 압도적 성능을 보여준다. 하지만 이 모델들은 서버급 GPU가 필수다. 자율주행차의 임베디드 보드, 드론의 엣지 칩, 스마트 카메라의 NPU에는 올릴 수 없다.
한편 엣지 디바이스에서의 밀집 예측은 여전히 CNN의 세계다. YOLO, MobileNet, EfficientNet — CNN 기반 경량 모델들이 엣지를 지배하고 있다. ViT가 엣지에 진입하지 못하는 이유는 명확해 보인다. "ViT는 무거우니까."
하지만 정말 그럴까? ViT를 작게 만들면 안 되는 걸까?
Intellindust AI Lab의 연구팀은 놀라운 실험을 했다. ViT-Tiny(5M 파라미터)를 ImageNet-21K로 지도 학습(supervised pretraining)한 뒤 COCO 검출에 적용했더니, 42.2% AP에 그쳤다. 같은 크기의 CNN 기반 모델보다 못한 수치다. 그런데 같은 ViT-Tiny를 아예 랜덤 초기화해서 검출 학습을 하면? 46.6% AP — 사전학습한 것보다 4.4%나 높다.
범용 사전학습이 소형 ViT에게는 오히려 독이 된 것이다.
그렇다면 질문은 이것이다. 소형 ViT에게 필요한 것은 "범용 지식"이 아니라 "태스크에 특화된 지식"이 아닐까?
이 질문의 답이 EdgeCrafter다. DINOv3를 검출 태스크에 먼저 적응시켜 "태스크 특화 교사"를 만들고, 이 교사로부터 소형 ViT에 지식을 증류한다. 결과: ECDet-S는 10M 파라미터로 51.7% AP — DEIMv2-S(50.9%)와 RT-DETRv4-S(49.7%)를 모두 넘어서며, COCO 주석만으로 학습했다. 그리고 이 검출용 백본이 인스턴스 분할과 포즈 추정에도 그대로 전이된다. 하나의 백본, 세 가지 태스크.
이 논문의 가장 충격적인 발견은 Figure 1b에 요약된다.
| 초기화/증류 전략 | COCO AP (%) | 비고 |
|---|---|---|
| ViT-T + ImageNet-21K 사전학습 | 42.2 | 범용 사전학습 → 오히려 낮음 |
| ECViT-T + 랜덤 초기화 | 46.6 | 사전학습 없이 더 높음! |
| ECViT-T + DINOv3 증류 (범용) | 50.7 | VFM 증류는 효과적 |
| ECViT-T + 태스크 특화 증류 | 51.7 | 검출에 특화된 교사가 최고 |
왜 이런 일이 벌어질까?
범용 사전학습의 함정. ImageNet-21K 분류 학습은 "이미지 전체를 하나의 라벨로 분류"하는 과제다. 이 과정에서 모델은 전역적 의미론(global semantics)을 학습한다. 하지만 밀집 예측(검출, 분할, 포즈)은 공간적 정밀도(spatial precision)가 핵심이다. 객체의 경계, 키포인트의 정확한 위치, 픽셀 단위의 마스크 — 이 모든 것이 세밀한 공간 정보를 요구한다.
큰 ViT는 용량이 충분하여, 범용 사전학습으로 얻은 전역 지식 위에 공간 정보를 추가 학습할 수 있다. 하지만 소형 ViT는 용량이 제한적이다. 범용 분류에 맞춰진 표현이 이미 모델을 채우고 있으면, 검출에 필요한 공간 표현을 새로 학습할 여지가 줄어든다. 결과적으로, 사전학습이 오히려 학습을 방해한다.
이것은 Ghiasi et al. (2021)과 Zoph et al. (2020)의 관찰과도 일치한다. 작은 모델에서는 사전학습이 반드시 이득이 아니다.
그렇다면 해법은 명확하다. 소형 ViT에게 처음부터 검출에 특화된 표현을 가르치면 된다. 하지만 소형 ViT가 직접 검출을 잘 학습하기는 어렵다 — 용량이 부족하니까. 그래서 거대한 VFM을 검출 교사로 변환한 뒤, 그 교사로부터 증류하는 것이다.

EdgeCrafter의 첫 단계는 범용 VFM인 DINOv3를 검출 전문 교사(ECTeacher)로 변환하는 것이다.
핵심: 교사가 범용 DINOv3가 아니라, 검출에 적응된 DINOv3라는 점이다. RT-DETRv4는 범용 DINOv3를 교사로 사용했지만, EdgeCrafter는 한 단계 더 나아가 교사 자체를 태스크에 맞춘다.
증류의 핵심은 특징 정렬(feature alignment)이다. 학생의 마지막 트랜스포머 블록 출력을 교사의 마지막 두 블록 출력에 정렬한다.
일대다(one-to-many) 정렬: 학생의 단일 특징이 교사의 여러 특징과 정렬된다. 무거운 프로젝션 헤드 없이 최소한의 어댑터로, 학생 백본에 표현 부담을 집중시킨다.
가장 우아한 설계는 Stage 3다. 검출(ECDet)을 위해 증류된 백본과 인코더가 인스턴스 분할(ECInsSeg)과 포즈 추정(ECPose)에 그대로 재사용된다.

각 태스크에서 백본과 인코더는 고정되고, 태스크별 경량 헤드만 교체된다. 이것이 의미하는 바:
표준 ViT는 16×16 패치 임베딩을 사용한다. 하나의 큰 스트라이드로 토큰화하는 것인데, 이 과정에서 세밀한 공간 디테일이 손실된다. 분류에는 문제없지만, 검출처럼 정밀한 위치가 중요한 태스크에서는 치명적이다.
EdgeCrafter는 패치 임베딩을 4개의 3×3 합성곱 스트라이드 2 스택으로 대체한다. 수용야(receptive field)를 점진적으로 확장하면서 지역 구조를 보존한다. 중심부에 집중된 효과적 수용야(effective receptive field)가 유지되어, 검출에 중요한 세밀한 위치 정보가 살아남는다.
ViT는 단일 스케일(1/16) 출력만 생성한다. 검출에는 멀티스케일이 필수다. EdgeCrafter는 비용이 큰 Feature Pyramid 대신 극도로 단순한 방법을 사용한다.
DEIMv2의 STA는 여러 ViT 블록에서 특징을 추출하고 Bi-Fusion으로 합성했지만, EdgeCrafter는 마지막 두 블록의 평균 하나만 사용한다. 더 단순하고 더 적은 연산.
인코더는 RT-DETR의 AIFI + CCFF를 따르고, 디코더는 4개 레이어, 300 쿼리로 모든 스케일에서 고정된다. 변하는 것은 백본의 너비(embedding dimension)와 인코더/디코더의 히든 차원뿐이다.
| 모델 | ECViT 변형 | Embed Dim | Heads | 교사 |
|---|---|---|---|---|
| ECDet-S | ECViT-T | 192 | 3 | ECTeacher-S |
| ECDet-M | ECViT-T+ | 256 | 4 | ECTeacher-B |
| ECDet-L | ECViT-S | 384 | 6 | ECTeacher-B |
| ECDet-X | ECViT-S+ | 384 | 6 | ECTeacher-B |
아래 탐색기에서 EdgeCrafter의 세 가지 태스크 성능을 직접 비교해보자.
| S 모델 | 에폭 | 파라미터 | GFLOPs | AP (%) |
|---|---|---|---|---|
| YOLOv12-S-turbo | 600 | 9M | 19 | 47.6 |
| D-FINE-S | 124 | 10M | 25 | 48.5 |
| DEIM-S | 132 | 10M | 25 | 49.0 |
| RT-DETRv4-S | 132 | 10M | 25 | 49.7 |
| DEIMv2-S | 132 | 10M | 26 | 50.9 |
| ECDet-S | 74 | 10M | 26 | 51.7 |
ECDet-S: 51.7% AP, 10M 파라미터, COCO 주석만 사용. DEIMv2-S(50.9%)를 +0.8%, RT-DETRv4-S(49.7%)를 +2.0% 앞서며, Objects365 사전학습에 의존하는 경쟁자들과도 비교할 만하다.
| X 모델 | 에폭 | 파라미터 | GFLOPs | AP (%) |
|---|---|---|---|---|
| D-FINE-X | 72 | 62M | 202 | 55.8 |
| DEIM-X | 58 | 62M | 202 | 56.5 |
| RT-DETRv4-X | 58 | 62M | 202 | 57.0 |
| DEIMv2-X | 58 | 50M | 152 | 57.8 |
| ECDet-X | 50 | 49M | 151 | 57.9 |
ECDet-X: 57.9% AP — DEIMv2-X(57.8%)와 거의 동일하면서, Objects365 사전학습 없이 달성. 가장 적은 에폭(50)으로 최고 수준 성능.
| 모델 | 파라미터 | GFLOPs | 지연 (ms) | Mask AP (%) |
|---|---|---|---|---|
| ECInsSeg-S | 10M | 33 | 6.96 | 43.0 |
| ECInsSeg-M | 20M | 64 | 9.85 | 45.2 |
| ECInsSeg-L | 34M | 111 | 12.56 | 47.1 |
| ECInsSeg-X | 50M | 168 | 14.96 | 48.4 |
ECInsSeg는 RF-DETR-Seg와 비교할 만한 성능을 훨씬 적은 파라미터로 달성한다. 백본과 인코더가 ECDet에서 그대로 전이되므로, 분할 전용 학습 비용이 최소다.
| 모델 | 파라미터 | GFLOPs | 지연 (ms) | Keypoint AP (%) |
|---|---|---|---|---|
| ECPose-S | 10M | 30 | 5.54 | 68.9 |
| ECPose-M | 20M | 63 | 9.25 | 72.4 |
| ECPose-L | 34M | 112 | 11.83 | 73.5 |
| ECPose-X | 51M | 172 | 14.31 | 74.8 |
| YOLO26Pose-X (참고) | — | — | — | 71.6 |
ECPose-X: 74.8% AP — YOLO26Pose-X(71.6%)를 3.2% AP 능가한다. 검출을 위해 증류된 ViT 표현이 포즈 추정에서도 강력하다는 놀라운 결과다.
논문의 어블레이션에서 중요한 관찰이 있다.
범용 DINOv3에서 직접 증류하면 50.7% AP를 달성한다. 하지만 DINOv3를 먼저 검출에 적응시킨 뒤 증류하면 51.7% AP — +1.0% 추가 향상이다.
1%가 작아 보일 수 있지만, 이 규모(50% AP 이상)에서 1%는 수개월의 아키텍처 연구에 해당하는 향상이다. 그리고 이 향상은 추가 파라미터나 연산 비용 없이 달성된다 — 교사가 더 좋을 뿐이다.
직관적으로: 수학을 배우려는 학생에게 "모든 과목을 잘하는 범용 교사"보다 "수학 전문 교사"가 더 효과적인 것과 같다.
| 접근법 | 교사 | 증류 대상 | 추론 시 백본 |
|---|---|---|---|
| RT-DETRv4 | 범용 DINOv3 | AIFI 특징 F̃5만 | CNN (HGNetv2) |
| DEIMv2 | DINOv3 자체가 백본 | 직접 사용 | ViT (DINOv3) |
| EdgeCrafter | 검출 적응 DINOv3 | 소형 ViT 전체 | 소형 ViT (ECViT) |
EdgeCrafter의 독특한 위치:
EdgeCrafter의 실무적 가치는 파라미터 효율성에 있다.
| 모델 | AP (%) | 파라미터 | GFLOPs |
|---|---|---|---|
| ECDet-S | 51.7 | 10M | 26 |
| RT-DETRv2-S | 48.1 | 20M | 60 |
| RF-DETR-S | 52.9 | 32M | 60 |
ECDet-S는 RT-DETRv2-S의 절반 파라미터, 절반 이하 GFLOPs로 3.6% 높은 AP를 달성한다. RF-DETR-S는 AP에서 앞서지만, 파라미터가 3.2배, GFLOPs가 2.3배 많다.
엣지 디바이스에서 10M 파라미터는 FP16으로 약 20MB, INT8 양자화하면 10MB — 대부분의 엣지 칩에 올릴 수 있는 크기다. 그러면서 51.7% AP라는 높은 정확도를 제공한다.
엣지 디바이스에서 검출, 분할, 포즈를 모두 수행해야 한다면?
기존 방식: 세 가지 별도 모델을 각각 로드 → 메모리 3배, 관리 복잡 EdgeCrafter: 하나의 ECViT 백본 + 세 개의 경량 태스크 헤드 → 백본 메모리 공유, 단일 프레임워크
EdgeCrafter가 증명한 것은 이것이다.
"소형 ViT가 엣지에서 약한 것은 아키텍처의 한계가 아니라, 태스크 특화 표현의 부족 때문이다."
올바른 증류 전략(태스크 특화 교사)과 올바른 설계(합성곱 스템, 경량 피라미드)를 갖추면, 10M 파라미터의 ViT가 CNN 기반 경쟁자를 능가할 수 있다.
이 글은 YOLO에서 시작된 객체 검출 시리즈의 마지막 글이다. 11년의 여정을 돌아보자.
각 세대가 이전 세대의 한계를 돌파해왔고, EdgeCrafter는 그 최전선에서 "엣지에서의 밀집 예측"이라는 가장 실용적인 문제를 해결한다.
EdgeCrafter의 메시지는 명확하다.
크기가 작다고 능력이 없는 것이 아니다. 올바른 교육을 받지 못했을 뿐이다.
ViT-Tiny에 ImageNet-21K를 주입하면 42.2% AP에 그친다. 하지만 검출에 특화된 교사로부터 정교하게 증류하면 51.7% AP — 9.5%나 향상된다. 같은 학생에게 같은 시간을 투자해도, 교사의 질과 교육 방법이 결과를 좌우한다.
그리고 이 교육의 성과는 검출을 넘어 분할과 포즈까지 전이된다. 하나의 교육이 세 가지 능력을 낳는다.
57.9% AP의 검출, 48.4% AP의 분할, 74.8% AP의 포즈. 모두 하나의 소형 ViT 백본에서. 모두 엣지에서 실시간으로.
작은 것이 아름답다. 단, 올바르게 가르쳤을 때.