What is Multimodal AI?
하나의 AI가 여러 감각을 동시에 이해합니다
사람이 눈으로 보고, 귀로 듣고, 글을 읽어 종합적으로 판단하듯, 멀티모달 AI는 여러 종류의 입력을 하나의 맥락으로 융합합니다.
시각 (Vision)
사진, 영상, 전신 이미지에서 사물·인물·스타일·감정을 인식합니다. 얼굴 검출, 포즈 추정, 스타일 분석이 가능합니다.
언어 (Language)
자연어를 깊이 이해하고, 맥락에 맞는 텍스트를 생성합니다. 대화형 AI, RAG 기반 지식 검색, 스토리 생성을 수행합니다.
음성 (Audio)
사용자의 음성을 실시간으로 인식(STT)하고, 자연스러운 음성으로 응답(TTS)합니다. 감정 톤과 뉘앙스까지 파악합니다.
문서 (OCR & Document)
인쇄물, 손글씨, 표, 양식 등 다양한 문서에서 텍스트와 구조를 정밀하게 추출합니다. 레이아웃 분석과 테이블 인식을 포함합니다.
Model Stack
프로덕션에서 구동하는 모델들
각 모달리티별 최적의 모델을 선정하고, vLLM 기반으로 고속 서빙합니다
CLIP / SigLIP
이미지와 텍스트를 동일한 임베딩 공간에서 매칭. 이미지 검색, 분류, 제로샷 인식에 활용.
YOLOv8 / RT-DETR
실시간 객체 검출. 사람, 상품, 부식 영역 등을 밀리초 단위로 탐지.
Face Detection & Analysis
얼굴 검출, 랜드마크 추출, 표정 인식. 토닥북 캐릭터 생성 및 Hyscent 분석에 활용.
vLLM 기반 sLLM 서빙
PagedAttention으로 GPU 메모리를 최적 활용하고, Continuous Batching으로 동시 요청을 고속 처리하는 LLM 추론 엔진.
RAG + Knowledge Graph
Vector DB 검색과 지식 그래프를 결합한 Retrieval-Augmented Generation. 할루시네이션을 줄이고 정확한 답변을 생성.
도메인 특화 sLLM
법률, 향수, 교육 등 도메인 데이터로 파인튜닝한 경량 LLM. 온프레미스 배포가 가능한 크기로 최적화.
PaddleOCR / EasyOCR
한국어·영어·일어 등 다국어 텍스트를 정밀하게 인식. 회전, 왜곡, 저해상도 환경에서도 높은 정확도를 보장.
Layout Analysis
문서의 구조(제목, 본문, 표, 이미지 영역)를 자동으로 파싱. PDF, 스캔 문서, 양식 등을 구조화된 데이터로 변환.
Vision-Language OCR
GPT-4V 스타일의 Vision-Language 모델로 문서의 의미까지 이해. 단순 텍스트 추출을 넘어 문맥 기반 해석을 수행.
Whisper (STT)
OpenAI Whisper 기반 실시간 음성 인식. 한국어 특화 튜닝으로 높은 인식률을 달성.
TTS (Text-to-Speech)
자연스러운 한국어 음성 합성. 감정, 속도, 톤을 제어할 수 있어 대화형 AI에 적합.
Audio Embedding
음성에서 화자의 특성, 감정 상태, 대화 의도를 벡터로 추출하여 멀티모달 융합에 활용.
Stable Diffusion XL
텍스트 프롬프트로 고품질 이미지를 생성. 동화 삽화, 캐릭터, 아트워크 생성에 활용.
ControlNet / IP-Adapter
참조 이미지의 포즈, 구도, 스타일을 유지하면서 새로운 이미지를 생성. 얼굴 일관성 유지에 핵심.
Image Inpainting & Editing
기존 이미지의 특정 영역을 자연스럽게 수정하거나 확장. 배경 변환, 스타일 변환에 활용.
vLLM으로 LLM 추론 속도를 극대화
PagedAttention 기술로 GPU 메모리를 가상 페이지 단위로 관리하여 메모리 낭비를 최소화합니다. Continuous Batching으로 대기 없이 요청을 처리하여, 동일 GPU에서 기존 대비 2~4배 높은 처리량을 달성합니다.
Pipeline Examples
멀티모달 모델이 체이닝되는 방식
각 서비스는 여러 모달리티의 모델을 파이프라인으로 조합하여 동작합니다
Hyscent AI — 향수 추천 파이프라인
토닥북 — AI 동화 생성 파이프라인
의정지원 AI — 문서 분석 파이프라인
OCR & Document AI 딥다이브
단순 텍스트 추출을 넘어, 문서의 구조와 의미를 이해합니다
1단계: 레이아웃 분석
문서 이미지에서 텍스트 블록, 표, 이미지 영역을 자동 분리합니다. 복잡한 다단 레이아웃도 정확하게 파싱합니다.
2단계: 텍스트 인식
분리된 각 영역에서 한국어·영어·숫자를 정밀 인식합니다. 회전, 기울어짐, 손글씨에도 강건하게 동작합니다.
3단계: 의미 이해
Vision-Language 모델이 추출된 텍스트의 문맥과 관계를 이해합니다. 표의 셀 간 관계, 양식의 키-값 매핑을 자동 수행합니다.
Applied Services
멀티모달 AI가 실제로 동작하는 서비스
여러 모달리티의 모델이 하나의 파이프라인으로 결합되어 실제 서비스를 구동합니다
Hyscent AI — AI 향수 추천
전신 사진에서 스타일을 분석하고, 음성 대화로 취향을 파악한 뒤, sLLM이 90,000가지 레시피에서 최적의 향수를 추천합니다.
토닥북 — AI 동화 생성
가족 사진에서 얼굴을 추출하고, AI가 맞춤 동화 스토리를 작성한 뒤, 일관된 삽화를 자동 생성하여 실물 동화책으로 제작합니다.
의정지원 AI — 의회 문서 분석
수천 페이지의 법안·의안 PDF를 OCR로 구조화하고, GraphRAG 기반 검색으로 관련 선례를 찾아 요약·비교·답변을 생성합니다.
산업 안전 AI — 부식 분석
현장 촬영 이미지에서 부식 영역을 자동 검출하고, 등급을 판정하여 유지보수 우선순위를 AI가 제안합니다.
AI 키오스크 — 현장 체험
매장·행사장에 설치된 키오스크에서 실시간으로 사진 촬영, 음성 대화, AI 캐릭터 생성을 한 번에 경험합니다.
문서 디지털화 — OCR 솔루션
대량의 종이 문서, 양식, 테이블을 고정밀 OCR로 디지털화하고, Vision-Language 모델로 문맥까지 이해하여 구조화합니다.
Core.Agent — 멀티모달 AI 프레임워크
모든 서비스는 Core.Agent 프레임워크 위에서 동작합니다. Model Router가 입력 유형을 자동 판별하고, GPU Worker Pool이 최적의 모델에 라우팅하며, Orchestrator가 파이프라인 전체를 조율합니다.
멀티모달 AI로 새로운 가능성을 열어보세요
사진, 음성, 문서, 텍스트 — 어떤 입력이든 AI가 이해하고 처리합니다.
코어닷투데이의 멀티모달 기술로 비즈니스를 혁신하세요.