coredot.today
Core Technology

멀티모달 AI

사진을 보고, 말을 듣고, 문서를 읽고, 감정을 이해하는 AI.여러 감각을 하나로 융합하여 사람처럼 세상을 이해합니다.

VisionLanguageAudioOCRGeneration

What is Multimodal AI?

하나의 AI가 여러 감각을 동시에 이해합니다

사람이 눈으로 보고, 귀로 듣고, 글을 읽어 종합적으로 판단하듯, 멀티모달 AI는 여러 종류의 입력을 하나의 맥락으로 융합합니다.

📷
사진
🎤
음성
💬
텍스트
📄
문서
멀티모달 AI 융합 추론
여러 입력을 하나의 컨텍스트로 통합하여 풍부한 이해와 생성 수행

시각 (Vision)

사진, 영상, 전신 이미지에서 사물·인물·스타일·감정을 인식합니다. 얼굴 검출, 포즈 추정, 스타일 분석이 가능합니다.

얼굴 인식 → 동화 캐릭터화
패션 분석 → 향수 추천
부식 이미지 → 등급 판정

언어 (Language)

자연어를 깊이 이해하고, 맥락에 맞는 텍스트를 생성합니다. 대화형 AI, RAG 기반 지식 검색, 스토리 생성을 수행합니다.

음성 대화 → 취향 파악
법안 분석 → 요약 생성
키워드 → AI 동화 생성

음성 (Audio)

사용자의 음성을 실시간으로 인식(STT)하고, 자연스러운 음성으로 응답(TTS)합니다. 감정 톤과 뉘앙스까지 파악합니다.

실시간 음성 인식
감성 톤 분석
다국어 음성 합성

문서 (OCR & Document)

인쇄물, 손글씨, 표, 양식 등 다양한 문서에서 텍스트와 구조를 정밀하게 추출합니다. 레이아웃 분석과 테이블 인식을 포함합니다.

문서 OCR → 텍스트 추출
테이블 구조 인식
양식 자동 파싱

Model Stack

프로덕션에서 구동하는 모델들

각 모달리티별 최적의 모델을 선정하고, vLLM 기반으로 고속 서빙합니다

Vision Models

CLIP / SigLIP

이미지와 텍스트를 동일한 임베딩 공간에서 매칭. 이미지 검색, 분류, 제로샷 인식에 활용.

Zero-shotEmbeddingSimilarity

YOLOv8 / RT-DETR

실시간 객체 검출. 사람, 상품, 부식 영역 등을 밀리초 단위로 탐지.

Object DetectionReal-timeEdge

Face Detection & Analysis

얼굴 검출, 랜드마크 추출, 표정 인식. 토닥북 캐릭터 생성 및 Hyscent 분석에 활용.

FaceLandmarkEmotion
Language Models (vLLM)

vLLM 기반 sLLM 서빙

PagedAttention으로 GPU 메모리를 최적 활용하고, Continuous Batching으로 동시 요청을 고속 처리하는 LLM 추론 엔진.

PagedAttentionContinuous BatchingThroughput

RAG + Knowledge Graph

Vector DB 검색과 지식 그래프를 결합한 Retrieval-Augmented Generation. 할루시네이션을 줄이고 정확한 답변을 생성.

GraphRAGVector SearchGrounding

도메인 특화 sLLM

법률, 향수, 교육 등 도메인 데이터로 파인튜닝한 경량 LLM. 온프레미스 배포가 가능한 크기로 최적화.

Fine-tuningDomainOn-Premise
OCR & Document AI

PaddleOCR / EasyOCR

한국어·영어·일어 등 다국어 텍스트를 정밀하게 인식. 회전, 왜곡, 저해상도 환경에서도 높은 정확도를 보장.

Multi-languageRobustHigh Accuracy

Layout Analysis

문서의 구조(제목, 본문, 표, 이미지 영역)를 자동으로 파싱. PDF, 스캔 문서, 양식 등을 구조화된 데이터로 변환.

Table DetectionStructurePDF Parsing

Vision-Language OCR

GPT-4V 스타일의 Vision-Language 모델로 문서의 의미까지 이해. 단순 텍스트 추출을 넘어 문맥 기반 해석을 수행.

VLMContextualSemantic
Audio & Speech

Whisper (STT)

OpenAI Whisper 기반 실시간 음성 인식. 한국어 특화 튜닝으로 높은 인식률을 달성.

KoreanReal-timeNoise-robust

TTS (Text-to-Speech)

자연스러운 한국어 음성 합성. 감정, 속도, 톤을 제어할 수 있어 대화형 AI에 적합.

Natural VoiceEmotionControllable

Audio Embedding

음성에서 화자의 특성, 감정 상태, 대화 의도를 벡터로 추출하여 멀티모달 융합에 활용.

SpeakerSentimentEmbedding
Generative Models

Stable Diffusion XL

텍스트 프롬프트로 고품질 이미지를 생성. 동화 삽화, 캐릭터, 아트워크 생성에 활용.

Text-to-ImageArt StyleHigh Quality

ControlNet / IP-Adapter

참조 이미지의 포즈, 구도, 스타일을 유지하면서 새로운 이미지를 생성. 얼굴 일관성 유지에 핵심.

Pose ControlStyle TransferConsistency

Image Inpainting & Editing

기존 이미지의 특정 영역을 자연스럽게 수정하거나 확장. 배경 변환, 스타일 변환에 활용.

InpaintOutpaintEdit
vLLM Powered

vLLM으로 LLM 추론 속도를 극대화

PagedAttention 기술로 GPU 메모리를 가상 페이지 단위로 관리하여 메모리 낭비를 최소화합니다. Continuous Batching으로 대기 없이 요청을 처리하여, 동일 GPU에서 기존 대비 2~4배 높은 처리량을 달성합니다.

PagedAttention메모리 효율 95%+
Continuous Batching대기 시간 최소화
Throughput기존 대비 2~4x
QuantizationAWQ / GPTQ 지원

Pipeline Examples

멀티모달 모델이 체이닝되는 방식

각 서비스는 여러 모달리티의 모델을 파이프라인으로 조합하여 동작합니다

Hyscent AI — 향수 추천 파이프라인

Input
Camera + Microphone
전신 사진 + 음성 녹음
Vision
CLIP + Face Analysis
스타일 벡터 + 인상 분석
Audio
Whisper STT
대화 텍스트 + 감정 톤
Language
sLLM + RAG
취향 프로파일 + 향수 매칭
Generate
Image Gen + TTS
동물 캐릭터 + 추천 음성

토닥북 — AI 동화 생성 파이프라인

Input
Photo Upload
가족 사진
Vision
Face Detection
얼굴 랜드마크 추출
Language
sLLM Story Gen
맞춤 동화 스토리
Generate
SDXL + IP-Adapter
일관된 삽화 8~12장
Compose
Layout Engine
PDF + 실물 동화책

의정지원 AI — 문서 분석 파이프라인

Input
Document Upload
법안·의안 PDF
OCR
Layout + OCR
구조화된 텍스트 + 표
Embed
Text Embedding
벡터 DB 인덱싱
Retrieve
GraphRAG
관련 법안·선례 검색
Generate
sLLM + Knowledge Graph
요약·비교·답변 생성

OCR & Document AI 딥다이브

단순 텍스트 추출을 넘어, 문서의 구조와 의미를 이해합니다

1단계: 레이아웃 분석

문서 이미지에서 텍스트 블록, 표, 이미지 영역을 자동 분리합니다. 복잡한 다단 레이아웃도 정확하게 파싱합니다.

LayoutLM, YOLO-based Detection

2단계: 텍스트 인식

분리된 각 영역에서 한국어·영어·숫자를 정밀 인식합니다. 회전, 기울어짐, 손글씨에도 강건하게 동작합니다.

PaddleOCR, TrOCR, Donut

3단계: 의미 이해

Vision-Language 모델이 추출된 텍스트의 문맥과 관계를 이해합니다. 표의 셀 간 관계, 양식의 키-값 매핑을 자동 수행합니다.

VLM, Table Transformer

Applied Services

멀티모달 AI가 실제로 동작하는 서비스

여러 모달리티의 모델이 하나의 파이프라인으로 결합되어 실제 서비스를 구동합니다

Core.Agent — 멀티모달 AI 프레임워크

모든 서비스는 Core.Agent 프레임워크 위에서 동작합니다. Model Router가 입력 유형을 자동 판별하고, GPU Worker Pool이 최적의 모델에 라우팅하며, Orchestrator가 파이프라인 전체를 조율합니다.

AI Inference 아키텍처 보기
Ready to Deploy

멀티모달 AI로 새로운 가능성을 열어보세요

사진, 음성, 문서, 텍스트 — 어떤 입력이든 AI가 이해하고 처리합니다.코어닷투데이의 멀티모달 기술로 비즈니스를 혁신하세요.