Core Technology

멀티모달 AI

사진을 보고, 말을 듣고, 문서를 읽고, 감정을 이해하는 AI.
여러 감각을 하나로 융합하여 사람처럼 세상을 이해합니다.

VisionLanguageAudioOCRGeneration

기술 상담 신청 모델 스택 보기

What is Multimodal AI?

하나의 AI가 여러 감각을 동시에 이해합니다

사람이 눈으로 보고, 귀로 듣고, 글을 읽어 종합적으로 판단하듯, 멀티모달 AI는 여러 종류의 입력을 하나의 맥락으로 융합합니다.

📷

사진

🎤

음성

💬

텍스트

📄

문서

멀티모달 AI 융합 추론

여러 입력을 하나의 컨텍스트로 통합하여 풍부한 이해와 생성 수행

시각 (Vision)

사진, 영상, 전신 이미지에서 사물·인물·스타일·감정을 인식합니다. 얼굴 검출, 포즈 추정, 스타일 분석이 가능합니다.

얼굴 인식 → 동화 캐릭터화

패션 분석 → 향수 추천

부식 이미지 → 등급 판정

언어 (Language)

자연어를 깊이 이해하고, 맥락에 맞는 텍스트를 생성합니다. 대화형 AI, RAG 기반 지식 검색, 스토리 생성을 수행합니다.

음성 대화 → 취향 파악

법안 분석 → 요약 생성

키워드 → AI 동화 생성

음성 (Audio)

사용자의 음성을 실시간으로 인식(STT)하고, 자연스러운 음성으로 응답(TTS)합니다. 감정 톤과 뉘앙스까지 파악합니다.

실시간 음성 인식

감성 톤 분석

다국어 음성 합성

문서 (OCR & Document)

인쇄물, 손글씨, 표, 양식 등 다양한 문서에서 텍스트와 구조를 정밀하게 추출합니다. 레이아웃 분석과 테이블 인식을 포함합니다.

문서 OCR → 텍스트 추출

테이블 구조 인식

양식 자동 파싱

Model Stack

프로덕션에서 구동하는 모델들

각 모달리티별 최적의 모델을 선정하고, vLLM 기반으로 고속 서빙합니다

Vision Models

CLIP / SigLIP

이미지와 텍스트를 동일한 임베딩 공간에서 매칭. 이미지 검색, 분류, 제로샷 인식에 활용.

Zero-shotEmbeddingSimilarity

YOLOv8 / RT-DETR

실시간 객체 검출. 사람, 상품, 부식 영역 등을 밀리초 단위로 탐지.

Object DetectionReal-timeEdge

Face Detection & Analysis

얼굴 검출, 랜드마크 추출, 표정 인식. 토닥북 캐릭터 생성 및 Hyscent 분석에 활용.

FaceLandmarkEmotion

Language Models (vLLM)

vLLM 기반 sLLM 서빙

PagedAttention으로 GPU 메모리를 최적 활용하고, Continuous Batching으로 동시 요청을 고속 처리하는 LLM 추론 엔진.

PagedAttentionContinuous BatchingThroughput

RAG + Knowledge Graph

Vector DB 검색과 지식 그래프를 결합한 Retrieval-Augmented Generation. 할루시네이션을 줄이고 정확한 답변을 생성.

GraphRAGVector SearchGrounding

도메인 특화 sLLM

법률, 향수, 교육 등 도메인 데이터로 파인튜닝한 경량 LLM. 온프레미스 배포가 가능한 크기로 최적화.

Fine-tuningDomainOn-Premise

OCR & Document AI

PaddleOCR / EasyOCR

한국어·영어·일어 등 다국어 텍스트를 정밀하게 인식. 회전, 왜곡, 저해상도 환경에서도 높은 정확도를 보장.

Multi-languageRobustHigh Accuracy

Layout Analysis

문서의 구조(제목, 본문, 표, 이미지 영역)를 자동으로 파싱. PDF, 스캔 문서, 양식 등을 구조화된 데이터로 변환.

Table DetectionStructurePDF Parsing

Vision-Language OCR

GPT-4V 스타일의 Vision-Language 모델로 문서의 의미까지 이해. 단순 텍스트 추출을 넘어 문맥 기반 해석을 수행.

VLMContextualSemantic

Audio & Speech

Whisper (STT)

OpenAI Whisper 기반 실시간 음성 인식. 한국어 특화 튜닝으로 높은 인식률을 달성.

KoreanReal-timeNoise-robust

TTS (Text-to-Speech)

자연스러운 한국어 음성 합성. 감정, 속도, 톤을 제어할 수 있어 대화형 AI에 적합.

Natural VoiceEmotionControllable

Audio Embedding

음성에서 화자의 특성, 감정 상태, 대화 의도를 벡터로 추출하여 멀티모달 융합에 활용.

SpeakerSentimentEmbedding

Generative Models

Stable Diffusion XL

텍스트 프롬프트로 고품질 이미지를 생성. 동화 삽화, 캐릭터, 아트워크 생성에 활용.

Text-to-ImageArt StyleHigh Quality

ControlNet / IP-Adapter

참조 이미지의 포즈, 구도, 스타일을 유지하면서 새로운 이미지를 생성. 얼굴 일관성 유지에 핵심.

Pose ControlStyle TransferConsistency

Image Inpainting & Editing

기존 이미지의 특정 영역을 자연스럽게 수정하거나 확장. 배경 변환, 스타일 변환에 활용.

InpaintOutpaintEdit

vLLM Powered

vLLM으로 LLM 추론 속도를 극대화

PagedAttention 기술로 GPU 메모리를 가상 페이지 단위로 관리하여 메모리 낭비를 최소화합니다. Continuous Batching으로 대기 없이 요청을 처리하여, 동일 GPU에서 기존 대비 2~4배 높은 처리량을 달성합니다.

PagedAttention메모리 효율 95%+

Continuous Batching대기 시간 최소화

Throughput기존 대비 2~4x

QuantizationAWQ / GPTQ 지원

Pipeline Examples

멀티모달 모델이 체이닝되는 방식

각 서비스는 여러 모달리티의 모델을 파이프라인으로 조합하여 동작합니다

Hyscent AI — 향수 추천 파이프라인

Input

Camera + Microphone

↓

전신 사진 + 음성 녹음

Vision

CLIP + Face Analysis

↓

스타일 벡터 + 인상 분석

Audio

Whisper STT

↓

대화 텍스트 + 감정 톤

Language

sLLM + RAG

↓

취향 프로파일 + 향수 매칭

Generate

Image Gen + TTS

↓

동물 캐릭터 + 추천 음성

토닥북 — AI 동화 생성 파이프라인

Input

Photo Upload

↓

가족 사진

Vision

Face Detection

↓

얼굴 랜드마크 추출

Language

sLLM Story Gen

↓

맞춤 동화 스토리

Generate

SDXL + IP-Adapter

↓

일관된 삽화 8~12장

Compose

Layout Engine

↓

PDF + 실물 동화책

의정지원 AI — 문서 분석 파이프라인

Input

Document Upload

↓

법안·의안 PDF

OCR

Layout + OCR

↓

구조화된 텍스트 + 표

Embed

Text Embedding

↓

벡터 DB 인덱싱

Retrieve

GraphRAG

↓

OCR & Document AI 딥다이브

단순 텍스트 추출을 넘어, 문서의 구조와 의미를 이해합니다

1단계: 레이아웃 분석

문서 이미지에서 텍스트 블록, 표, 이미지 영역을 자동 분리합니다. 복잡한 다단 레이아웃도 정확하게 파싱합니다.

LayoutLM, YOLO-based Detection

2단계: 텍스트 인식

분리된 각 영역에서 한국어·영어·숫자를 정밀 인식합니다. 회전, 기울어짐, 손글씨에도 강건하게 동작합니다.

PaddleOCR, TrOCR, Donut

3단계: 의미 이해

Vision-Language 모델이 추출된 텍스트의 문맥과 관계를 이해합니다. 표의 셀 간 관계, 양식의 키-값 매핑을 자동 수행합니다.

VLM, Table Transformer

Applied Services

멀티모달 AI가 실제로 동작하는 서비스

여러 모달리티의 모델이 하나의 파이프라인으로 결합되어 실제 서비스를 구동합니다

Hyscent AI — AI 향수 추천

전신 사진에서 스타일을 분석하고, 음성 대화로 취향을 파악한 뒤, sLLM이 90,000가지 레시피에서 최적의 향수를 추천합니다.

VisionAudioLanguageGeneration

토닥북 — AI 동화 생성

가족 사진에서 얼굴을 추출하고, AI가 맞춤 동화 스토리를 작성한 뒤, 일관된 삽화를 자동 생성하여 실물 동화책으로 제작합니다.

VisionLanguageGeneration

의정지원 AI — 의회 문서 분석

수천 페이지의 법안·의안 PDF를 OCR로 구조화하고, GraphRAG 기반 검색으로 관련 선례를 찾아 요약·비교·답변을 생성합니다.

OCRLanguage

산업 안전 AI — 부식 분석

현장 촬영 이미지에서 부식 영역을 자동 검출하고, 등급을 판정하여 유지보수 우선순위를 AI가 제안합니다.

VisionLanguage

AI 키오스크 — 현장 체험

매장·행사장에 설치된 키오스크에서 실시간으로 사진 촬영, 음성 대화, AI 캐릭터 생성을 한 번에 경험합니다.

VisionAudioGeneration

문서 디지털화 — OCR 솔루션

대량의 종이 문서, 양식, 테이블을 고정밀 OCR로 디지털화하고, Vision-Language 모델로 문맥까지 이해하여 구조화합니다.

OCRVisionLanguage

Core.Agent — 멀티모달 AI 프레임워크

모든 서비스는 Core.Agent 프레임워크 위에서 동작합니다. Model Router가 입력 유형을 자동 판별하고, GPU Worker Pool이 최적의 모델에 라우팅하며, Orchestrator가 파이프라인 전체를 조율합니다.

AI Inference 아키텍처 보기

Ready to Deploy

멀티모달 AI로 새로운 가능성을 열어보세요

사진, 음성, 문서, 텍스트 — 어떤 입력이든 AI가 이해하고 처리합니다.
코어닷투데이의 멀티모달 기술로 비즈니스를 혁신하세요.

기술 상담 신청 AI Inference 보기