Core Technology

AI Inference
Engine

멀티모달 AI 모델을 현장에서 실시간으로 서빙하는 고성능 추론 엔진.
모든 코어닷투데이 서비스의 두뇌를 담당합니다.

기술 상담 신청 아키텍처 살펴보기

<100ms

추론 응답 시간

99.9%

서비스 가용성

Auto

GPU 스케일링

Overview

AI 모델을 실시간 서비스로 만드는 핵심

학습된 AI 모델이 실제 사용자에게 가치를 전달하려면, 빠르고 안정적인 추론 인프라가 필수입니다.

Input

사용자 입력

사진, 음성, 텍스트 등 다양한 형태의 데이터

Process

AI 모델 추론

GPU 위에서 멀티모달 모델이 실시간 분석

Generate

결과 생성

텍스트, 이미지, 향수 레시피, 동화 등 결과물 생성

Deliver

실시간 전달

100ms 이내 저지연 응답으로 사용자에게 전달

REQUESTS / SEC

P99 LATENCY

GPU UTILIZATION

모든 서비스의 두뇌가 되는 추론 엔진

Hyscent AI

향수 추천 & 조향

Vision + LLM + TTS

토닥북

AI 동화책 생성

Face Detection + Image Gen + LLM

AI 키오스크

몰입형 대화 경험

STT + LLM + TTS + Vision

의정지원 AI

공공 AI 비서

RAG + sLLM + Knowledge Graph

Architecture

Core.Agent 추론 아키텍처

요청 수신부터 응답 전달까지, 각 레이어가 유기적으로 연결된 프로덕션급 추론 파이프라인

API Gateway & Load Balancer

요청 라우팅, 인증, Rate Limiting, 트래픽 분산

Core.Agent Inference Engine

Model Router

입력 타입 분석

최적 모델 선택

배치 큐 관리

GPU Workers

Vision Model (ViT, CLIP)

Language Model (sLLM)

Generative Model (SDXL)

Speech (Whisper, TTS)

Orchestrator

멀티모달 파이프라인 조합

결과 후처리 & 필터링

컨텍스트 메모리 관리

응답 스트리밍

Infrastructure Layer

GPU 클러스터, 오토스케일링, 모니터링

AWS GPU InstancesAuto-scalingContainer OrchestrationModel RegistryVector StoreObservabilityEdge Cache

모델 라우팅

입력 데이터 타입에 따라 Vision, Language, Audio 등 최적의 모델 조합을 자동 선택합니다.

동적 배칭

동시 요청을 지능적으로 배치(batch)하여 GPU 활용률을 극대화하고, 단위 비용당 처리량을 높입니다.

파이프라인 오케스트레이션

여러 모델의 출력을 순차 또는 병렬로 조합하여, 하나의 풍부한 응답을 생성합니다.

Capabilities

프로덕션 레벨의 추론 역량

단순한 모델 서빙이 아닌, 실서비스에 필요한 모든 것을 갖춘 엔진

<100ms

P95 Latency

저지연 실시간 추론

GPU 메모리 최적화와 모델 양자화(Quantization) 기술로 100ms 이내의 추론 응답을 달성합니다. 키오스크, 팝업 등 현장 서비스에서 사용자가 대기를 느끼지 않는 속도를 제공합니다.

0→N

Scale to Zero

GPU 오토스케일링

트래픽 패턴을 실시간 분석하여 GPU 인스턴스를 자동으로 확장·축소합니다. 이벤트 피크 시에는 즉시 확장하고, 유휴 시에는 Zero로 축소하여 비용을 절감합니다.

모달리티 지원

멀티모달 파이프라인

Vision, Language, Audio, Generation 모델을 하나의 파이프라인으로 체이닝합니다. 사진 분석 → 대화 이해 → 추천 생성 → 음성 합성을 하나의 요청에서 처리합니다.

처리량 향상

동적 배칭 & 캐싱

동일 시간대의 요청을 지능적으로 묶어 GPU 효율을 극대화합니다. 반복 패턴의 추론 결과는 캐싱하여 불필요한 연산을 제거합니다.

Hybrid

Cloud + Edge

에지 & 온프레미스 배포

클라우드뿐 아니라, 현장 서버나 에지 디바이스에서도 동일한 추론 성능을 제공합니다. 공공기관, 백화점 등 네트워크 제약 환경에서도 안정적으로 운영됩니다.

99.9%

SLA 보장

안전 & 모니터링

모든 추론 요청에 대해 입출력 필터링, 할루시네이션 감지, 개인정보 마스킹을 적용합니다. 실시간 대시보드로 지연시간, 에러율, GPU 사용률을 모니터링합니다.

Tech Stack

검증된 기술 스택

오픈소스와 자체 기술을 결합한 프로덕션급 추론 인프라

AI Models

Vision

CLIP, ViT, YOLO, Face Detection

Language

sLLM, RAG, Embedding, NER

Generation

Stable Diffusion, ControlNet

Audio

Whisper, TTS, Voice Cloning

Serving & Runtime

Model Serving

vLLM, TensorRT, Triton

Orchestration

Core.Agent Pipeline

Optimization

Quantization, KV-Cache, Batching

Streaming

SSE, WebSocket, gRPC

Infrastructure

Compute

AWS GPU (A10G, A100), Edge GPU

Container

Docker, Kubernetes, ECS

Storage

S3, Vector DB, Redis Cache

Monitoring

Prometheus, Grafana, CloudWatch

Developer Experience

API

REST, GraphQL, SDK

CI/CD

GitHub Actions, Model Registry

Testing

A/B Test, Shadow Deploy, Canary

Docs

OpenAPI, Playground, Dashboard

일반 추론 서비스 vs Core.Today Inference

항목

일반 추론 서비스

Core.Today

모델 서빙

단일 모델 API 호출

멀티모달 파이프라인 오케스트레이션

스케일링

수동 인스턴스 관리

트래픽 기반 자동 Scale-to-Zero

배포 환경

클라우드 전용

Cloud + Edge + On-Premise 하이브리드

최적화

기본 추론

양자화 + 동적 배칭 + KV-Cache

안전성

기본 Rate Limiting

I/O 필터링 + 할루시네이션 감지 + PII 마스킹

CORE.TODAY INFERENCE

AI를 서비스로 만드는
가장 빠른 길

모델 학습부터 프로덕션 배포까지, 코어닷투데이의 추론 엔진이 AI 서비스의 핵심 인프라를 책임집니다.

기술 상담 신청 적용 사례 보기

Inference Engine이 구동하는 서비스

AI 아르스 키오스크 Hyscent AI 토닥북 의정지원 AI Sharp-PINN

AI Inference Engine