coredot.today
Core Technology

AI Inference Engine

멀티모달 AI 모델을 현장에서 실시간으로 서빙하는 고성능 추론 엔진.모든 코어닷투데이 서비스의 두뇌를 담당합니다.

<100ms
추론 응답 시간
99.9%
서비스 가용성
Auto
GPU 스케일링

Overview

AI 모델을 실시간 서비스로 만드는 핵심

학습된 AI 모델이 실제 사용자에게 가치를 전달하려면, 빠르고 안정적인 추론 인프라가 필수입니다.

Input

사용자 입력

사진, 음성, 텍스트 등 다양한 형태의 데이터

Process

AI 모델 추론

GPU 위에서 멀티모달 모델이 실시간 분석

Generate

결과 생성

텍스트, 이미지, 향수 레시피, 동화 등 결과물 생성

Deliver

실시간 전달

100ms 이내 저지연 응답으로 사용자에게 전달

0
REQUESTS / SEC
0
P99 LATENCY
0
GPU UTILIZATION
INPUTROUTINGCOMPUTEOUTPUTAPISDKgRPCRouterCacheA100H100H100A100LLMAudioImage

Powered by Inference

모든 서비스의 두뇌가 되는 추론 엔진

Hyscent AI

향수 추천 & 조향

Vision + LLM + TTS
토닥북

AI 동화책 생성

Face Detection + Image Gen + LLM
AI 키오스크

몰입형 대화 경험

STT + LLM + TTS + Vision
의정지원 AI

공공 AI 비서

RAG + sLLM + Knowledge Graph

Architecture

Core.Agent 추론 아키텍처

요청 수신부터 응답 전달까지, 각 레이어가 유기적으로 연결된 프로덕션급 추론 파이프라인

1
API Gateway & Load Balancer
요청 라우팅, 인증, Rate Limiting, 트래픽 분산
2
Core.Agent Inference Engine
Model Router
입력 타입 분석
최적 모델 선택
배치 큐 관리
GPU Workers
Vision Model (ViT, CLIP)
Language Model (sLLM)
Generative Model (SDXL)
Speech (Whisper, TTS)
Orchestrator
멀티모달 파이프라인 조합
결과 후처리 & 필터링
컨텍스트 메모리 관리
응답 스트리밍
3
Infrastructure Layer
GPU 클러스터, 오토스케일링, 모니터링
AWS GPU InstancesAuto-scalingContainer OrchestrationModel RegistryVector StoreObservabilityEdge Cache

모델 라우팅

입력 데이터 타입에 따라 Vision, Language, Audio 등 최적의 모델 조합을 자동 선택합니다.

동적 배칭

동시 요청을 지능적으로 배치(batch)하여 GPU 활용률을 극대화하고, 단위 비용당 처리량을 높입니다.

파이프라인 오케스트레이션

여러 모델의 출력을 순차 또는 병렬로 조합하여, 하나의 풍부한 응답을 생성합니다.

Capabilities

프로덕션 레벨의 추론 역량

단순한 모델 서빙이 아닌, 실서비스에 필요한 모든 것을 갖춘 엔진

<100ms
P95 Latency

저지연 실시간 추론

GPU 메모리 최적화와 모델 양자화(Quantization) 기술로 100ms 이내의 추론 응답을 달성합니다. 키오스크, 팝업 등 현장 서비스에서 사용자가 대기를 느끼지 않는 속도를 제공합니다.

0→N
Scale to Zero

GPU 오토스케일링

트래픽 패턴을 실시간 분석하여 GPU 인스턴스를 자동으로 확장·축소합니다. 이벤트 피크 시에는 즉시 확장하고, 유휴 시에는 Zero로 축소하여 비용을 절감합니다.

4+
모달리티 지원

멀티모달 파이프라인

Vision, Language, Audio, Generation 모델을 하나의 파이프라인으로 체이닝합니다. 사진 분석 → 대화 이해 → 추천 생성 → 음성 합성을 하나의 요청에서 처리합니다.

3x
처리량 향상

동적 배칭 & 캐싱

동일 시간대의 요청을 지능적으로 묶어 GPU 효율을 극대화합니다. 반복 패턴의 추론 결과는 캐싱하여 불필요한 연산을 제거합니다.

Hybrid
Cloud + Edge

에지 & 온프레미스 배포

클라우드뿐 아니라, 현장 서버나 에지 디바이스에서도 동일한 추론 성능을 제공합니다. 공공기관, 백화점 등 네트워크 제약 환경에서도 안정적으로 운영됩니다.

99.9%
SLA 보장

안전 & 모니터링

모든 추론 요청에 대해 입출력 필터링, 할루시네이션 감지, 개인정보 마스킹을 적용합니다. 실시간 대시보드로 지연시간, 에러율, GPU 사용률을 모니터링합니다.

Tech Stack

검증된 기술 스택

오픈소스와 자체 기술을 결합한 프로덕션급 추론 인프라

AI Models
Vision
CLIP, ViT, YOLO, Face Detection
Language
sLLM, RAG, Embedding, NER
Generation
Stable Diffusion, ControlNet
Audio
Whisper, TTS, Voice Cloning
Serving & Runtime
Model Serving
vLLM, TensorRT, Triton
Orchestration
Core.Agent Pipeline
Optimization
Quantization, KV-Cache, Batching
Streaming
SSE, WebSocket, gRPC
Infrastructure
Compute
AWS GPU (A10G, A100), Edge GPU
Container
Docker, Kubernetes, ECS
Storage
S3, Vector DB, Redis Cache
Monitoring
Prometheus, Grafana, CloudWatch
Developer Experience
API
REST, GraphQL, SDK
CI/CD
GitHub Actions, Model Registry
Testing
A/B Test, Shadow Deploy, Canary
Docs
OpenAPI, Playground, Dashboard

일반 추론 서비스 vs Core.Today Inference

항목
일반 추론 서비스
Core.Today
모델 서빙
단일 모델 API 호출
멀티모달 파이프라인 오케스트레이션
스케일링
수동 인스턴스 관리
트래픽 기반 자동 Scale-to-Zero
배포 환경
클라우드 전용
Cloud + Edge + On-Premise 하이브리드
최적화
기본 추론
양자화 + 동적 배칭 + KV-Cache
안전성
기본 Rate Limiting
I/O 필터링 + 할루시네이션 감지 + PII 마스킹
CORE.TODAY INFERENCE

AI를 서비스로 만드는 가장 빠른 길

모델 학습부터 프로덕션 배포까지, 코어닷투데이의 추론 엔진이 AI 서비스의 핵심 인프라를 책임집니다.