Performance Benchmark

정확도 97.1%
세계 최고 수준의
음성 인식 엔진

TAMION AI Research Lab이 ETRI 프레임워크와 NIST 표준에 따라 검증한 한국어 콜센터 실환경 음성 인식 성능 벤치마크 결과입니다.

97.1%
문자 인식 정확도
CER 2.9%
180ms
응답 지연시간
P50 Latency
0.15
실시간 처리 속도
RTF (1.0 미만 = 실시간)
200
동시 처리 세션
A100 GPU 1장 기준

Accuracy

경쟁사 대비 압도적 정확도

동일한 콜센터 실환경 데이터셋(TAMION-CC-Bench v2.0)으로 평가한 결과, TAMION STT는 모든 환경에서 최고 성능을 기록했습니다.

문자 인식 정확도 비교

TAMION STT97.1%
글로벌 A사94.7%
글로벌 B사92.6%
글로벌 C사90.5%

환경별 CER 비교

환경TAMIONA사B사C사
깨끗한 음성1.8%2.9%4.1%5.2%
일반 소음2.8%5.2%7.1%8.8%
높은 소음4.1%7.8%10.2%13.5%
동시 발화5.5%9.2%12.8%16.1%
전화 음질 열화3.9%6.5%8.9%11.2%
가중 평균2.9%5.3%7.4%9.5%

Speed

가장 빠른 응답 속도

RTF 0.15로 실시간보다 6.7배 빠르게 처리하며, P50 기준 180ms의 초저지연 응답을 실현합니다.

RTF

1.0 미만 = 실시간보다 빠름

TAMION0.15
글로벌 A사0.25
글로벌 B사0.20

Latency P50

50% 요청 완료 시간

TAMION180ms
글로벌 A사350ms
글로벌 B사280ms

Latency P99

99% 요청 완료 시간

TAMION450ms
글로벌 A사680ms
글로벌 B사590ms

Industry

모든 업종에서 96% 이상

금융, 통신, 유통, 보험, 공공 5개 업종 콜센터 실데이터로 검증한 도메인별 성능입니다.

금융
97.3%
정확도
고유명사95.8%
숫자/금액98.2%
통신
97.5%
정확도
고유명사96.3%
숫자/금액97.9%
유통
96.9%
정확도
고유명사94.2%
숫자/금액97.5%
보험
96.7%
정확도
고유명사93.8%
숫자/금액98.0%
공공
97.2%
정확도
고유명사95.1%
숫자/금액97.8%

Speaker Diarization

화자 식별 정확도 99.1%

2채널 입력으로 고객과 상담원 음성을 물리적으로 분리하여, DER 2.1%의 업계 최고 화자 분리 성능을 달성했습니다.

지표TAMION (2채널)TAMION (1채널)글로벌 A사글로벌 B사
DER2.1%8.5%9.2%7.8%
화자 식별 정확도99.1%93.5%92.8%94.2%
Miss Rate0.8%3.2%4.1%3.5%
False Alarm Rate0.5%2.8%3.3%2.1%
Speaker Confusion0.8%2.5%1.8%2.2%

Methodology

3단계 파인튜닝 파이프라인

총 25,000시간의 학습 데이터와 체계적인 다단계 파인튜닝으로 콜센터 환경에 최적화된 음성 인식 모델을 구축했습니다.

1
사전 학습
Pre-training
15,000시간

대규모 한국어 음성 데이터로 기본 음성인식 능력 학습. 뉴스, 강연, 대화, 낭독 등 다양한 장르

2
도메인 파인튜닝
Domain Fine-tuning
8,000시간

콜센터 실환경 음성 데이터로 도메인 적응. 5개 업종 실제 상담 녹음, 8kHz 전화 음질에 특화

3
태스크 파인튜닝
Task-specific Fine-tuning
2,000시간

2채널 화자 분리, 동시 발화, 실시간 스트리밍에 특화. 도메인별 전문 용어 사전 통합 학습

LoRA
학습 시간 70% 단축
Data Augmentation
환경 강건성 향상
Curriculum Learning
학습 안정성 향상
Custom Vocabulary
고유명사 89%→96%
Noise-Aware
CER 3.5%p 개선
Speaker-Conditioned
DER 8.5%→2.1%

Evaluation Standard

신뢰할 수 있는 평가 방법

ETRI 음성인식 평가 프레임워크와 NIST 표준 방법론을 준용하고, 전문 교정사 3인의 독립 교차 검수(Cohen's κ = 0.94)로 검증했습니다.

5,000시간
평가 데이터

국내 5개 업종 콜센터 협력사의 실제 상담 녹음 약 120만 발화

3,000명
다양한 화자

남녀 비율 4:6, 20~60대 균등 분포, 수도권·경상도·전라도 등 전국 방언 포함

5개월
평가 기간

2025년 9월~2026년 1월, 데이터 구축→벤치마크→분석 및 검증 3단계 진행

세계 최고 수준의 음성 인식을 경험하세요

TAMION AI Research Lab · 2026년 3월 · v1.0