Performance Benchmark
정확도 97.1%
세계 최고 수준의
음성 인식 엔진
TAMION AI Research Lab이 ETRI 프레임워크와 NIST 표준에 따라 검증한 한국어 콜센터 실환경 음성 인식 성능 벤치마크 결과입니다.
Accuracy
경쟁사 대비 압도적 정확도
동일한 콜센터 실환경 데이터셋(TAMION-CC-Bench v2.0)으로 평가한 결과, TAMION STT는 모든 환경에서 최고 성능을 기록했습니다.
문자 인식 정확도 비교
환경별 CER 비교
| 환경 | TAMION | A사 | B사 | C사 |
|---|---|---|---|---|
| 깨끗한 음성 | 1.8% | 2.9% | 4.1% | 5.2% |
| 일반 소음 | 2.8% | 5.2% | 7.1% | 8.8% |
| 높은 소음 | 4.1% | 7.8% | 10.2% | 13.5% |
| 동시 발화 | 5.5% | 9.2% | 12.8% | 16.1% |
| 전화 음질 열화 | 3.9% | 6.5% | 8.9% | 11.2% |
| 가중 평균 | 2.9% | 5.3% | 7.4% | 9.5% |
Speed
가장 빠른 응답 속도
RTF 0.15로 실시간보다 6.7배 빠르게 처리하며, P50 기준 180ms의 초저지연 응답을 실현합니다.
RTF
1.0 미만 = 실시간보다 빠름
Latency P50
50% 요청 완료 시간
Latency P99
99% 요청 완료 시간
Industry
모든 업종에서 96% 이상
금융, 통신, 유통, 보험, 공공 5개 업종 콜센터 실데이터로 검증한 도메인별 성능입니다.
Speaker Diarization
화자 식별 정확도 99.1%
2채널 입력으로 고객과 상담원 음성을 물리적으로 분리하여, DER 2.1%의 업계 최고 화자 분리 성능을 달성했습니다.
| 지표 | TAMION (2채널) | TAMION (1채널) | 글로벌 A사 | 글로벌 B사 |
|---|---|---|---|---|
| DER | 2.1% | 8.5% | 9.2% | 7.8% |
| 화자 식별 정확도 | 99.1% | 93.5% | 92.8% | 94.2% |
| Miss Rate | 0.8% | 3.2% | 4.1% | 3.5% |
| False Alarm Rate | 0.5% | 2.8% | 3.3% | 2.1% |
| Speaker Confusion | 0.8% | 2.5% | 1.8% | 2.2% |
Methodology
3단계 파인튜닝 파이프라인
총 25,000시간의 학습 데이터와 체계적인 다단계 파인튜닝으로 콜센터 환경에 최적화된 음성 인식 모델을 구축했습니다.
대규모 한국어 음성 데이터로 기본 음성인식 능력 학습. 뉴스, 강연, 대화, 낭독 등 다양한 장르
콜센터 실환경 음성 데이터로 도메인 적응. 5개 업종 실제 상담 녹음, 8kHz 전화 음질에 특화
2채널 화자 분리, 동시 발화, 실시간 스트리밍에 특화. 도메인별 전문 용어 사전 통합 학습
Evaluation Standard
신뢰할 수 있는 평가 방법
ETRI 음성인식 평가 프레임워크와 NIST 표준 방법론을 준용하고, 전문 교정사 3인의 독립 교차 검수(Cohen's κ = 0.94)로 검증했습니다.
국내 5개 업종 콜센터 협력사의 실제 상담 녹음 약 120만 발화
남녀 비율 4:6, 20~60대 균등 분포, 수도권·경상도·전라도 등 전국 방언 포함
2025년 9월~2026년 1월, 데이터 구축→벤치마크→분석 및 검증 3단계 진행
세계 최고 수준의 음성 인식을 경험하세요
TAMION AI Research Lab · 2026년 3월 · v1.0