모델 성능 — Embedding & Reranker Benchmarks

Lineup

모델 라인업 및 스펙

모든 KT Embedding·Reranker 모델은 한국어와 영어를 모두 지원합니다. 아래는 비교 대상 공개·상용 모델과 함께 정리한 스펙입니다.

Embedding Models

구분	모델	Memory (MB)	Params	Dim	Max Tokens	지원 언어

Reranker Models

구분	모델	Memory (MB)	Params	Max Tokens	지원 언어

Performance

MTEB Retrieval 성능 비교

모델 종류와 언어를 선택하면 평균 점수 비교 차트와 평가셋별 상세 표가 함께 갱신됩니다. KT 모델은 붉은색으로 강조됩니다.

모델 종류

언어

nDCG@10

평가셋별 상세 ·

각 열의 최고값은 붉은색으로 표시됩니다. 리랭커 표의 KT-Embedding-3-1.7B 행은 재순위화 이전 임베딩 기준선입니다.

Efficiency

모델 경량화 효과

정확도는 거의 유지하면서 메모리·색인·검색 지연을 크게 줄였습니다. (H100 80GB 기준, 문서 100만 건 색인)

Embedding

Retrieval Accuracy = MTEB Kor/Eng 평균 (nDCG@10)

Baseline · KT-Embedding-3-1.7B

Retrieval Accuracy65.22 → 64.25▼0.79%p

Memory Usage3,282 → 1,137 MB▼64.76%

Inference Time335.28 → 231.10 s▼31.07%

Indexing Memory7.63 → 3.81 GB▼50.00%

Search Latency1.55 → 0.72 s▼53.54%

→ KT-Embedding-3.5-0.6B (경량 모델)

Reranker

Retrieval Accuracy = MTEB Kor/Eng 평균 (Hit@3)

Baseline · KT-Reranker-3.1-0.6B

Retrieval Accuracy78.98 → 78.97▼0.01%p

Memory Usage1,136 → 776 MB▼31.69%

Inference Time229.70 → 133.04 s▼42.08%

→ KT-Reranker-3.5-0.4B (경량 모델)

정확도를 거의 유지하며 크기·속도만 개선

측정 환경 · 지표 정의

Retrieval Accuracy

MTEB-Retrieval Kor/Eng 평균. 임베딩은 nDCG@10, 리랭커는 Hit@3.

Memory Usage

모델이 점유하는 메모리(MB).

Inference Time

3,000건에 대한 모델 inference 시간 (batch size 1 / max length 8,192).

Indexing Memory Usage

문서 100만 건 색인 기준 메모리(GB).

Search Latency

문서 100만 건 색인에 대한 랜덤 질의 20건의 검색 속도(s).

측정 환경 · Hardware / Software

[Hardware]
NVIDIA H100 80GB HBM3, 81559 MiB
Intel(R) Xeon(R) Platinum 8480C
1.8Ti RAM
[Software]
OS: Ubuntu 24.04.1 LTS
Kernel: 5.15.0-1042-azure
Python: 3.12.3
PyTorch: 2.8.0+cu128
CUDA: 12.8

Appendix

평가 데이터셋

한국어는 KURE 리더보드 8개 평가셋, 영어는 MTEB-eng Retrieval 10개 평가셋을 사용했습니다.

한국어에 강한 임베딩·리랭커,
숫자로 증명합니다.