Elasticsearch 벤치마크 리포트

51개 EC2 인스턴스 타입 - Rally 처리량 + 콜드 스타트 성능 (xlarge, 4 vCPU)

EKS 클러스터 | ap-northeast-2 | Elasticsearch 8.11.0 | 인스턴스당 5회 | 2026-01-22

1. 테스트 방법론

테스트 환경

벤치마크 도구	esrally 2.9.0 + Elasticsearch 8.11.0
OS	Ubuntu 22.04 (Docker image)
플랫폼	Amazon EKS (Kubernetes 1.34)
노드 프로비저닝	Karpenter 1.5.0
노드 격리	podAntiAffinity로 벤치마크당 단일 노드 보장
JVM Heap	가용 메모리의 60% 동적 할당
인스턴스 크기	xlarge (4 vCPU) - 51개 인스턴스 타입
반복 횟수	인스턴스당 5회 실행 후 평균
리전	ap-northeast-2 (서울)

Rally 벤치마크

Elasticsearch 공식 벤치마크 도구로 인덱싱/검색 성능 측정

인덱싱 처리량: docs/sec (문서 인덱싱 속도)
Latency p50/p99: 검색 응답 시간
Bulk Indexing: 대량 인덱싱 처리량
Search match_all: 전체 검색 성능
측정 단위: docs/sec, ms (높은 처리량, 낮은 지연)

콜드 스타트 벤치마크

Elasticsearch 노드 시작 시간 측정

측정 방식: 컨테이너 시작 → "started" 로그까지
중요성: 노드 재시작, 스케일 아웃 시나리오
영향 요소: CPU 성능, 메모리 크기, 디스크 I/O
측정 단위: 초 (낮을수록 좋음)

JVM Heap 60%: C(8GB)→4.8GB, M(16GB)→9.6GB, R(32GB)→19.2GB로 패밀리별 메모리 차이 반영

핵심 인사이트

Rally 처리량: Graviton4(m8g)가 76,141 docs/s로 1위, Intel 8세대 대비 12% 우위
Flex 모델: c7i-flex가 c7i 대비 25% 빠름 - burst 성능 활용
콜드 스타트: Graviton4가 Intel 8세대 대비 15% 빠른 시작
메모리 패밀리: R 패밀리가 대용량 힙으로 인덱싱 성능 우수

최고 Rally 처리량

76,141 docs/s

m8g.xlarge (Graviton4)

#2: r8g.xlarge - 74,611 docs/s
#3: c8g.xlarge - 74,525 docs/s
#4: r8i-flex.xlarge - 67,892 docs/s
#5: r8i.xlarge - 66,008 docs/s

최고 Intel

67,892 docs/s

r8i-flex.xlarge (8세대)

#2: r8i.xlarge - 66,008 docs/s
#3: c7i-flex.xlarge - 65,658 docs/s
#4: m8i.xlarge - 65,643 docs/s
#5: c8i-flex.xlarge - 65,004 docs/s

Graviton 평균

57,844 docs/s

16개 인스턴스 (2-4세대)

Intel 평균

47,520 docs/s

31개 인스턴스 (5-8세대)

AMD 평균

31,977 docs/s

4개 인스턴스 (5a 시리즈)

Rally 핵심 인사이트

Graviton4 압도적 1위: Top 3 모두 Graviton4 (8g), m8g.xlarge가 최고 Intel 대비 12% 빠름
Flex 모델 우수: c7i-flex가 c7i 대비 25% 빠름 (65,658 vs 52,310), r8i-flex도 r8i 대비 3% 우위
AMD 5a 시리즈 저조: Intel 평균 대비 33% 느림, JVM 최적화 문제 추정
메모리 패밀리 (R) 강세: r8g, r8i-flex, r8i 상위권 - 대용량 메모리가 ES 인덱싱에 유리

Rally 처리량 Top 20

geonames 데이터셋 (1,140만 문서) 인덱싱 처리량 - 높을수록 좋음

아키텍처별 세대별 처리량 / Cold Start

Rally 인덱싱 처리량과 ES 시작 시간 비교

아키텍처별 세대별 Latency

Rally 인덱싱 서비스 시간 - 낮을수록 좋음

아키텍처별 세대별 리소스 사용량

Rally 실행 중 GC, 인덱싱, 머지 시간 - 낮을수록 좋음

가장 빠른 콜드 스타트

10.69s

m8g.xlarge (Graviton4)

#2: r8g.xlarge - 11.13s
#3: c8g.xlarge - 11.13s
#4: m7gd.xlarge - 12.27s
#5: r8i-flex.xlarge - 12.33s

가장 빠른 Intel

12.33s

r8i-flex.xlarge (8세대)

최고 Bulk 인덱싱

230ms

r8g / c8g.xlarge

가장 느린 콜드 스타트

26.69s

r5a.xlarge (AMD 5세대)

콜드 스타트 핵심 인사이트

Graviton4 최고속 부팅: m8g.xlarge (10.69s)가 Intel 평균 (16.68s) 대비 36% 빠름
8세대 우세: Top 5 콜드스타트 중 4개가 8세대 인스턴스
AMD 5a 시리즈 가장 느림: r5a.xlarge (26.69s) 전체 최하위 - JVM/GC 최적화 부족
Bulk 인덱싱 상관관계: 콜드 스타트 빠른 인스턴스가 Bulk 인덱싱도 우수

콜드 스타트 시간 Top 20 (낮을수록 좋음)

Elasticsearch 프로세스 시작부터 클러스터 준비 (green 상태)까지

종합 최고 성능m8g.xlarge
Rally 1위 (76K) + Coldstart 1위 (10.7s)

최고 가성비

c7i-flex.xlarge

Intel 7세대 중 최고 효율

Graviton4 우위

+60%

Intel 5세대 대비 Rally 성능

AMD 성능 격차

-33%

Intel 평균 대비 처리량

종합 분석 인사이트

강한 상관관계: 콜드 스타트가 빠른 인스턴스가 Rally 처리량도 높음
Graviton4 종합 1위: m8g.xlarge가 Rally와 Coldstart 모두 1위 차지
메모리 효과: R 패밀리(32GB)가 시작 시간과 인덱싱 모두에서 유리
Flex 모델 추천: Intel flex 변형이 일반 모델보다 가격 대비 성능 우수
세대별 진화: 8세대가 5세대 대비 평균 70% 이상 성능 향상

가격 대비 성능 (Cost Efficiency)

시간당 비용 대비 성능 분석 - Rally 처리량 및 Cold Start 효율

가성비 인사이트

최고 가성비: c7i-flex.xlarge - Intel 7세대 중 최고 효율
Graviton 우위: 상위 가성비 중 다수가 Graviton
Flex 모델: Intel flex 변형이 일반 모델보다 가성비 우수
8세대 권장: 성능 대비 가격이 합리적

Rally 처리량 vs 콜드 스타트 시간

좌상단이 이상적 (빠른 시작, 높은 처리량)

세대별 Rally vs Coldstart 비교

세대별 두 메트릭 정규화 비교

            테스트 방법론
            Rally 벤치마크: esrally geonames 데이터셋 (1,140만 문서), 단일 노드, index-append 작업
콜드 스타트: ES 프로세스 시작부터 HTTP 9200 응답 + 클러스터 green 상태까지
Elasticsearch: 8.11.0, 단일 노드 모드, 보안 비활성화
JVM: 번들 OpenJDK 21, Heap = 가용 메모리의 60%
노드 격리: podAntiAffinity로 벤치마크당 전용 노드 보장
반복 측정: 인스턴스당 5회 실행, IQR 기반 이상치 제거 후 평균

        

5. 전체 결과 테이블

순위	인스턴스	아키텍처	세대	패밀리	Rally (docs/s)	Latency p50	Latency p99	인덱싱 (min)	머지 (min)	콜드스타트 (s)	Sequential (ms)	Bulk (ms)	Search match_all	Search term

            권장 사항
            최고 성능: Graviton4 (m8g, r8g, c8g) - 처리량 1위, 콜드 스타트 최고
최고 Intel: r8i-flex.xlarge - Flex 모델이 일반 모델 대비 18-25% 우수
최고 가성비: c7i-flex.xlarge - 8세대 대비 저렴하면서 높은 처리량
비추천: AMD 5a 시리즈 (m5a, r5a, r5ad, m5ad) - Intel 대비 33% 느림
메모리 패밀리 (R): ES 워크로드에 추천 - 추가 메모리가 인덱싱 성능 향상

        

목차