Elasticsearch 벤치마크 리포트

51개 EC2 인스턴스 타입 - Rally 처리량 + 콜드 스타트 성능 (xlarge, 4 vCPU)

EKS 클러스터 | ap-northeast-2 | Elasticsearch 8.11.0 | 인스턴스당 5회 | 2026-01-22

목차

1. 테스트 방법론

테스트 환경

벤치마크 도구esrally 2.9.0 + Elasticsearch 8.11.0
OSUbuntu 22.04 (Docker image)
플랫폼Amazon EKS (Kubernetes 1.34)
노드 프로비저닝Karpenter 1.5.0
노드 격리podAntiAffinity로 벤치마크당 단일 노드 보장
JVM Heap가용 메모리의 60% 동적 할당
인스턴스 크기xlarge (4 vCPU) - 51개 인스턴스 타입
반복 횟수인스턴스당 5회 실행 후 평균
리전ap-northeast-2 (서울)

Rally 벤치마크

Elasticsearch 공식 벤치마크 도구로 인덱싱/검색 성능 측정

  • 인덱싱 처리량: docs/sec (문서 인덱싱 속도)
  • Latency p50/p99: 검색 응답 시간
  • Bulk Indexing: 대량 인덱싱 처리량
  • Search match_all: 전체 검색 성능
  • 측정 단위: docs/sec, ms (높은 처리량, 낮은 지연)

콜드 스타트 벤치마크

Elasticsearch 노드 시작 시간 측정

  • 측정 방식: 컨테이너 시작 → "started" 로그까지
  • 중요성: 노드 재시작, 스케일 아웃 시나리오
  • 영향 요소: CPU 성능, 메모리 크기, 디스크 I/O
  • 측정 단위: 초 (낮을수록 좋음)
JVM Heap 60%: C(8GB)→4.8GB, M(16GB)→9.6GB, R(32GB)→19.2GB로 패밀리별 메모리 차이 반영

핵심 인사이트

  • Rally 처리량: Graviton4(m8g)가 76,141 docs/s로 1위, Intel 8세대 대비 12% 우위
  • Flex 모델: c7i-flex가 c7i 대비 25% 빠름 - burst 성능 활용
  • 콜드 스타트: Graviton4가 Intel 8세대 대비 15% 빠른 시작
  • 메모리 패밀리: R 패밀리가 대용량 힙으로 인덱싱 성능 우수

최고 Rally 처리량

76,141 docs/s
m8g.xlarge (Graviton4)
  • #2: r8g.xlarge - 74,611 docs/s
  • #3: c8g.xlarge - 74,525 docs/s
  • #4: r8i-flex.xlarge - 67,892 docs/s
  • #5: r8i.xlarge - 66,008 docs/s

최고 Intel

67,892 docs/s
r8i-flex.xlarge (8세대)
  • #2: r8i.xlarge - 66,008 docs/s
  • #3: c7i-flex.xlarge - 65,658 docs/s
  • #4: m8i.xlarge - 65,643 docs/s
  • #5: c8i-flex.xlarge - 65,004 docs/s

Graviton 평균

57,844 docs/s
16개 인스턴스 (2-4세대)

Intel 평균

47,520 docs/s
31개 인스턴스 (5-8세대)

AMD 평균

31,977 docs/s
4개 인스턴스 (5a 시리즈)

Rally 핵심 인사이트

  • Graviton4 압도적 1위: Top 3 모두 Graviton4 (8g), m8g.xlarge가 최고 Intel 대비 12% 빠름
  • Flex 모델 우수: c7i-flex가 c7i 대비 25% 빠름 (65,658 vs 52,310), r8i-flex도 r8i 대비 3% 우위
  • AMD 5a 시리즈 저조: Intel 평균 대비 33% 느림, JVM 최적화 문제 추정
  • 메모리 패밀리 (R) 강세: r8g, r8i-flex, r8i 상위권 - 대용량 메모리가 ES 인덱싱에 유리

Rally 처리량 Top 20

geonames 데이터셋 (1,140만 문서) 인덱싱 처리량 - 높을수록 좋음

아키텍처별 세대별 처리량 / Cold Start

Rally 인덱싱 처리량과 ES 시작 시간 비교

아키텍처별 세대별 Latency

Rally 인덱싱 서비스 시간 - 낮을수록 좋음

아키텍처별 세대별 리소스 사용량

Rally 실행 중 GC, 인덱싱, 머지 시간 - 낮을수록 좋음

가장 빠른 콜드 스타트

10.69s
m8g.xlarge (Graviton4)
  • #2: r8g.xlarge - 11.13s
  • #3: c8g.xlarge - 11.13s
  • #4: m7gd.xlarge - 12.27s
  • #5: r8i-flex.xlarge - 12.33s

가장 빠른 Intel

12.33s
r8i-flex.xlarge (8세대)

최고 Bulk 인덱싱

230ms
r8g / c8g.xlarge

가장 느린 콜드 스타트

26.69s
r5a.xlarge (AMD 5세대)

콜드 스타트 핵심 인사이트

  • Graviton4 최고속 부팅: m8g.xlarge (10.69s)가 Intel 평균 (16.68s) 대비 36% 빠름
  • 8세대 우세: Top 5 콜드스타트 중 4개가 8세대 인스턴스
  • AMD 5a 시리즈 가장 느림: r5a.xlarge (26.69s) 전체 최하위 - JVM/GC 최적화 부족
  • Bulk 인덱싱 상관관계: 콜드 스타트 빠른 인스턴스가 Bulk 인덱싱도 우수

콜드 스타트 시간 Top 20 (낮을수록 좋음)

Elasticsearch 프로세스 시작부터 클러스터 준비 (green 상태)까지

종합 최고 성능

m8g.xlarge
Rally 1위 (76K) + Coldstart 1위 (10.7s)

최고 가성비

c7i-flex.xlarge
Intel 7세대 중 최고 효율

Graviton4 우위

+60%
Intel 5세대 대비 Rally 성능

AMD 성능 격차

-33%
Intel 평균 대비 처리량

종합 분석 인사이트

  • 강한 상관관계: 콜드 스타트가 빠른 인스턴스가 Rally 처리량도 높음
  • Graviton4 종합 1위: m8g.xlarge가 Rally와 Coldstart 모두 1위 차지
  • 메모리 효과: R 패밀리(32GB)가 시작 시간과 인덱싱 모두에서 유리
  • Flex 모델 추천: Intel flex 변형이 일반 모델보다 가격 대비 성능 우수
  • 세대별 진화: 8세대가 5세대 대비 평균 70% 이상 성능 향상

가격 대비 성능 (Cost Efficiency)

시간당 비용 대비 성능 분석 - Rally 처리량 및 Cold Start 효율

가성비 인사이트

  • 최고 가성비: c7i-flex.xlarge - Intel 7세대 중 최고 효율
  • Graviton 우위: 상위 가성비 중 다수가 Graviton
  • Flex 모델: Intel flex 변형이 일반 모델보다 가성비 우수
  • 8세대 권장: 성능 대비 가격이 합리적

Rally 처리량 vs 콜드 스타트 시간

좌상단이 이상적 (빠른 시작, 높은 처리량)

세대별 Rally vs Coldstart 비교

세대별 두 메트릭 정규화 비교

테스트 방법론

5. 전체 결과 테이블

순위 인스턴스 아키텍처 세대 패밀리 Rally (docs/s) Latency p50 Latency p99 인덱싱 (min) 머지 (min) 콜드스타트 (s) Sequential (ms) Bulk (ms) Search match_all Search term

권장 사항