1. 인덱스 설계 가이드라인
- 인덱스를 만드는 법(
CREATE INDEX)을 아는 것보다 더 중요한 것은, 어디에 인덱스를 만들어야 하는지 아는 것입니다. - 잘못된 인덱스는 오히려 시스템 성능을 떨어뜨리는 애물단지가 될 수 있습니다.
- 인덱스는 결코 공짜가 아닙니다. 데이터를 추가(
INSERT), 수정(UPDATE), 삭제(DELETE)할 때마다 인덱스도 함께 변경되어야 하므로 쓰기 성능이 저하되 고, 별도의 저장 공간도 차지합니다. - 따라서 우리는 이 비용을 상쇄하고도 남을 만큼의 '검색 성능 향상'이라는 이득을 얻을 수 있는 곳에만 전략적으로 인덱스를 생성해야 합니다.
기본 개념 참고
인덱스에 대한 기본적인 내용은 Index 문서, 옵티마이저와 커버링 인덱스는 Optimizer 문서, 복합 인덱스는 Composite Index 문서를 참고해주세요.
2. 핵심 원칙: 카디널리티 (Cardinality)
- 인덱스를 어디에 걸지 판단하는 가장 중요한 기준은 바로 **카디널리티(Cardinality)**입니다.
- 카디널리티란, 해당 컬럼에 저장된 값들의 고유성(uniqueness) 정도를 나타내는 지표입니다.
2.1 카디널리티가 높다 (High Cardinality)
- 해당 컬럼에 중복되는 값이 거의 없다는 의미입니다.
- 예:
items테이블의item_id,item_name
2.2 카디널리티가 낮다 (Low Cardinality)
- 해당 컬럼의 값이 몇 종류 안되어 중복되는 값이 많다는 의미입니다.
- 예:
items테이블의category(5종류),is_active(2종류)
2.3 왜 카디널리티가 중요한가?
- 인덱스는 '찾아보기'입니다. 찾아보기가 효과적이려면, 특정 키워드를 찾았을 때 검색 범위가 확 줄어들어야 합니다.
items테이블에서WHERE is_active = TRUE라는 조건으로 검색한다고 생각해 보겠습니다.is_active컬럼에 인덱스가 있더라도,TRUE인 데이 터가 전체의 80%라면, 데이터베이스는 인덱스를 통해 전체 데이터의 80%를 스캔해야 합니다.- 이런 경우 데이터베이스 옵티마이저는 "이럴 바엔 그냥 풀 테이블 스캔하는 게 낫겠다"고 판단할 수 있습니다.
- 반면
WHERE item_name = '게이밍 노트북'은 어떤가요? - 인덱스는 수십만 건의 상품 데이터 중 단 1건으로 검색 범위를 완벽하게 좁혀줍니다.
- 더 자세한 내용은 아래 문서를 참고해주세요.
인덱스 설계의 핵심 규칙
인덱스는 카디널리티가 높은, 즉 식별력이 좋은 컬럼에 생성할 때 가장 효율적입니다.
3. 인덱스 생성 가이드라인
- 위의 핵심 원칙을 바탕으로, 어떤 컬럼이 인덱스 후보가 되는지 구체적인 가이드라인을 살펴보겠습니다.
3.1 WHERE 절에서 자주 사용되는 컬럼
- 가장 기본적이고 명백한 가이드라인입니다.
- 인덱스의 존재 이유 자체가
WHERE절의 검색 속도를 높이는 것이기 때문입니다. - 사용자들이 상품을 검색할 때
items.item_name으로 검색하거나, 특정 카테고리(items.category)를 필터링한다면 이 컬럼들은 인덱스 생성의 우선 후보가 됩니다.
3.2 JOIN의 연결고리가 되는 컬럼 (외래 키)
JOIN의 성능은 연결고리가 되는 컬럼에 인덱스가 있는지 여부에 따라 극적으로 달라집니다.- '행복쇼핑' 판매자가 등록한 모든 상품을 조회하는 쿼리를 예로 들어보겠습니다.
SELECT
s.seller_name,
i.item_name,
i.price
FROM items i
JOIN sellers s ON i.seller_id = s.seller_id
WHERE s.seller_name = '행복쇼핑';
items.seller_id에 인덱스가 없을 때
- 만약
items테이블의seller_id컬럼(외래 키)에 인덱스가 없다면, 데이터베이스는 다음과 같이 비효율적으로 동작합니다.
sellers테이블에서seller_name이 '행복쇼핑'인 판매자를 찾습니다. (seller_id = 1)items테이블의 모든 행을 처음부터 끝까지 스캔하면서,seller_id가1인 상품을 하나씩 찾아냅니다.
조인의 논리적인 순서와 실제 순서의 차이
SQL의 논리적인 순서는 조인을 모두 다 한 다음에 WHERE를 실행합니다. 하지만 데이터베이스는 최적화를 위해 먼저 데이터를 줄인 다음에 조인합니다. 이때 최종 결과는 논리적인 순서와 같음을 보장합니다.
items테이블에 상품이 100만 개 있다면,JOIN을 위해 100만 번의 비교가 일어나는 끔찍한 일이 벌어집니다. 풀 테이블 스캔이 발생하는 것입니다.
items.seller_id에 인덱스가 있을 때
- 다행히
items.seller_id에는 외래 키 제약 조건 덕분에 인덱스가 자동으로 생성되어 있습니다. - 인덱스가 있을 때의 동작은 완전히 다릅니다.
sellers테이블에서seller_name이 '행복쇼핑'인 판매자를 찾습니다. (seller_id = 1)items.seller_id인덱스를 사용하여seller_id가1인 상품 데이터의 위치를 곧바로 찾아냅니다. 풀 테이블 스캔이 사라지고 몇 번의 탐색만으로JOIN이 완료됩니다.
EXPLAIN으로 확인해보겠습니다.
EXPLAIN SELECT
s.seller_name,
i.item_name,
i.price
FROM items i
JOIN sellers s ON i.seller_id = s.seller_id
WHERE s.seller_name = '행복쇼핑';
실행 결과
| id | table | type | key | rows | Extra |
|---|---|---|---|---|---|
| 1 | s | const | seller_name | 1 | Using index |
| 1 | i | ref | fk_items_sellers | 5 |
items테이블(i)의type이ref이고,key가fk_items_sellers인 것을 볼 수 있습니다.- 이는
JOIN과정에서items테이블을 조회할 때seller_id인덱스를 매우 효율적으로 사용했다는 증거입니다.
JOIN과 인덱스
따라서 JOIN에 사용되는 외래 키(Foreign Key) 컬럼에는 반드시 인덱스를 생성해야 합니다.
MySQL은 외래 키 제약조건을 설정하면 인덱스를 자동으로 생성합니다.
외래 키 제약조건이 없는 경우
종종 외래 키 제약조건을 걸지 않고 데이터베이스를 사용하는 경우도 있습니다. 이때는 조인 성능을 위해 외래 키로 사용되는 컬럼에 반드시 인덱스를 직접 생성해야 합니다.
3.3 ORDER BY 절에서 자주 사용되는 컬럼
ORDER BY를 사용한 정렬은 데 이터의 양이 많을 경우 매우 비용이 큰 작업입니다.- 데이터베이스는 결과를 반환하기 전에 모든 데이터를 메모리에 올리고 정렬해야 하기 때문입니다.
- 만약
ORDER BY에 사용된 컬럼에 인덱스가 있다면 어떨까요? - B-Tree 인덱스는 이미 데이터가 정렬된 상태로 저장되어 있습니다.
- 데이터베이스는 굳이 데이터를 따로 정렬할 필요 없이, 인덱스에 있는 순서 그대로 데이터를 읽기만 하면 됩니다.
- 비용이 큰 정렬 작업(filesort)을 완전히 건너뛸 수 있는 것입니다.
- '최신 등록 상품 목록 10개'를 보여주는
ORDER BY registered_date DESC LIMIT 10과 같은 쿼리는registered_date컬럼에 인덱스가 있을 때 엄청난 성능 향상을 기대할 수 있습니다.
4. 인덱스의 단점과 주의사항
- 지금까지 인덱스의 장점, 즉 검색(
SELECT) 속도를 비약적으로 향상시키는 원리에 대해 배웠습니다. - 이쯤 되면 '그럼 모든 컬럼에 인덱스를 걸면 최고 아닌가?' 라는 순수한 생각을 할 수도 있습니다.
- 결론부터 말하자면, 그것은 데이터베이스 성능을 망치는 최악의 선택입니다.
- 이번에는 "인덱스는 공짜가 아니다"라는 중요한 명제를 이해하고, 인덱스를 생성하고 유지하는 데 따르는 '비용', 즉 인덱스의 단점과 관리 시의 주의사항에 대해 알아보겠습니다.
- 모든 기술에는 명암이 있듯, 인덱스 역시 잘못 사용하면 약이 아니라 독이 될 수 있습니다.
4.1 인덱스는 공짜가 아니다: 인덱스의 단점
- 인덱스의 단점은 크게 두 가지 비용으로 설명할 수 있습니다.
1. 저장 공간 (Storage)
- 인덱스는 원본 테이블과는 별개로, B-Tree 구조를 가진 물리적인 파일로 디스크에 저장됩니다.
- 즉, 인덱스를 생성하면 그만큼의 추가 저장 공간이 필요합니다.
- 인덱스는 어떻게 구성하는지에 따라 다르지만, 일반적으로 원본 테이블 크기의 약 10% 내외의 공간을 추가로 차지한다고 알려져 있습니다.
- 만약 100GB에 달하는 거대한
items테이블이 있고, 여기에 5개의 인덱스를 추가로 생성한다면? - 인덱스만으로 약 50GB라는 무시할 수 없는 추가 디스크 공간이 필요하게 됩니다.
- 인덱스를 무분별하게 생성하면 디스크 사용량이 계속해서 늘어나는 것을 보게 될 것입니다.