[SELECT] 대장균의 크기에 따라 분류하기 2

2024. 10. 14. 18:00SQL 고득점 Kit/SELECT

https://school.programmers.co.kr/learn/courses/30/lessons/301649

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr


문제 설명
대장균들은 일정 주기로 분화하며, 분화를 시작한 개체를 부모 개체, 분화가 되어 나온 개체를 자식 개체라고 합니다.
다음은 실험실에서 배양한 대장균들의 정보를 담은 ECOLI_DATA 테이블입니다.

ECOLI_DATA 테이블의 구조는 다음과 같으며, ID, PARENT_ID, SIZE_OF_COLONY, DIFFERENTIATION_DATE, GENOTYPE 은 각각 대장균 개체의 ID, 부모 개체의 ID, 개체의 크기, 분화되어 나온 날짜, 개체의 형질을 나타냅니다.

Column name Type Nullable
ID INTEGER FALSE
PARENT_ID INTEGER TRUE
SIZE_OF_COLONY INTEGER FALSE
DIFFERENTIATION_DATE DATE FALSE
GENOTYPE INTEGER FALSE


최초의 대장균 개체의 PARENT_ID 는 NULL 값입니다.


문제
대장균 개체의 크기를 내림차순으로 정렬했을 때 상위 0% ~ 25% 를 'CRITICAL', 26% ~ 50% 를 'HIGH', 51% ~ 75% 를 'MEDIUM', 76% ~ 100% 를 'LOW' 라고 분류합니다.

대장균 개체의 ID(ID) 와 분류된 이름(COLONY_NAME)을 출력하는 SQL 문을 작성해주세요.

이때 결과는 개체의 ID 에 대해 오름차순 정렬해주세요.

단, 총 데이터의 수는 4의 배수이며 같은 사이즈의 대장균 개체가 서로 다른 이름으로 분류되는 경우는 없습니다.


예시
예를 들어 ECOLI_DATA 테이블이 다음과 같다면

ID PARENT_ID SIZE_OF_COLONY DIFFERENTIATION_DATE GENOTYPE
1 NULL 10 2019/01/01 5
2 NULL 2 2019/01/01 3
3 1 100 2020/01/01 4
4 2 16 2020/01/01 4
5 2 17 2020/01/01 6
6 4 101 2021/01/01 22
7 6 101 2022/01/01 23
8 6 1 2022/01/01 27


기준에 의해 분류된 대장균들의 ID는 다음과 같습니다.

  • CRITICAL (상위 0% ~ 25%) : ID 6, ID 7
  • HIGH (상위 26% ~ 50%) : ID 3, ID 5
  • MEDIUM (상위 51% ~ 75%) : ID 1, ID 4
  • LOW (상위 76% ~ 100%) : ID 2, ID 8

따라서 결과를 ID 에 대해 오름차순 정렬하면 다음과 같아야 합니다.

ID COLONY_NAME
1 MEDIUM
2 LOW
3 HIGH
4 MEDIUM
5 HIGH
6 CRITICAL
7 CRITICAL
8 LOW

대장균 개체의 크기가 상위 몇 %에 속할 때마다 분류를 다르게 하는 문제입니다.

 

이 문제는 총 4개의 구간으로 나누어져 있습니다. 그리고 각 구간이 모두 동일한 간격 범위를 가지죠.

이럴 때 사용하는 함수가 NTILE 함수입니다.

 

NTILE 함수는 데이터를 동일한 구간으로 나누어 각 구간에 대한 번호를 매겨주는 함수입니다.

우리는 총 4개의 간격이 필요하기 때문에, NTILE(4) OVER (ORDER BY 기준열 DESC)을 사용한다면 기준열을 4개의 범위로 나누어 어느 구간에 속하는지 알 수 있습니다.

 

정답 코드를 작성해보겠습니다.

WITH RANKED_ECOLI AS (
    SELECT ID,
           NTILE(4) OVER (ORDER BY SIZE_OF_COLONY DESC) AS QUARTILE
    FROM ECOLI_DATA
)

  SELECT ID,
         CASE
              WHEN QUARTILE = 1 THEN 'CRITICAL'
              WHEN QUARTILE = 2 THEN 'HIGH'
              WHEN QUARTILE = 3 THEN 'MEDIUM'
              ELSE 'LOW'
          END AS COLONY_NAME
    FROM RANKED_ECOLI
ORDER BY ID;

 

QUARTILE이라는 컬럼명으로 1사분위, 2사분위, 3사분위, 4사분위를 나눠줍니다.

그 다음, CASE WHEN 구문을 사용해 각각의 범위마다의 이름을 붙여주면 됩니다.

 

NTILE 함수를 사용할 수 있다면 이런 범위 문제를 편하게 풀 수 있습니다.