Hive 파티션 데이터셋 스캔하기

팀은 정리된 Parquet 대출 데이터를 Hive 파티션 구조로 저장하고 있습니다. 연도별로 디렉터리가 구분되어 있으며(checkoutyear=2023/, checkoutyear=2024/), 파티션 데이터셋을 스캔한 뒤 파티션 열을 기준으로 필터링하여 필요한 연도의 데이터만 읽어오세요.

polars는 pl로 로드되어 있으며, 루트 디렉터리는 HIVE_DIR에 저장되어 있습니다. 파티션 디렉터리는 미리 출력되어 있으므로 전체 구조를 확인할 수 있습니다.

이 연습은 강의의 일부입니다

Polars로 데이터 파이프라인 확장 및 최적화하기

강의 보기

연습 안내

HIVE_DIR을 스캔할 때 Hive 파티셔닝을 활성화하는 인수를 사용하세요.
결과를 2024년 이후의 대출 데이터로 필터링하세요.

실습형 인터랙티브 연습

이 예제를 이 샘플 코드를 완성하여 풀어보세요.

requests = pl.scan_parquet(
    HIVE_DIR,
    # Enable hive partitioning
    ____=True,
)

result = (
    requests
    # Filter to the 2024 partition
    .filter(pl.col("checkoutyear") >= ____)
    .group_by("format")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    .collect()
)
print(result)

코드 편집 및 실행