1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

DataFrame 필터링하기

이전 연습 문제에서는 주로 열 단위로 DataFrame을 부분 선택하는 select() 연산자를 사용했어요. 그럼 조건에 따라 DataFrame을 부분 선택하려면 어떻게 할까요? (예: 성별이 Female인 모든 행 선택) 이번 연습에서는 people_df DataFrame에서 'sex'가 female인 행과 male인 행을 각각 필터링하여 두 개의 데이터셋을 만들고, 마지막으로 각 데이터셋의 행 수를 세어 볼 거예요.

워크스페이스에는 이미 SparkSession spark와 DataFrame people_df가 준비되어 있어요.

지침

100 XP
  • people_df DataFrame에서 성별이 female인 모든 행을 필터링하여 people_df_female DataFrame에 저장하세요.
  • people_df DataFrame에서 성별이 male인 모든 행을 필터링하여 people_df_male DataFrame에 저장하세요.
  • people_df_female와 people_df_male DataFrame의 행 개수를 각각 세세요.