1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 데이터 정제하기

Connected

연습 문제

DataFrame 열 수정하기

이전에, 일반적으로 이름처럼 보이지 않는 행은 모두 걸러냈어요. 이제 그 작업을 바탕으로, 매니저가 두 개의 새 열 first_name과 last_name을 만들라고 요청했어요. VOTER_NAME 열을 공백 문자를 기준으로 단어로 분리하고, 마지막 단어를 last_name으로, 그 외의 모든 단어를 first_name으로 처리할 거예요. 이번 연습에서는 .split(), .size(), .getItem() 같은 새 함수를 사용해요. .getItem(index)는 정수를 받아 해당 위치의 항목을 반환해요. .split()과 .size() 함수는 pyspark.sql.functions 라이브러리에 있어요.

이러한 작업은 항상 사용 사례에 어느 정도 특화된다는 점을 유의하세요. 데이터가 특정 형식을 따르도록 맞추는 일이 형식의 세부 내용보다 더 중요한 경우가 많아요. 데이터 정제 작업은 한 사람만을 위해 수행되는 일이 거의 없으므로, 정의된 형식을 맞추면 나중에 데이터를 더 쉽게 공유할 수 있어요(예: Paul은 이름 처리에 신경 쓸 필요가 없고, Mary가 이미 데이터셋을 정리했어요).

이전 연습에서 필터링한 유권자 DataFrame은 voter_df로 제공돼요. pyspark.sql.functions 라이브러리는 별칭 F로 사용할 수 있어요.

지침

100 XP
  • 가능한 이름 목록을 담는 새 열 splits를 추가하세요.
  • getItem() 메서드를 사용해 새 열 first_name을 만드세요.
  • splits 리스트의 마지막 항목을 가져와 last_name 열을 만드세요.
  • splits 열을 삭제하고 새 voter_df를 확인하세요.