1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

텍스트 필터로 레코드 제거하기

클라이언트에게 질문을 많이 하고, 변수의 의미를 충분히 파악하는 데 시간을 들이는 게 중요해요. 부동산 업계에서 assumable mortgage는 드문 경우이고, 이를 제외하자는 클라이언트의 제안을 받았다고 가정해 봅시다. 이 연습에서는 like()와 비슷하지만 단일 값 대신 값의 목록을 필터로 전달할 수 있는 isin()을 사용해 보겠습니다.

지침

100 XP
  • select()와 show()를 사용해 'ASSUMABLEMORTGAGE' 열의 고유 값을 살펴보고, 문자열 'Yes'를 포함하는 모든 값을 담은 리스트 yes_values를 만드세요.
  • ~df['ASSUMABLEMORTGAGE'], isin(), .isNull()을 사용해, 리스트 yes_values에 해당하는 값을 포함한 레코드를 제거하고 null 값은 유지하는 NOT 필터를 생성하세요. 이 필터를 변수 text_filter에 저장하세요.
  • where()로 text_filter를 df에 적용하세요.
  • df에 남아 있는 레코드 수를 출력하세요.