1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

演習

열 목록 삭제하기

이 데이터 세트에는 다양한 특성이 풍부하게 담겨 있지만, 모두 가치 있는 것은 아니에요. 실용적으로 다루기 어려운 항목도 많습니다. 당장은 유용하지 않은 열은 삭제해서 정리해 보겠습니다.

  • 'STREETNUMBERNUMERIC': 주택의 우편 주소 번호
  • 'FIREPLACES': 주택 내 벽난로 개수
  • 'LOTSIZEDIMENSIONS': 대지 모양을 설명하는 자유 텍스트
  • 'LISTTYPE': 매각 유형의 사전 정의된 값 집합
  • 'ACRES': 대지 면적의 수치값

指示

100 XP
  • 위의 열 설명 목록을 읽고, 이미 해당 열로 필터링된 데이터프레임 df에서 show()로 상위 30개 값을 살펴보세요.
  • 주택 가격 예측과의 관련성이 낮은 두 개의 열을 골라 cols_to_drop라는 리스트로 만드세요. 컴퓨터는 맥락을 이해하지 못하고 명시적인 숫자만 해석한다는 점을 기억하세요.
  • drop() 함수를 사용해 데이터프레임 df에서 cols_to_drop에 있는 열들을 제거하세요.