1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

텍스트에서 새 특성 추출하기

Minnesota에서는 대부분 차를 소유하고 있고, 야외에 주차하면 눈을 치우기 번거롭기 때문에 차고가 주택에서 중요한 요소예요. 차고의 종류도 중요해요. 집 안에서 바로 차고로 이동해 추위를 피할 수 있는지가 관건이죠. 집에 차고가 붙어 있는지를 나타내는 has_attached_garage 특성을 만들어 보겠습니다.

지침

100 XP
  • pyspark.sql.functions에서 필요한 함수 when()을 임포트하세요.
  • df['GARAGEDESCRIPTION']에서 문자열 패턴 Attached Garage를 찾기 위해 like()를 사용해 문자열 매칭 조건을 만들고, 어디에 있어도 매치되도록 와일드카드 %를 사용하세요.
  • 같은 방식으로, df['GARAGEDESCRIPTION']에서 문자열 패턴 Detached Garage를 찾기 위한 조건을 like()로 만들고, 필드의 어디든 매치되도록 와일드카드 %를 사용하세요.
  • when()을 사용해 새 열 has_attached_garage를 만들고, 붙어 있는 차고면 값 1을, 분리된 차고면 0을 할당하세요. 둘 다 아닌 경우에는 otherwise()와 None을 사용해 null을 지정하세요.