1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

SMS 스팸 데이터 불러오기

데이터에서 직접 데이터 타입을 추론할 수 있다는 것을 보셨죠. 하지만 때로는 열 타입을 직접 제어하는 편이 더 편리할 때가 있어요. 이럴 때는 명시적인 스키마를 정의하면 됩니다.

sms.csv 파일에는 SMS 메시지 일부가 들어 있으며, 각 메시지는 'spam' 또는 'ham'으로 분류되어 있어요. 이 데이터는 UCI Machine Learning Repository에서 가져와 가공한 것입니다. 총 5574개의 SMS가 있고, 이 중 747개가 스팸으로 라벨링되어 있어요.

CSV 형식에 대한 참고 사항:

  • 헤더 레코드가 없으며
  • 필드는 세미콜론으로 구분됩니다(이는 기본 구분자가 아닙니다).

데이터 사전:

  • id — 레코드 식별자
  • text — SMS 메시지 내용
  • label — 스팸 여부(정수; 0 = ham, 1 = spam)

지침

100 XP
  • 데이터 스키마를 지정하세요. 열 이름("id", "text", "label")과 열 타입을 설정합니다.
  • "sms.csv"라는 구분자 기반 파일에서 데이터를 읽어오세요.
  • 생성된 DataFrame의 스키마를 출력하세요.