1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

구두점, 숫자, 토큰

이전 챕터의 마지막에서, SMS 메시지 데이터셋을 불러왔습니다. 이 데이터는 "spam"(레이블 1) 또는 "ham"(레이블 0)으로 라벨링되어 있었죠. 이제 이 데이터를 사용해 분류 모델을 만들어 보겠습니다.

그전에 SMS 메시지를 다음과 같이 준비해야 합니다.

  • 구두점과 숫자 제거
  • 토크나이즈(단어 단위로 분리)
  • 불용어 제거
  • 해싱 트릭 적용
  • TF-IDF 표현으로 변환

이번 연습에서는 구두점과 숫자를 제거한 뒤, 메시지를 토크나이즈합니다.

SMS 데이터는 sms로 제공됩니다.

지침

100 XP
  • 정규식을 치환하는 함수와 토크나이즈 기능을 import하세요.
  • text 열에서 모든 구두점 문자를 공백으로 바꾸세요. 숫자에 대해서도 동일하게 처리하세요.
  • text 열을 토큰으로 분할하세요. 출력 열 이름은 words로 지정하세요.