1. 学习
  2. /
  3. 课程
  4. /
  5. Python으로 배우는 사기 탐지

Connected

练习

불용어 제거

다음 연습에서는 토픽 모델에 사용할 수 있도록 Enron 이메일을 정제해 보려고 합니다. 텍스트 정제는 까다로울 수 있으니, 이를 잘 수행하는 몇 가지 단계를 익히게 될 거예요. 이메일이 담긴 데이터프레임 df가 제공되어 있습니다. 첫 단계로, 다음 연습에서 텍스트 데이터에서 제거할 불용어 목록과 문장 부호 집합을 정의해야 합니다. 같이 시작해 볼까요?

说明

100 XP
  • ntlk에서 불용어를 가져오세요.
  • stop 변수에 불용어로 사용할 'english' 단어들을 정의하세요.
  • string 패키지에서 문장 부호 집합을 가져와 exclude에 할당하세요.