1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 사기 탐지

Connected

Exercises

텍스트 데이터 정제

이제 불용어와 구두점을 정의했으니, 이를 활용해 데이터프레임 df의 Enron 이메일을 더 깨끗하게 정제해 보겠습니다. 불용어와 구두점 목록은 각각 stop과 exclude에 들어 있습니다. 정제를 마치기 전 해야 할 작업이 몇 가지 더 있는데, 단어 “표제어 추출(lemmatization)”과 동사 어간 추출(stemming) 등이 있습니다. 이메일 데이터의 동사는 이미 어간 추출이 되어 있고, 이번 연습 문제에서는 표제어 추출도 미리 적용해 두었습니다.

คำแนะนำ 1 / 2

undefined XP
    1
    2
  • 이전에 정의한 stop과 exclude 변수를 사용해 함수를 완성하세요: rstrip으로 단어의 공백을 제거하고, 불용어와 구두점을 제외하세요. 마지막으로 단어를 표제어로 변환하여 normalized에 할당하세요.