텍스트 데이터 정제

이제 불용어와 구두점을 정의했으니, 이를 활용해 데이터프레임 df의 Enron 이메일을 더 깨끗하게 정제해 보겠습니다. 불용어와 구두점 목록은 각각 stop과 exclude에 들어 있습니다. 정제를 마치기 전 해야 할 작업이 몇 가지 더 있는데, 단어 “표제어 추출(lemmatization)”과 동사 어간 추출(stemming) 등이 있습니다. 이메일 데이터의 동사는 이미 어간 추출이 되어 있고, 이번 연습 문제에서는 표제어 추출도 미리 적용해 두었습니다.