1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 NLP 피처 엔지니어링

Connected

연습 문제

데이터프레임에서 TED 강연 정리하기

이 연습 문제에서는 1장에 나왔던 TED 강연으로 돌아가 보겠습니다. 5개의 TED 강연으로 구성된 데이터프레임 ted가 제공됩니다. 여러분의 과제는 앞에서 다룬 기법을 사용해 preprocess 함수를 작성하고, 이를 데이터프레임의 transcript 특성에 적용하여 강연 내용을 정리(clean)하는 것입니다.

불용어 목록은 stopwords로 제공됩니다.

지침

100 XP
  • text에 대한 Doc 객체를 생성하세요. 지금은 disable 인수는 무시해도 됩니다.
  • 리스트 컴프리헨션과 lemma_ 속성을 사용해 표제어 목록을 생성하세요.
  • if 조건에서 isalpha()를 사용해 알파벳이 아닌 문자들을 제거하세요.