1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 배우는 Machine Learning 특성 공학

Connected

演習

보지 못한 데이터 변환하기

텍스트에서 벡터를 만들 때, Machine Learning 모델을 학습하기 전에 수행한 모든 전처리와 변환은, 새로 들어오는 미확인(테스트) 데이터에도 동일하게 적용해야 해요. 이를 위해 지난 장과 같은 접근을 따르세요: 벡터라이저는 학습 데이터에만 맞추고(fit), 테스트 데이터에는 이를 적용(transform)합니다.

이번 연습 문제에서는 speech_df DataFrame이 두 부분으로 나뉘어 있어요:

  • train_speech_df: 처음 45개 연설로 구성된 학습 세트
  • test_speech_df: 나머지 연설로 구성된 테스트 세트

指示

100 XP
  • TfidfVectorizer를 인스턴스화하세요.
  • 벡터라이저를 학습 데이터의 text_clean 열에 맞추고 적용하세요.
  • 동일한 벡터라이저를 테스트 데이터의 text_clean 열에도 적용하세요.
  • 테스트 세트에서 생성된 이 새로운 특징들로 DataFrame을 만드세요.