1. Учиться
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Machine Learning 특성 공학

Connected

Exercise

단어 세기 (I)

상위 수준의 정보가 정리되면, 이제 각 텍스트의 실제 내용에 기반한 특성을 만들 수 있어요. 이를 수행하는 한 가지 방법은 이전 레슨에서 범주형 변수를 다루던 방식과 비슷하게 접근하는 거예요.

  • 데이터셋에서 고유한 단어마다 하나의 열을 만듭니다.
  • 각 행에 대해 해당 단어가 나타난 횟수를 세어, 그 개수를 해당 열에 기록합니다.

이러한 "count" 열은 Machine Learning 모델을 학습시키는 데 활용할 수 있어요.

Инструкции

100 XP
  • sklearn.feature_extraction.text에서 CountVectorizer를 임포트하세요.
  • CountVectorizer를 인스턴스화하여 cv에 할당하세요.
  • text_clean 열에 벡터라이저를 학습(fit)시키세요.
  • 벡터라이저가 생성한 특성 이름을 출력하세요.