1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Machine Learning 특성 공학

Connected

연습 문제

텍스트 정리하기

비정형 텍스트 데이터는 대부분의 분석에 바로 사용할 수 없어요. 자유 형식의 긴 문자열을 Machine Learning 모델이 받아들일 수 있는 올바른 형식의 숫자형 열 집합으로 바꾸려면 여러 단계가 필요합니다. 그 첫 단계는 데이터를 표준화하고, 이후 분석 파이프라인에서 문제를 일으킬 수 있는 문자를 제거하는 것입니다.

이 장에서는 미국 대통령들의 취임 연설이 담긴 새 데이터셋을 사용해요. 이 데이터는 speech_df로 로드되어 있으며, 연설문은 text 열에 저장되어 있습니다.

지침 1/2

undefined XP
    1
    2

자유 텍스트 필드를 확인하기 위해 text 열의 처음 5개 행을 출력하세요.