차원과 전처리 분석하기

이번 연습 문제에서는 이전 문제의 영화 태그라인을 전처리한 lem_corpus가 제공됩니다. 즉, 태그라인을 소문자로 바꾸고 표제어 추출을 했으며, 불용어를 제거했습니다.

여러분의 목표는 표제어가 적용된 태그라인에 대해 bag-of-words 표현인 bow_lem_matrix를 생성하고, 이전 연습 문제에서 얻은 bow_matrix의 형태와 비교하는 것입니다. 확인하실 수 있도록 lem_corpus에 들어 있는 표제어 태그라인 5개가 콘솔에 출력되어 있어요.