더 긴 n-그램 사용하기

지금까지는 각 텍스트에서 개별 단어를 기반으로 피처를 만들었어요. 이는 Machine Learning 모델에서 꽤 강력할 수 있지만, 단어를 개별적으로만 보면 많은 문맥이 무시될 수 있다는 걱정이 들 수 있습니다. 이를 보완하려면 모델을 만들 때 단어 n개를 연속으로 묶은 시퀀스인 n-그램을 사용할 수 있습니다. 예를 들어:

바이그램(bigrams): 연속된 두 단어의 시퀀스
트라이그램(trigrams): 연속된 세 단어의 시퀀스

이들은 ngram_range 인자를 (n1, n2) 형태의 튜플로 지정하면 데이터셋에 자동으로 생성되며, n1부터 n2 범위의 모든 n-그램이 포함됩니다.

sklearn.feature_extraction.text에서 CountVectorizer를 임포트하세요.
트라이그램만 고려하도록 CountVectorizer를 인스턴스화하세요.
벡터라이저를 text_clean 열에 한 번에 맞추고 변환하세요.
벡터라이저가 생성한 피처 이름을 출력하세요.

연습 문제

더 긴 n-그램 사용하기

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제