새 텍스트 변환하기

이번 연습 문제에서는 앞에서 만든 딕셔너리를 사용해 새 텍스트를 숫자 인덱스 시퀀스로 변환해 볼 거예요.

이는 이미 학습된 모델을 새 데이터셋에 적용할 때 유용해요. 학습 데이터에 수행했던 전처리 단계는 새 텍스트에도 동일하게 적용되어야 모델이 예측/분류를 제대로 할 수 있어요.

여기서는 어휘에 없는 단어를 나타내기 위해 특수 토큰 '<UKN/>'도 사용해요. 일반적으로 이런 특수 토큰은 딕셔너리의 맨 앞 인덱스, 즉 위치 0에 배치해요.

word_to_index, index_to_word, vocabulary 변수는 이미 환경에 로드되어 있어요. 또한 새 텍스트는 new_text라는 변수로 로드되어 있으며, 확인할 수 있도록 출력해 두었어요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제