1. 학습
  2. /
  3. 강의
  4. /
  5. Keras로 배우는 언어 모델링을 위한 순환 신경망(RNN)

Connected

연습 문제

새 텍스트 변환하기

이번 연습 문제에서는 앞에서 만든 딕셔너리를 사용해 새 텍스트를 숫자 인덱스 시퀀스로 변환해 볼 거예요.

이는 이미 학습된 모델을 새 데이터셋에 적용할 때 유용해요. 학습 데이터에 수행했던 전처리 단계는 새 텍스트에도 동일하게 적용되어야 모델이 예측/분류를 제대로 할 수 있어요.

여기서는 어휘에 없는 단어를 나타내기 위해 특수 토큰 '<UKN/>'도 사용해요. 일반적으로 이런 특수 토큰은 딕셔너리의 맨 앞 인덱스, 즉 위치 0에 배치해요.

word_to_index, index_to_word, vocabulary 변수는 이미 환경에 로드되어 있어요. 또한 새 텍스트는 new_text라는 변수로 로드되어 있으며, 확인할 수 있도록 출력해 두었어요.

지침

100 XP
  • 문장들이 들어 있는 리스트 new_text를 순회하세요.
  • 단어가 딕셔너리에 없으면 인덱스를 0으로 설정하세요.
  • 인덱스로 변환된 문장을 변수 new_text_split에 추가하세요.
  • 딕셔너리 index_to_word를 사용해 인덱스를 다시 텍스트로 변환하세요.