Keras 전처리

Keras에서 두 번째로 중요한 모듈은 keras.preprocessing입니다. 이 모듈의 핵심 구성요소와 함수를 사용해 원시 데이터를 올바른 입력 형태로 준비하는 방법을 배워 봅니다. Keras는 앞에서 학습한 사전(dictionary) 방식의 대안을 제공해요.

keras.preprocessing.text.Tokenizer 모듈을 사용해 .fit_on_texts() 메서드로 단어 사전을 만들고, .texts_to_sequences() 메서드로 각 단어의 사전 내 인덱스를 나타내는 숫자 id 시퀀스로 텍스트를 변환하세요.

그다음 keras.preprocessing.sequence의 .pad_sequences() 함수를 사용해 짧은 텍스트에는 0을 추가하고 긴 텍스트는 잘라서 모든 시퀀스의 길이를 동일하게 맞추세요(모델에 필요).