Transformando dados inéditos
Ao criar vetores a partir de texto, qualquer transformação que você faça antes de treinar um modelo de Machine Learning também precisa ser aplicada aos novos dados inéditos (teste). Para isso, siga a mesma abordagem do capítulo anterior: ajuste o vetorizador apenas nos dados de treino e aplique-o aos dados de teste.
Neste exercício, o DataFrame speech_df foi dividido em dois:
train_speech_df: o conjunto de treino, com os primeiros 45 discursos.test_speech_df: o conjunto de teste, com os discursos restantes.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Instancie
TfidfVectorizer. - Ajuste o vetorizador e aplique-o à coluna
text_clean. - Aplique o mesmo vetorizador à coluna
text_cleandos dados de teste. - Crie um DataFrame com esses novos atributos a partir do conjunto de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())