ComeçarComece de graça

Transformando dados inéditos

Ao criar vetores a partir de texto, qualquer transformação que você faça antes de treinar um modelo de Machine Learning também precisa ser aplicada aos novos dados inéditos (teste). Para isso, siga a mesma abordagem do capítulo anterior: ajuste o vetorizador apenas nos dados de treino e aplique-o aos dados de teste.

Neste exercício, o DataFrame speech_df foi dividido em dois:

  • train_speech_df: o conjunto de treino, com os primeiros 45 discursos.
  • test_speech_df: o conjunto de teste, com os discursos restantes.

Este exercício faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercício

  • Instancie TfidfVectorizer.
  • Ajuste o vetorizador e aplique-o à coluna text_clean.
  • Aplique o mesmo vetorizador à coluna text_clean dos dados de teste.
  • Crie um DataFrame com esses novos atributos a partir do conjunto de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())
Editar e executar o código