Transformar datos no vistos

Al crear vectores a partir de texto, cualquier transformación que realices antes de entrenar un modelo de Machine Learning también tienes que aplicarla a los nuevos datos no vistos (prueba). Para ello, sigue el mismo enfoque del capítulo anterior: ajusta el vectorizador solo con los datos de entrenamiento y aplícalo a los datos de prueba.

Para este ejercicio, el DataFrame speech_df se ha dividido en dos:

train_speech_df: el conjunto de entrenamiento con los primeros 45 discursos.
test_speech_df: el conjunto de prueba con los discursos restantes.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Instancia TfidfVectorizer.
Ajusta el vectorizador y aplícalo a la columna text_clean.
Aplica el mismo vectorizador a la columna text_clean de los datos de prueba.
Crea un DataFrame con estas nuevas características del conjunto de prueba.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())

Editar y ejecutar código