Transformar datos no vistos
Al crear vectores a partir de texto, cualquier transformación que realices antes de entrenar un modelo de Machine Learning también tienes que aplicarla a los nuevos datos no vistos (prueba). Para ello, sigue el mismo enfoque del capítulo anterior: ajusta el vectorizador solo con los datos de entrenamiento y aplícalo a los datos de prueba.
Para este ejercicio, el DataFrame speech_df se ha dividido en dos:
train_speech_df: el conjunto de entrenamiento con los primeros 45 discursos.test_speech_df: el conjunto de prueba con los discursos restantes.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Instancia
TfidfVectorizer. - Ajusta el vectorizador y aplícalo a la columna
text_clean. - Aplica el mismo vectorizador a la columna
text_cleande los datos de prueba. - Crea un DataFrame con estas nuevas características del conjunto de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())