ComenzarEmpieza gratis

Transformar datos no vistos

Al crear vectores a partir de texto, cualquier transformación que realices antes de entrenar un modelo de Machine Learning también tienes que aplicarla a los nuevos datos no vistos (prueba). Para ello, sigue el mismo enfoque del capítulo anterior: ajusta el vectorizador solo con los datos de entrenamiento y aplícalo a los datos de prueba.

Para este ejercicio, el DataFrame speech_df se ha dividido en dos:

  • train_speech_df: el conjunto de entrenamiento con los primeros 45 discursos.
  • test_speech_df: el conjunto de prueba con los discursos restantes.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Instancia TfidfVectorizer.
  • Ajusta el vectorizador y aplícalo a la columna text_clean.
  • Aplica el mismo vectorizador a la columna text_clean de los datos de prueba.
  • Crea un DataFrame con estas nuevas características del conjunto de prueba.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())
Editar y ejecutar código