Instanciar el modelo TF-IDF

De forma predeterminada, TF-IDF genera una columna por cada palabra presente en todos tus documentos (en nuestro caso, los resúmenes de películas). Esto crea un conjunto de datos enorme y poco intuitivo, ya que contendrá tanto palabras muy comunes que aparecen en todos los documentos como palabras tan raras que no aportan valor para encontrar similitudes entre ítems.

En este ejercicio, trabajarás con el DataFrame df_plots. Contiene los nombres de las películas en la columna Title y sus sinopsis en la columna Plot.

Con este DataFrame, generarás los valores TF-IDF predeterminados y comprobarás si hay columnas poco útiles.

Después volverás a ejecutar los cálculos de TF-IDF, esta vez limitando el número de columnas usando los argumentos min_df y max_df, y verás la mejora.

Este ejercicio forma parte del curso

Creación de motores de recomendación en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())

Editar y ejecutar código