ComenzarEmpieza gratis

Tf-idf

Aunque contar las ocurrencias de las palabras puede ayudar a construir modelos, aquellas que aparecen muchas veces pueden sesgar los resultados de forma indeseada. Para evitar que estas palabras comunes dominen tu modelo, se puede aplicar una forma de normalización. En esta lección utilizarás la frecuencia de término–frecuencia inversa de documento (Tf-idf), como se comentó en el vídeo. Tf-idf reduce el valor de las palabras muy frecuentes y aumenta el peso de las que no aparecen en muchos documentos.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Importa TfidfVectorizer desde sklearn.feature_extraction.text.
  • Instancia TfidfVectorizer limitando el número de características a 100 y eliminando las stop words en inglés.
  • Ajusta y aplica el vectorizador sobre la columna text_clean en un solo paso.
  • Crea un DataFrame tv_df que contenga los pesos de las palabras y usa los nombres de las características como nombres de columna.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import TfidfVectorizer
____

# Instantiate TfidfVectorizer
tv = ____

# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])

# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____, 
                     columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())
Editar y ejecutar código