Tf-idf
Aunque contar las ocurrencias de las palabras puede ayudar a construir modelos, aquellas que aparecen muchas veces pueden sesgar los resultados de forma indeseada. Para evitar que estas palabras comunes dominen tu modelo, se puede aplicar una forma de normalización. En esta lección utilizarás la frecuencia de término–frecuencia inversa de documento (Tf-idf), como se comentó en el vídeo. Tf-idf reduce el valor de las palabras muy frecuentes y aumenta el peso de las que no aparecen en muchos documentos.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Importa
TfidfVectorizerdesdesklearn.feature_extraction.text. - Instancia
TfidfVectorizerlimitando el número de características a 100 y eliminando las stop words en inglés. - Ajusta y aplica el vectorizador sobre la columna
text_cleanen un solo paso. - Crea un DataFrame
tv_dfque contenga los pesos de las palabras y usa los nombres de las características como nombres de columna.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import TfidfVectorizer
____
# Instantiate TfidfVectorizer
tv = ____
# Fit the vectroizer and transform the data
tv_transformed = ____(speech_df['text_clean'])
# Create a DataFrame with these features
tv_df = pd.DataFrame(tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(tv_df.head())