Encontrar las palabras más comunes
Siempre es aconsejable, una vez que has creado tus características, inspeccionarlas para asegurarte de que son como esperabas. Esto te permitirá detectar errores pronto y quizá influir en qué más ingeniería de características necesitarás hacer.
El vectorizador (cv) que ajustaste en el último ejercicio y el array disperso con los conteos de palabras (cv_trigram) están disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Crea un DataFrame con las características (conteos de palabras).
- Suma las ocurrencias de las palabras e imprime las 5 palabras más frecuentes.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())