Encontrando as palavras mais comuns
Sempre vale a pena, depois de criar seus recursos, inspecioná-los para garantir que estejam como você espera. Isso permite identificar erros cedo e talvez influenciar quais outras técnicas de engenharia de atributos você vai precisar aplicar.
O vetorizador (cv) que você ajustou no exercício anterior e o array esparso com as contagens de palavras (cv_trigram) estão disponíveis no seu ambiente de trabalho.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Crie um DataFrame com os recursos (contagens de palavras).
- Some as ocorrências das palavras e imprima as 5 mais frequentes.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())