Encontrando as palavras mais comuns

Sempre vale a pena, depois de criar seus recursos, inspecioná-los para garantir que estejam como você espera. Isso permite identificar erros cedo e talvez influenciar quais outras técnicas de engenharia de atributos você vai precisar aplicar.

O vetorizador (cv) que você ajustou no exercício anterior e o array esparso com as contagens de palavras (cv_trigram) estão disponíveis no seu ambiente de trabalho.

Este exercicio faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercicio

Crie um DataFrame com os recursos (contagens de palavras).
Some as ocorrências das palavras e imprima as 5 mais frequentes.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a DataFrame of the features
cv_tri_df = ____(____, 
                 columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')

# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())

Editar e Executar Código