ComeçarComece de graça

Encontrando as palavras mais comuns

Sempre vale a pena, depois de criar seus recursos, inspecioná-los para garantir que estejam como você espera. Isso permite identificar erros cedo e talvez influenciar quais outras técnicas de engenharia de atributos você vai precisar aplicar.

O vetorizador (cv) que você ajustou no exercício anterior e o array esparso com as contagens de palavras (cv_trigram) estão disponíveis no seu ambiente de trabalho.

Este exercício faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercício

  • Crie um DataFrame com os recursos (contagens de palavras).
  • Some as ocorrências das palavras e imprima as 5 mais frequentes.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a DataFrame of the features
cv_tri_df = ____(____, 
                 columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')

# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())
Editar e executar o código