ComeçarComece de graça

Principais termos em grupos de filmes

Agora que você criou uma matriz esparsa, gere centros de cluster e imprima os três principais termos em cada cluster. Use o método .todense() para converter a matriz esparsa, tfidf_matrix, em uma matriz normal para a função kmeans() processar. Em seguida, use o método .get_feature_names() para obter uma lista de termos no objeto tfidf_vectorizer. A função zip() em Python junta duas listas.

O objeto tfidf_vectorizer e a matriz esparsa, tfidf_matrix, do exercício anterior foram mantidos neste exercício. kmeans foi importado do SciPy.

Com um número maior de pontos de dados, os grupos formados seriam definidos com mais clareza. No entanto, isso requer algum poder computacional, o que dificulta a realização de um exercício aqui.

Este exercício faz parte do curso

Análise de cluster em Python

Ver curso

Instruções do exercício

  • Gerar centros de cluster por meio da função kmeans().
  • Gerar uma lista de termos a partir do objeto tfidf_vectorizer.
  • Imprima os 3 principais termos de cada cluster.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

num_clusters = 2

# Generate cluster centers through the kmeans function
cluster_centers, distortion = ____

# Generate terms from the tfidf_vectorizer object
terms = tfidf_vectorizer.____()

for i in range(num_clusters):
    # Sort the terms and print top 3 terms
    center_terms = dict(zip(____, ____))
    sorted_terms = sorted(____, key=center_terms.get, reverse=True)
    print(____)
Editar e executar o código