Principais termos em grupos de filmes
Agora que você criou uma matriz esparsa, gere centros de cluster e imprima os três principais termos em cada cluster. Use o método .todense()
para converter a matriz esparsa, tfidf_matrix
, em uma matriz normal para a função kmeans()
processar. Em seguida, use o método .get_feature_names()
para obter uma lista de termos no objeto tfidf_vectorizer
. A função zip()
em Python junta duas listas.
O objeto tfidf_vectorizer
e a matriz esparsa, tfidf_matrix
, do exercício anterior foram mantidos neste exercício. kmeans
foi importado do SciPy.
Com um número maior de pontos de dados, os grupos formados seriam definidos com mais clareza. No entanto, isso requer algum poder computacional, o que dificulta a realização de um exercício aqui.
Este exercício faz parte do curso
Análise de cluster em Python
Instruções do exercício
- Gerar centros de cluster por meio da função
kmeans()
. - Gerar uma lista de termos a partir do objeto
tfidf_vectorizer
. - Imprima os 3 principais termos de cada cluster.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
num_clusters = 2
# Generate cluster centers through the kmeans function
cluster_centers, distortion = ____
# Generate terms from the tfidf_vectorizer object
terms = tfidf_vectorizer.____()
for i in range(num_clusters):
# Sort the terms and print top 3 terms
center_terms = dict(zip(____, ____))
sorted_terms = sorted(____, key=center_terms.get, reverse=True)
print(____)