Aan de slagGa gratis aan de slag

Toptermen in filmclusters

Nu je een sparse matrix hebt gemaakt, genereer je clustercentra en print je de drie belangrijkste termen in elk cluster. Gebruik de methode .todense() om de sparse matrix tfidf_matrix om te zetten naar een normale matrix zodat de functie kmeans() die kan verwerken. Gebruik daarna de methode .get_feature_names() om een lijst met termen uit het object tfidf_vectorizer op te halen. De functie zip() in Python voegt twee lijsten samen.

Het object tfidf_vectorizer en de sparse matrix tfidf_matrix uit de vorige oefening zijn hier bewaard. kmeans is geïmporteerd uit SciPy.

Met meer datapunten worden de gevormde clusters duidelijker gedefinieerd. Dat vraagt echter meer rekenkracht, waardoor het lastig is om dat in deze oefening te doen.

Deze oefening maakt deel uit van de cursus

Clusteranalyse in Python

Cursus bekijken

Oefeninstructies

  • Genereer clustercentra met de functie kmeans().
  • Maak een lijst met termen uit het object tfidf_vectorizer.
  • Print de top 3 termen van elk cluster.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

num_clusters = 2

# Generate cluster centers through the kmeans function
cluster_centers, distortion = ____

# Generate terms from the tfidf_vectorizer object
terms = tfidf_vectorizer.____()

for i in range(num_clusters):
    # Sort the terms and print top 3 terms
    center_terms = dict(zip(____, ____))
    sorted_terms = sorted(____, key=center_terms.get, reverse=True)
    print(____)
Code bewerken en uitvoeren