CommencerCommencer gratuitement

Regroupement Wikipédia, partie II

Il est maintenant temps de mettre en pratique le pipeline créé lors de l'exercice précédent. Vous disposez d'un tableau « articles » contenant les fréquences des mots tf-idf de certains articles populaires de Wikipédia, ainsi que d'une liste « titres » contenant leurs titres. Veuillez utiliser votre pipeline pour regrouper les articles de Wikipédia.

Une solution à l'exercice précédent a été préchargée pour vous, vous disposez donc d'un pipeline « pipeline » associant TruncatedSVD et KMeans.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

  • Importez pandas sous le nom pd.
  • Adaptez le pipeline au tableau de fréquence des mots articles.
  • Prédisez les étiquettes des clusters.
  • Alignez les étiquettes des clusters avec la liste titles des titres d'articles en créant un DataFrame df avec labels et titles comme colonnes. Cela a déjà été effectué pour vous.
  • Utilisez la méthode .sort_values() de df pour trier le DataFrame par colonne 'label', puis affichez le résultat.
  • Cliquez sur « Soumettre » et prenez le temps d'examiner votre remarquable regroupement des pages Wikipédia.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Modifier et exécuter le code