CommencerCommencer gratuitement

Regroupement de Wikipédia, deuxième partie

Il est maintenant temps de mettre en pratique le pipeline que vous avez créé lors de l'exercice précédent. On vous fournit un tableau articles contenant les fréquences tf-idf de certains mots populaires dans des articles Wikipédia, ainsi qu'une liste titles de leurs titres. Veuillez utiliser votre pipeline pour regrouper les articles Wikipédia.

Une solution à l'exercice précédent a été préchargée pour vous, vous disposez donc d'une chaîne d'pipeline s Pipeline associant TruncatedSVD et KMeans.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

  • Importez pandas en tant que pd.
  • Ajustez le pipeline au tableau de fréquence des mots articles.
  • Prédisez les étiquettes des clusters.
  • Alignez les étiquettes du cluster avec la liste d'titles s des titres d'articles en créant un DataFrame df avec labels et titles comme colonnes. Cela a été fait pour vous.
  • Utilisez la méthode .sort_values() de df pour trier le DataFrame selon la colonne 'label', puis affichez le résultat.
  • Cliquez sur « Soumettre » et prenez un moment pour examiner votre incroyable regroupement de pages Wikipédia.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Modifier et exécuter le code