Regroupement Wikipédia, partie II
Il est maintenant temps de mettre en pratique le pipeline créé lors de l'exercice précédent. Vous disposez d'un tableau « articles » contenant les fréquences des mots tf-idf de certains articles populaires de Wikipédia, ainsi que d'une liste « titres » contenant leurs titres. Veuillez utiliser votre pipeline pour regrouper les articles de Wikipédia.
Une solution à l'exercice précédent a été préchargée pour vous, vous disposez donc d'un pipeline « pipeline » associant TruncatedSVD et KMeans.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importez
pandassous le nompd. - Adaptez le pipeline au tableau de fréquence des mots
articles. - Prédisez les étiquettes des clusters.
- Alignez les étiquettes des clusters avec la liste
titlesdes titres d'articles en créant un DataFramedfaveclabelsettitlescomme colonnes. Cela a déjà été effectué pour vous. - Utilisez la méthode
.sort_values()dedfpour trier le DataFrame par colonne'label', puis affichez le résultat. - Cliquez sur « Soumettre » et prenez le temps d'examiner votre remarquable regroupement des pages Wikipédia.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)