Regroupement de Wikipédia, deuxième partie
Il est maintenant temps de mettre en pratique le pipeline que vous avez créé lors de l'exercice précédent. On vous fournit un tableau articles
contenant les fréquences tf-idf de certains mots populaires dans des articles Wikipédia, ainsi qu'une liste titles
de leurs titres. Veuillez utiliser votre pipeline pour regrouper les articles Wikipédia.
Une solution à l'exercice précédent a été préchargée pour vous, vous disposez donc d'une chaîne d'pipeline
s Pipeline associant TruncatedSVD et KMeans.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importez
pandas
en tant quepd
. - Ajustez le pipeline au tableau de fréquence des mots
articles
. - Prédisez les étiquettes des clusters.
- Alignez les étiquettes du cluster avec la liste d'
titles
s des titres d'articles en créant un DataFramedf
aveclabels
ettitles
comme colonnes. Cela a été fait pour vous. - Utilisez la méthode
.sort_values()
dedf
pour trier le DataFrame selon la colonne'label'
, puis affichez le résultat. - Cliquez sur « Soumettre » et prenez un moment pour examiner votre incroyable regroupement de pages Wikipédia.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)